数据挖掘面试题及答案
2024-01-09 16:38:00
来源 : haohaofanwen.com
投稿人 : admin
下面是好好范文网小编收集整理的数据挖掘面试题及答案,仅供参考,欢迎大家阅读!
数据挖掘常见面试题(持续更新中)
1、你理解什么是数据挖掘?
数据挖掘就是由数据准备,数据挖掘和对结果的解释评估三部分组成。数据准备包括数据选取,数据预处理和数据变化。数据挖掘部分包括确定挖掘的任务或目的,选择挖掘算法。最后将结果可视化或者转化为易于理解的形式。
2、为什么会产生过拟合,有哪些方法可以预防或克服过拟合?(常问问题)
所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。
过拟合产生的原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
解决方法:
几乎所有集成模型都是为了防止过拟合的。
3、样本不平衡处理方法?(好多次)
a、负样本少,就复制到一定比例
b、或者把正样本删除一部分
c、分段逐一训练(举例:正样本10000,负样本1000,将正样本随机分成10份,每份1000,然后拿着负样本的1000与正样本的每一份进行训练,最后进行融合选择)
d、模型参数调权重(模型里面有个参数可以调整样本权重)
e、交叉验证
f、根据样本随机构造新的样本
4、高维海量数据搜索
KNN(维度20以下)
上一篇:中检集团北京分公司招聘(中国检验认证 集团)
下一篇:事业单位纪检委员的主要职责