数据挖掘面试题及答案

2024-01-09 16:38:00 来源 : haohaofanwen.com 投稿人 : admin

下面是好好范文网小编收集整理的数据挖掘面试题及答案,仅供参考,欢迎大家阅读!

数据挖掘 面试题

数据挖掘常见面试题(持续更新中)

1、你理解什么是数据挖掘?

数据挖掘就是由数据准备,数据挖掘和对结果的解释评估三部分组成。数据准备包括数据选取,数据预处理和数据变化。数据挖掘部分包括确定挖掘的任务或目的,选择挖掘算法。最后将结果可视化或者转化为易于理解的形式。

2、为什么会产生过拟合,有哪些方法可以预防或克服过拟合?(常问问题)

所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。

过拟合产生的原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

解决方法:

几乎所有集成模型都是为了防止过拟合的。

3、样本不平衡处理方法?(好多次)

a、负样本少,就复制到一定比例

b、或者把正样本删除一部分

c、分段逐一训练(举例:正样本10000,负样本1000,将正样本随机分成10份,每份1000,然后拿着负样本的1000与正样本的每一份进行训练,最后进行融合选择)

d、模型参数调权重(模型里面有个参数可以调整样本权重)

e、交叉验证

f、根据样本随机构造新的样本

4、高维海量数据搜索

KNN(维度20以下)


相关文章

专题分类