面试数据分析师的常见问题(面试必看 数据分析师10道常见面试问题)
下面是好好范文网小编收集整理的面试数据分析师的常见问题(面试必看 数据分析师10道常见面试问题),仅供参考,欢迎大家阅读!
今天来谈谈数据分析岗位面试前都需要做哪些准备?注意,面试准备大体上仅针对面试,并不会涵盖数据分析全方面的知识体系,特此建议初学者经过系统化学习后,再进行相关面试准备。
在大家开始找工作之前,至少留出2周时间进行知识梳理及过往经验总结,系统化处理碎片信息。
01
成为一名数据分析师需要具备哪些技能?
要成为一名数据分析师,需要掌握丰富的报告软件包(BusinessObjects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);
能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识以及分析大型数据集(SAS,Excel,SPSS等)的统计软件包知识。
02
数据分析的流程
03
分析项目的各个步骤是什么?
分析项目的各个步骤包括:
问题定义
数据挖掘
数据准备
模型化
数据认证
实施跟踪
04
分析的结果数据特别大,有些结果数据扛不住了,怎么办?
一般的结果数据数据量没有那么大,也就几十万是样子,这样的数据级别,对于MySQL这样的数据库没有任何压力,但是如果这个数据量千万或者亿级别,同时有复杂的SQL查询,这个时候MySQL就肯定扛不住了。
这个时候可能需要构建索引(例如通过lucene来对于要检索的字段添加索引),或者用分布式的内存服务器来完成查询。
总之,两套思路,一个是用文件索引的形式,就是空间换时间,另外一种是用内存,就是用更快的存储来请求。
05
列出数据清理的最佳实践?
一些数据清理的最佳实践包括:
按不同的属性排序数据
对于大数据集,逐步清理并改进数据,直到获得良好的数据质量
对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度
要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值
如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题分析每列的汇总统计数据(标准差,均值,缺失值的数量)
保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作
06
海量日志数据,提取出某日访问百度次数最多的那个IP。
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash_map,同时记录当前出现次数最多的那个ip地址;4.可以得到1024个小文件中的出现次数最多的ip,再依据常规的排序算法得到总体3上出现次数最多的ip;
07
可用于数据分析的一些最佳工具清单有什么?
Tableau
RapidMiner
OpenRefine
KNIME
GoogleSearchOperators
Solver
NodeXL
io
WolframAlpha’s
GoogleFusiontables
08
数据挖掘和数据分析之间的区别是什么?
数据挖掘和数据分析之间的区别在于:
数据分析:针对个别属性的实例分析。提供有关属性的各种信息,如值范围,离散值及其频率,空值的发生,数据类型,长度等。
数据挖掘:重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。
09
数据分析师使用的数据验证方法是什么?
通常,数据分析师用于数据验证的方法是数据筛选和数据验证。
10
解释应该如何处理可疑或缺失数据?
准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间。
有经验的数据分析师应该检查可疑数据以确定其可接受性。
应该找出无效数据并用验证码替换。
另外,一段富有逻辑条理,与众不同的面试自我介绍也很重要,能够快速抓住面试官的眼球,在众多的候选人中抢占一丝先机。
俗话说“不打无准备的仗”,学好数分析才是最最最重要的!除此之外,把握住每一次机会 ,面试前做好充分的准备,有条件的可以请教下相关工作的前辈,分享下面试经验。
好啦,今天的面试常见问题就分享到这里了。希望大家都能顺利通过面试,取得心仪的offer。
更多面试问题分享↓↓↓↓↓↓↓