作者:Jenny.Zhang
发布时间:2022.11.1
浏览次数:3,375 次浏览
AI时代,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据挖掘”相关岗位平均招聘薪资高于其余同等学历、工龄要求的技术岗位30%以上甚至更高,吸引了一大波人开始学习数据挖掘。
今天本篇就来说说,对于零基础小白,应该如何入门数据挖掘,并且在文中附上我之前用过的学习资料及书籍。
先来理解一下什么是数据挖掘。
数据挖掘是从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。但是不是所有的信息发现都能叫数据挖掘,比如通过数据库查找个别记录,通过搜索引擎查找特定的网页等,这些都属于信息检索,数据挖掘是数据库中的知识发现,把没加工的数据转换为有用信息的过程。
机器学习和数据挖掘很类似,很多人以为两个说的是一样的东西,虽然两者本质上的区别不大,但是还是有一些细小的区别:
机器学习更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,等等各种模式识别,核心就是各种精妙的算法。
数据挖掘更偏向于“数据”而不是算法,它包括了很多数据的前期处理,数据的爬取、清洗、整合,数据的有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。
所以,数据挖掘的范畴要更广泛一些
我是前几年入坑数据挖掘的,纯粹是个人爱好,由于有好几年的数据分析基础,我上手起来不是特别困难,类比数据分析,我也给大家梳理一下数据挖掘的一些必备技能
数据挖掘和数据分析不一样,数据分析可以利用一些现成的分析工具完成,但是数据挖掘绝大部分要依赖于编程,在数据挖掘领域常用的编程语言有R、Python、C++、java等,R和python是最受欢迎的两种,可能有一部分人之前在接触数据分析的时候学过python,如果做数据挖掘的话,我也推荐python
推荐学习书籍:《Python核心编程(第二版)》,《利用Python进行数据分析》
做数据挖掘不可避免的要接触大数据,目前常用的大数据框架就两个,Hadoop和Spark,Hadoop的原生开发语言是Java,资料多,Spark的原生开发语言是Scala,不过也有Python的API。
这个不用多说,既然是和数据打交道,数据库知识自然少不了,常见关系数据库和非关系数据库知识都要掌握,如果要处理大数量数据集,就得掌握关系型数据库知识,比如sql、oracle。详细设计的知识点,看下图:
推荐学习书籍:《SQL必知必会》、《数据库系统概念》、《Redis设计与实现》、《高性能MySQL(第3版)》(顺序由入门到进阶)
精通数据结构和算法对数据挖掘来说相当重要,在数据挖掘岗位面试中也是问的比较多的,数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等
关于数据结构和算法的学习,很多人推荐《算法导论》和《数据结构与算法分析(C语言描述)》这两本书,这两本我都看过,个人觉得《算法导论》太难看完了,里面虽然讲的很细致,但是晦涩难懂,所以我推荐《算法(第4版)》,虽然这本书使用Java讲解常见的算法,但是基本上没有特别难懂的语法,没有Java基础也能轻松看懂
应付面试的话,光看《算法(第4版)》还不够,建议再刷两本应试书籍,比如《程序员代码面试指南》或者《直通BAT面试算法精讲课》
机器学习是数据挖掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,来进行预测或决策, 深度学习是更广泛的机器学习方法系列中的一部分。这部分的学习主要分两块,一是掌握常见机器学习算法原理,二是应用这些算法并解决问题。
机器学习入门,强烈推荐吴恩达老师的《机器学习》的视频,地址:https://www.coursera.org/learn/machine-learning基本上80%的人入门机器学习都是靠这个视频。具体提纲我就不列了,大家自己看,我的建议是直接按顺序学,可以反复多看两遍。
推荐书籍:周志华的《机器学习》,这本书的结构很清晰,理论和实践都有设计,是一本不错的学习书
数据挖掘是一个交叉学科,不仅涉及编程和计算机科学,还涉及到多个科学领域,统计学就是不可获取的一部分,它可以帮我们更快的识别问题,区分因果关系和相关性。
推荐学习书籍:李航的《统计学习方法》、《统计学》(原书第5版)
和数据分析一样,做数据挖掘不光要处理数据,而且还要向其他人解释我们数据挖掘的结果和见解,而且在大部分的企业中,汇报的对象往往都是一些没有技术基础的业务人员,所以这个岗位也相当考验沟通和表达能力
最后,干货奉上!数据挖掘的学习网站和课程资源:
学习网站:
W3Cschool https://www.w3cschool.cn/r/
菜鸟教程 http://www.runoob.com/
中国大学MOOC https://www.icourse163.org/category/computer
慕课网 https://www.imooc.com/
网易云课堂 https://study.163.com/category/excel?utm_source=baidu&utm_medium=cpc&utm_campaign=affiliate&utm_term=zyexcel_023&utm_content=SEM
论坛博客:
CSDN: https://www.csdn.net/ 做数据的都知道这个博客。功能非常全面的社区型网站,论坛只是其一部分功能
DMI:数据挖掘学院:http://www.cs.wisc.edu/dmi/
50 data miningresources:https://www.ngdata.com/data-mining-resources/热门数据挖掘资源:50个教程,文章和视频,用于学习数据挖掘方法,分析等。
但这一切都要基于一个好用的数据可视化平台。现在市面上流行的有FineBI、Power BI、DataV、鼎数,但权威机构IDC指出市场占有率第1的还是FineBI,这些都可以做数据分析。
商业智能BI产品更多介绍:www.finebi.com