非计算机系学习大数据的路径如下:
Python or C?如果非要从这里面选一个学习大数据,肯定是Python。Python良好的数据处理环境和近几年跟着人工智能的潮流出现了很多相适应的工具包,如numpy、pandas、sklearn和tensorflow等。C语言也是一门史诗级的语言,如果入门Python后有余力学习我很建议再把C家族语言看一下。
数理统计知识学习数据方面必要要有一定的数理统计知识,如果大学有学习足够的数学课程那么足够了,也可以去可汗学院参考以下课程去复习这些知识点:
概率和统计视频课;
线性代数视频课;
概率和统计视频课。
大数据工具Hadoop:
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,工业上大数据热门的工具之一。其中最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
对于大数据的学习,我推荐阿里云的一篇文章,头条似乎不能放链接,请自行搜索关键词:Hadoop学习资源集合-博客-云栖社区-阿里云。
其他相关资源:
《十节课带你走进hadoop世界》
《Hadoop从入门上手工作》
《hadoop之DataGuru视频》
《Hadoop数据分析》
《云计算hadoop实战视频》
《Cloudera Hadoop课程培训》
《大数据战略规划班》
Spark:
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
学习资料自行搜索:
Spark官方文档-快速入门
Spark官方文档-Spark编程指南
相关资源:
《Spark大数据处理 技术、应用与性能优化 高彦杰》
《深入理解Spark核心思想与源码分析 耿嘉安》
深度学习深度学习是近年来热门的概念之一,源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
这里我只推荐一本书,MIT的《深度学习》,这本书已经能够全面地介绍深度学习的方方面面且被不少人奉为“圣经”。
其他对于非科班来学习大数据,可能刚开始一上手会较难入门,俗话说:万事开头难。听听别人的建议后,先行动,后思考,软件工程是一门实践学科。
如果你对学习人工智能和深度学习感兴趣,你可以订阅我的头条号,我会在这里发布所有与算法、机器学习以及深度学习有关的有趣文章。