刘晶
2019.6.15
If you cannot explain something in simple terms, you don’t understand it youself —- Richard Feynman
说明
尽量严谨,但一来本来就是发展非常迅速的学科,没有统一的认识;二来学科都有学派,各自观点不尽相同;最后,难免会夹“私货”,人都是有偏见的
为了代入感更强,一些例子尽量使用自己做的或学过的
因为受众基本是研发人员,所有会有一些公式和代码,但另一方面受众也不是数据科学或机器学习工程师,所以领域内诸如算法等和大家平时关联不大的不会去深入
涉及一些内部资料,已删除,请谅解哦
数据科学与机器学习不是简单的数据导入、调参
如果没有坚实的理论基础,没有真正理解算法的原理,就不知道根据场景选择算法,不知道算法应用边界,更不能优化算法和明确算法的不足及危险性。最突出的例子就是席卷全球的金融危机,当时众多的专业量化金融投资公司和大型银行的投资部门开发了众多的复杂预测模型,但这些模型有一个重要的假设,就是基于正态分布,所有当金融市场出现黑天鹅,展现出数据分布的肥尾特性时,首先这些金融公司大规模倒闭,并引起严重的连锁反应。
机器学习是计算机科学同数学、统计学、认知与神经科学等自然科学的交叉学科
数据科学是机器学习同领域内专业学科的交叉学科,比如网络空间安全、计算机图像、语言学
个人观点:广义上,数据科学算法层不纠结于是否是机器学习算法,比如对一些数据的分析可以用到非机器学习领域的复杂系统科学、时间序列分析(GARCH、ARIMA等)、计量经济学等
其中数学与统计主要包括高等数学、概率论、统计学、线性代数、矩阵论、最优化理论、运筹学、决策论、图论、微分几何
、代数拓扑
等
时代的发展重新让人们切实认识到数学和统计学以及与计算机科学融合交叉的重要性
⚠️:粉色标注部分的学科本人并未学习过,所以没有任何深入理解,在此引入是参考一些专业资料,下同