在数据科学领域中,你必须要多少数学知识?
如果你有心学习数据科学,那么你一定会在脑海中想过下面的问题: 没有或者只有很少的数学知识,我能做一个数据科学家吗? 数据科学必需的数学工具有哪些? 有很多优秀的包可用于建立预测模型或者数据可视化。其中最常用的用于描述和预测分析的一些包有:
多亏了这些包,任何人都可以建立起一个模型或者实现数据可视化。然而, 坚实的数学基础对于修改你的模型让你的模型性能更好更加可靠来说是十分必要的。建立模型是一回事,解释模型得出可用于数据驱动的决策的有意义的结论又是另一回事。用这些包之前,理解每个包中的数学原理是很重要的。因为这样你才不是简单地只是把这些包作为一个黑盒来使用。 II. 案例学习:建立多重回归模型 假设我们要建立一个多重回归模型。在此之前,我们需要问一下自己下面的这些问题:
我应该使用诸如K近邻回归或者支持向量回归这种非参数回归模型吗? 我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型? 没有良好的数学背景,你就无法解决上面提到的问题。 最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。 因此,作为有志于数据科学的人,你必须花时间研究数据科学和机器学习的理论和数学基础。 你构建可应用于实际问题的可靠而有效的模型的能力取决于您的数学基础。 现在我们来聊聊数据科学还有机器学习所必需的一些数学工具。 III. 数据科学与机器学习必需的数学工具 1. 统计与概率 统计与概率学可用于特征的可视化,数据预处理,特征转换,数据插入,降维,特征工程,模型评估等。 这里是你需要熟悉的概念:均值,中位数,众数,标准差/方差, 相关系数和协方差矩阵,概率分布(二项,泊松,正太), p-值, 贝叶斯理论(精确性,召回率,阳性预测值,阴性预测值,混淆矩阵,ROC曲线), 中心极限定理, R_2值, 均方误差(MSE),A/B测试,蒙特卡洛模拟。 2. 多元微积分 大多数机器学习模型都是由带有许多特征或者预测因子的数据集建立的。因此,熟悉多元微积分对于建立机器学习模型及其重要。
这里是你需要熟悉的概念:多元函数;导数和梯度; 阶跃函数,Sigmoid函数, Logit函数, ReLU(整流线性单元)函数;损失函数;函数作图;函数最大最小值。 (编辑:衡阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |