加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 大数据 > 正文

在数据科学领域中,你必须要多少数学知识?

发布时间:2021-06-04 12:55:33 所属栏目:大数据 来源:互联网
导读:如果你有心学习数据科学,那么你一定会在脑海中想过下面的问题: 没有或者只有很少的数学知识,我能做一个数据科学家吗? 数据科学必需的数学工具有哪些? 有很多优秀的包可用于建立预测模型或者数据可视化。其中最常用的用于描述和预测分析的一些包有: Ggplo

如果你有心学习数据科学,那么你一定会在脑海中想过下面的问题:

没有或者只有很少的数学知识,我能做一个数据科学家吗?

数据科学必需的数学工具有哪些?

有很多优秀的包可用于建立预测模型或者数据可视化。其中最常用的用于描述和预测分析的一些包有:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

多亏了这些包,任何人都可以建立起一个模型或者实现数据可视化。然而, 坚实的数学基础对于修改你的模型让你的模型性能更好更加可靠来说是十分必要的。建立模型是一回事,解释模型得出可用于数据驱动的决策的有意义的结论又是另一回事。用这些包之前,理解每个包中的数学原理是很重要的。因为这样你才不是简单地只是把这些包作为一个黑盒来使用。

II. 案例学习:建立多重回归模型

假设我们要建立一个多重回归模型。在此之前,我们需要问一下自己下面的这些问题:

  • 我的数据集有多大?
  • 我的特征变量和目标变量是什么?
  • 什么预测特征与目标变量关联性最大?
  • 什么特征是重要的?
  • 我需要量化特征值吗?
  • 我的数据集应该如何分成训练集和测试集?
  • 什么是主成分分析(PCA)
  • 我应该用PCA移除多余特征吗?
  • 我要如何评估我的模型?用R2,MSE还是MAE?
  • 我应该如何提升模型预测的能力?
  • 我应该使用正则化的回归模型吗?
  • 什么是回归系数?
  • 什么是截距?

我应该使用诸如K近邻回归或者支持向量回归这种非参数回归模型吗?

我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?

没有良好的数学背景,你就无法解决上面提到的问题。 最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。 因此,作为有志于数据科学的人,你必须花时间研究数据科学和机器学习的理论和数学基础。 你构建可应用于实际问题的可靠而有效的模型的能力取决于您的数学基础。

现在我们来聊聊数据科学还有机器学习所必需的一些数学工具。

III. 数据科学与机器学习必需的数学工具

1. 统计与概率

统计与概率学可用于特征的可视化,数据预处理,特征转换,数据插入,降维,特征工程,模型评估等。

这里是你需要熟悉的概念:均值,中位数,众数,标准差/方差, 相关系数和协方差矩阵,概率分布(二项,泊松,正太), p-值, 贝叶斯理论(精确性,召回率,阳性预测值,阴性预测值,混淆矩阵,ROC曲线), 中心极限定理, R_2值, 均方误差(MSE),A/B测试,蒙特卡洛模拟。

2. 多元微积分

大多数机器学习模型都是由带有许多特征或者预测因子的数据集建立的。因此,熟悉多元微积分对于建立机器学习模型及其重要。

这里是你需要熟悉的概念:多元函数;导数和梯度; 阶跃函数,Sigmoid函数, Logit函数, ReLU(整流线性单元)函数;损失函数;函数作图;函数最大最小值。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读