数据清洗预处理入门完整指南

发布时间：2019-03-03 00:10:42 所属栏目：教程来源：机器之心编译

导读：数据预处理是建立机器学习模型的第一步(也很可能是最重要的一步)，对最终结果有决定性的作用：如果你的数据集没有完成数据清洗和预处理，那么你的模型很可能也不会有效就是这么简单。人们通常认为，数据预处理是一个非常枯燥的部分。但它就是「做好准备」

不需要在测试集上进行拟合，只进行变换。

sc_y = StandardScaler() 
y_train = sc_y.fit_transform(y_train)

对于哑变量而言，是否需要进行缩放?

对于这个问题，有些人认为需要，有些则认为不需要。这取决于你对模型可解释性的看重诚度。将所有数据缩放至同一量纲固然有好处，但缺点是，这丢失了解释每个观测样本归属于哪个变量的便捷性。

对于 Y 呢?如果因变量是 0 和 1，那么并不需要进行特征缩放。这是一个具有明确相关值的分类问题。但如果其取值范围非常大，那么答案是你需要做缩放。

恭喜你，你已经完成了数据预处理的工作!

通过少量的几行代码，你已经领略了数据清洗和预处理的基础。毫无疑问，在数据预处理这一步中，你可以加入很多自己的想法：你可能会想如何填充缺失值。思考是否缩放特征以及如何缩放特征?是否引入哑变量?是否要对数据做编码?是否编码哑变量……有非常多需要考虑的细节。现在，你已经完全了解了这些，可以亲自动手试试了，准备数据吧!

原文链接：

https://towardsdatascience.com/the-complete-beginners-guide-to-data-cleaning-and-preprocessing-2070b7d4c6d

【本文是51CTO专栏机构“机器之心”的原创译文，微信公众号“机器之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

【编辑推荐】

仅需六步，从零实现机器学习算法
黑客慌了！一文全面解读网络安全中的机器学习
如何创造可信任的机器学习模型？先要理解不确定性
机器学习竞争其实是一场数据上的竞争
还在为数据清洗抓狂？这里有一个简单实用的清洗代码集

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：衡阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

电脑怎么截图,教您电脑	xp强行删除开机密码,教
ssd测试软件介绍,教您	桌面图标有蓝底,教您桌