029-89353355
必一体育app下载 contact us
手机:18991830957
座机:029-89353355
Q Q:359316042
邮箱:info@kssfl.com
地址:西安市雁塔区雁塔西路158号双鱼大厦A座13层
企业公众号
产品简介:
在我的一篇文章中(我的第一份数据科学实习),我曾讨论过数据清理有多么重要,并且这项工作经常在整个数据科学的工作流中占到40%-70%。这个世界并不完美,数据也是如此。 现实世界的数据非常脏乱,我们作为数据科学家 - 有时也称为数据清理
产品介绍
在我的一篇文章中(我的第一份数据科学实习),我曾讨论过数据清理有多么重要,并且这项工作经常在整个数据科学的工作流中占到40%-70%。这个世界并不完美,数据也是如此。
现实世界的数据非常脏乱,我们作为数据科学家 - 有时也称为数据清理者 - 应该能够在进行任何数据分析或模型构建之前执行数据清理,以确保最高质量的数据。
长话短说,在数据科学领域相当长一段时间后,我确实感受到在处理数据分析,可视化和模型构建之前进行数据清理的痛苦。
承认与否,数据清理不是一项容易的任务,大多数时候它是耗时且乏味的,但这个过程太重要了,不容忽视。
如果你经历过这个过程,你会理解我的意思。 这正是我写这篇文章的原因,以帮助您以更平滑的方式执行数据清理。
(大意:关于数据科学,无论技术性与否,有哪些你一直想问或是弄明白的问题?不要紧。在评论区留言分享你的问题,我会尽我所能回答。如果我认为有必要,我会新开一篇博文圈你并讨论这个问题,这样你可以及时获得最新消息。那么……我们开始吧!2019,冲呀!)
如果您一直关注我的工作,我在LinkedIn上忙于实现共享学习环境的化,以数据科学上为主,通过有抱负的数据科学家和其他不同专业知识和背景的数据专家的LinkedIn上发起讨论。 如果您想参与有关数据科学的有趣话题的讨论,请随时LinkedIn关注我。 您会对数据科学社区的参与和支持感到惊讶。?
我在评论中收获了不少有趣的问题。 然而,Anirban提到了一个重要的问题,我最终决定撰写一篇文章来回答这个问题,因为我不时会收到类似的问题。
事实上,不久前我意识到一些数据在数据清理方面有类似的模式。 自此,我开始组织和编译一些我认为适用于其他常见场景的数据清理代码 - 我用于数据清理的小工具箱。
由于此处的常见方案跨越不同类型的数据集,因此本文着重于展示和解释代码的用途,以便您可以轻松地进行调用。
当一个数据集变大时,为了,我们需要dtypes 。如果你对学习如何用Pandas处理大型数据感兴趣,我强烈建议你看一看这篇文章——为什么和如何用Pandas处理大型数据。
有些机器学习模型要求变量为数值形式。这时,在把数据输入进模型前,我们需要将类别变量转为数值变量。对于数据可视化,我建议维持类编变量以便有一个更直观的解释和理解。
如果你想检查每列中丢失数据的数量,这是最快速的方法。这给你一个更好的用以理解哪些列有更多数量的丢失数据,可以决定下一步数据清理和分析的方向。
有些时候,在你字符串类型的列中,你可能要面对换行符或是奇怪的符号的出现。这个问题可以被df[col_1].replace轻松解决, 其中,col_1指的是数据帧中的某列。
当你想通过字符串把两列有条件的合并时,这个办法便派上用场。譬如,你想把第一列和第二列合并,条件是根据第一列中以特定字母们结束的字符串。在合并后,根据你的需要,末尾字母们也可被移除。
当处理时间序列数据时,这意味着我们很可能要将string格式转换到datetime格式——基于我们要求的特定格式——以便用数据做出有意义的分析和演示。
这些代码本质上实现起来相对简单。 我希望这个数据清理的小工具箱让你能更自信地执行数据清理,并能通过我的经验对数据集样貌拥有更广泛的思考。
与往常一样,如果您有任何问题或意见,请随时留下您的反馈,或者您可以随时通过LinkedIn与我联系。 至此,下一篇文章中见!雷锋网雷锋网雷锋网
上一篇:电力数据采集AD转换器的选择方案 下一篇:广电总局发布《IPTV监管系统接在线留言Online message
联系方式address
公司:必一体育app官方网页版登录-必一体育app下载
电话:029-89353355
手机:18991830957
地址:西安市雁塔区雁塔西路158
号双鱼大厦A座13层
陕ICP备16017194号
陕公安网备 61011302000213号
扫码开启行业服务新标准