首页 >> 人工智能 >

数据清洗是什么(数据清洗是什么意思)

2022-10-07 11:46:04 来源: 用户: 

您好,今天帅帅来为大家解答以上的问题。数据清洗是什么,数据清洗是什么意思相信很多小伙伴还不知道,现在让我们一起来看看吧!

1、如何去整理分析数据,其中一个很重要的工作就是数据清洗。

2、数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。

3、有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。

4、因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。

5、清洗数据的方式大概可以分为以下几类,筛选、清除、补充、纠正,例如:去除不需要的字段:简单,直接删除即可。

6、但要记得备份。

7、填充缺失内容:以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标的计算结果填充缺失值。

8、格式不一致:时间、日期、数值、全半角等显示格式不一致,这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。

9、例如一列当中储存的是时间戳,某些跨国公司的不同部门在时间的格式上有可能存在差别,比如2019-01-12,2019/01/12等,这时候需要将其转换成统一格式。

10、内容中有不需要的字符:某些情况使得有些数据中包含不需要的字符。

11、例如从网络爬到的数据会包含一些编码解码的字符如%22,这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。

12、数据提取:例如咱们只有用户身份证的信息,但是需要用户生日一列,这时候我们可以直接从身份证号中按照一定规律将生日信息提取出来。

本文就为大家分享到这里,希望小伙伴们会喜欢。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章