数据预处理的四个步骤

 公司新闻     |      2022-07-23 16:06

  数据预处置的四个步调别离是数据洗濯、数据集成、数据变更和数据归约;而数据的预处置是指对所搜集数据停止分类或分组前所做的考核、挑选、排序等须要的处置;数据预处置,一方面是为了进步数据的质量,另外一方面也是为了顺应所做数据阐发的软件大概办法。

  数据预处置一方面是为了进步数据的质量,另外一方面也是为了顺应所做数据阐发的软件大概办法。普通来讲,数据预处置步调有:数据洗濯、数据集成、数据变更、数据归约,每一个大步调又有一些小的细分点。固然了,这四个大步调在做数据预处置时一定都要施行。

  数据洗濯,望文生义,“黑”的酿成“白”的,“脏”的数据酿成“洁净”的,脏数据表如今情势上和内容上的脏。

  在R里缺失值的辨认利用函数is.na鉴别,函数complete.cases辨认样本数据能否完好。

  删除法 :删除法按照删除的差别角度又能够分为删除观察样本和变量,删除观察样本(行删除法),在R里na.omit函数能够删除所含缺失值的行。

  这就相称于削减样本量来换失信息的完好度,但当变量有较大缺失而且对研讨目的影响不大时,可思索删除变量R里利用语句mydata[,-p]来完成。mydata暗示所删数据集的名字,p是该删除变量的列数,-暗示删除。

  交换法 :交换法望文生义对缺失值停止交换,按照变量的差别又有差别的交换划定规矩,缺失值的地点变量是数值型用该变量下其他数的均值来交换缺失值;变量为非数值变量时则用该变量下其他观察值的中位数或众数交换。

  回归插补指的是将插补的变量看成因变量y,其他变量看错自变量,操纵回归模子停止拟合,在R里利用lm回归函数对缺失值停止插补;

  多重插补是指从一个包罗缺失值的数据集合天生一组完好的数据,屡次停止,发生缺失值的一个随机样本,在R里mice包能够停止多重插补。

  非常值的辨认凡是用单变量散点图或箱形图来处置,在R里dotchart是绘制单变量散点图的函数,boxplot函数绘制箱现图;在图形中,把阔别一般范畴的点看成非常值。

  非常值的的处置有删除含有非常值的观察(间接删除,当样本少工夫接删除会形成样本量不敷,改动变量的散布)、看成缺失值(操纵现有的信息,对其当缺失值弥补)、均匀值改正(用前后两个观察值的均值改正该非常值)、不处置。在停止非常值处置时要先温习非常值呈现的能够缘故原由,再判定非常值能否该当舍弃。

  所谓数据集成绩是将多个数据源兼并放到一个数据存储中,固然假如所阐发的数据本来就在一个数据存储里就不需求数据的集成了(多合一)。

  数据集成的完成是将两个数据框以枢纽字为根据,在R里用merge函数完成,语句为merge(dataframe1, dataframe2,by=”枢纽字“”),默许按升序布列。

  同名异义,数据源A中某属性名字和数据源B中某属性名字不异,但所暗示的实体纷歧样,不克不及作为枢纽字;

  数据集成常常形成数据冗余,多是统一属性屡次呈现,也多是属性名字不分歧招致的反复,关于反复属性一个先做相干阐发检测,假如有再将其删除。

  简朴函数变更用来将不具有正态散布的数据酿成有正态散布的数据,经常使用的有平方、开方、取对数、差分等。如在工夫序列里常对数据对数或差分运算,将非安稳序列转化成安稳序列。

  标准化就是剔撤除变量量纲上的影响,好比:间接比力身高和体重的差别,单元的差别和取值范畴的差别让这件事不克不及间接比力。

  将持续属性变量转化身分类属性,就是持续属性离散化,出格是某些分类算法请求数据是分类属性,如:ID3算法。

  一维聚类:两个步调,起首将持续属性的值用聚类算法,然后将聚类获得的汇合兼并到一个持续性值并做统一标识表记标帜。

  数据归约是指在对发掘使命和数据自己内容了解的根底上、寻觅依靠于发明目的的数据的有效特性,以缩减数据范围,从而在尽能够连结数据原貌的条件下,最大限度地精简数据量。

  逐渐向前挑选:从一个空属性集开端,每次在本来属性汇合选一个当前最优属性增加到当前子集合,不断到没法挑选最优属性或满意一个束缚值为止;

  逐渐前后挑选:从一个空属性集开端,每次在本来属性汇合选一个当前最差属性并剔除当前子集合,不断到没法挑选最差属性或满意一个束缚值为止;

  主成分阐发:用较少的变量去注释原始数据中大部门变量(用相干性高的变量转化成相互互相自力或不相干的变量)。

  经由过程削减数据量,包罗有参数和无参数办法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。