通常拿到数据后,为了方便模型训练与研究,首先做的就是数据的预处理。

标准化

preprocessing.scale

标准化是常用的机器学习特征处理的方法,它可以将一列数据的平均值变为0,方差变为1 。但是不改变原来的数据结构分布,只是将数值进行了缩放。
方差:方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作S2。 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
方差是实际值与期望值之差平方的平均值,而标准差是方差算术平方根。由于在实际计算的时候发现反推回去的x并不是平均值,而s 是方差的n/n-1 倍,所以经常用 1/n-1 Σ(xi-x)²=1/n-1{Σxi²-n*X²} 表示样本方差

正则化

preprocessing.normalize
正则化针对的是每行,或者说每个样本的不同特征。一般计算样本之间距离时使用其做归一化处理,比如聚类,K近邻、文本分类。

二值化–特征的二值化

preprocessing.Binarizer().fit(x)
标准化则是将数据按照比例缩放,使之放到一个特定区间中。标准化后的数据的均值=0,标准差=1,因而标准化的数据可正可负。