sklearn 预处理数据

通常拿到数据后，为了方便模型训练与研究，首先做的就是数据的预处理。

标准化

preprocessing.scale

标准化是常用的机器学习特征处理的方法，它可以将一列数据的平均值变为0，方差变为1 。但是不改变原来的数据结构分布，只是将数值进行了缩放。
方差：方差是和中心偏离的程度，用来衡量一批数据的波动大小（即这批数据偏离平均数的大小）并把它叫做这组数据的方差，记作S2。在样本容量相同的情况下，方差越大，说明数据的波动越大，越不稳定。
方差是实际值与期望值之差平方的平均值，而标准差是方差算术平方根。由于在实际计算的时候发现反推回去的x并不是平均值，而s 是方差的n/n-1 倍，所以经常用 1/n-1 Σ(xi-x)²=1/n-1{Σxi²-n*X²} 表示样本方差

正则化

preprocessing.normalize
正则化针对的是每行，或者说每个样本的不同特征。一般计算样本之间距离时使用其做归一化处理，比如聚类，K近邻、文本分类。

二值化–特征的二值化

preprocessing.Binarizer().fit(x)
标准化则是将数据按照比例缩放，使之放到一个特定区间中。标准化后的数据的均值＝0，标准差＝1，因而标准化的数据可正可负。

sklearn 预处理数据

标准化

正则化

二值化–特征的二值化

栏目分类

标签云

友情链接申请

sklearn 预处理数据

标准化

正则化

二值化–特征的二值化

 栏目分类

标签云

友情链接申请

栏目分类

标签云

友情链接申请