特征工程:
特征归一化:
1.线性归一化:
它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。公式:(X为原始数据,min为数据最小值,max为数据最大值)
2.零均值归一化:
它将原始数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值μ,标准差为σ,那么归一化公式为
归一化的意义:
1.各特征值之间的大小范围,才能使用距离等量等算法
2.加速梯度下降算法的收敛
3.在SVM算法中,一致化的特征能加速寻找支持向量的时间
4.不同的机器学习算法,能接受的输入数值范围不一样
总结:
当我们需要将特征值都归一化为某个范围[a,b]时,选线性归一化
当我们需要归一化后的特征值均值为0,标准差为1,选零均值归一化