去量纲化,使不同规格的数据转换到同一规格
一、归一化
1. 定义
通过对原始数据进行变换把数据映射到(默认为[0,1])之间
2. 公式

3. 举个例子

4. 总结
最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
5. 代码
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
def minmax_demo():
data = pd.read_csv("./data/dating.txt")
print(data)
# 1、实例化一个转换器类
transfer = MinMaxScaler(feature_range=(2, 3))
# 2、调用fit_transform
data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
print("最小值最大值归一化处理的结果:\n", data)
return None
二、标准化
1. 定义
通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
2. 公式

3. 总结
- 对于归一化来说:
- 如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变;
- 对于标准化来说:
- 如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。
4. 代码
import pandas as pd
from sklearn.preprocessing import StandardScaler
def stand_demo():
data = pd.read_csv("dating.txt")
print(data)
# 1、实例化一个转换器类
transfer = StandardScaler()
# 2、调用fit_transform
data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
print("标准化的结果:\n", data)
print("每一列特征的平均值:\n", transfer.mean_)
print("每一列特征的方差:\n", transfer.var_)
return None