特征预处理

归一化、标准化

Posted by 新宇 on February 2, 2020

去量纲化,使不同规格的数据转换到同一规格

一、归一化

1. 定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

2. 公式

3. 举个例子

4. 总结

最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

5. 代码

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def minmax_demo(): 
	data = pd.read_csv("./data/dating.txt")
	print(data)
	# 1、实例化一个转换器类

	transfer = MinMaxScaler(feature_range=(2, 3))
	# 2、调用fit_transform

	data = transfer.fit_transform(data[['milage','Liters','Consumtime']]) 
	print("最小值最大值归一化处理的结果:\n", data)
	return None

二、标准化

1. 定义

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

2. 公式

3. 总结

  • 对于归一化来说:
    • 如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变;
  • 对于标准化来说:
    • 如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

4. 代码

import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand_demo():
	data = pd.read_csv("dating.txt")
	print(data)
	# 1、实例化一个转换器类

	transfer = StandardScaler()
	# 2、调用fit_transform

	data = transfer.fit_transform(data[['milage','Liters','Consumtime']]) 
	print("标准化的结果:\n", data)
	print("每一列特征的平均值:\n", transfer.mean_) 
	print("每一列特征的方差:\n", transfer.var_)
	return None