线性回归

概念、损失函数、梯度下降、过/欠拟合、正则化

Posted by 新宇 on February 3, 2020

一、线性回归

1. 简介

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式;

2. 线性回归的特征与目标的关系分析

  • 线性关系
    • 单变量线性关系
    • 多变量线性关系
  • 非线性关系

3. 线性回归api

from sklearn.linear_model import LinearRegression

x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]
# 实例化API

estimator = LinearRegression() 
# 使用fit方法进行训练 

estimator.fit(x,y)
# 回归系数

estimator.coef_

estimator.predict([[100, 80]])

二. 线性回归的损失和优化

1. 损失函数

2. 优化算法

1. 正规方程法(公式推导)

只是适合样本和特征比较少的情况

  • 注意补充说明中的推导公式!

2. 梯度下降法(Gradient Descent)

类比为下山的过程, 函数就代表着一座山, 目标就是找到这个函数的最小值, 也就是山底。

1. 梯度的概念

  • 单变量的函数中
    • 梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率;
  • 多变量函数中
    • 梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向;

2. 梯度下降公式

  • α的含义
    • α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离
    • 既不能太小(效率低),也不能过大(错过极值点)
  • 为什么梯度要乘以一个负号
    • 梯度的方向实际就是函数在此点上升最快的方向
    • 加负号意味着朝着梯度相反的方向前进

3. 方法对比

三、梯度下降法介绍

1.相关概念

  1. 步长:步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。用前面下山的例子,步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。

  2. 特征:指的是样本中输入部分,比如2个单特征的样本(x(0), y(0)), (x(1), y(1)),则第一个样本特征为x(0),第一个样本输出为y(0)。

  3. 假设函数:在监督学习中,为了拟合输入样本,而使用的假设函数,记为hθ(x)。比如对于单个特征的m个样本(x(i),y(i))(i = 1,2,…m),可以采用 拟合函数如下: hθ(x) = θ0 + θ1x

  4. 损失函数(loss function):为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。

2. 推导流程

  • 先决条件:确认优化模型的假设函数和损失函数。
  • 算法相关参数初始化:
    • 主要是初始化θ0,θ1…,θn,算法终止距离ε以及步长α。
    • 在没有任何先验知识的时候,我喜欢将所有的θ初始化为0,将步长初始化为1。在调优的时候再优化。
  • 算法过程:

3. 梯度下降法大家族

  • 全梯度下降法(FG)
    • 在更新参数时使用所有的样本来进行更新;
    • 注意:
      • 整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢;
      • 批梯度下降法同样也不能在线更新模型,即在运行的过程中,不能增加新的样本;
  • 随机梯度下降法(SG)
    • 每次只代入计算一个样本目标函数的梯度来更新权重
    • 注意:
      • 此过程简单,高效,通常可以较好地避免更新迭代收敛到局部最优解;
      • 每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解;
  • 小批量梯度下降算法(mini-batch)
    • 每次从训练样本集上随机抽取一个小样本集,在抽出来的小样本集上采用FG迭代更新权重
  • 随机平均梯度下降算法(SAG)
    • 在内存中为每一个样本都维护一个旧的梯度,随机选择第i个样本来更新此样本的梯度,其他样本的梯度保持不变,然后求得所有梯度的平均值,进而更新了参数

4. APi介绍

  • sklearn.linear_model.LinearRegression()
    • 通过正规方程优化
    • 参数
      • fit_intercept:是否计算偏置
    • 属性
      • LinearRegression.coef_:回归系数
      • LinearRegression.intercept_:偏置
  • sklearn.linear_model.SGDRegressor()
    • 梯度下降法
    • 参数:
      • loss:损失类型
        • loss=”squared_loss”: 普通最小二乘法
      • fit_intercept:是否计算偏置
      • learning_rate : string, optional
        • 学习率填充
        • ‘constant’: eta = eta0
        • ‘optimal’: eta = 1.0 / (alpha * (t + t0)) [default]
        • ‘invscaling’: eta = eta0 / pow(t, power_t)
        • power_t=0.25:存在父类当中
        • 对于一个常数值的学习率来说,可以使用learning_rate=’constant’,并使用eta0来指定学习率。
    • 属性:
      • SGDRegressor.coef_:回归系数
      • SGDRegressor.intercept_:偏置

四、波士顿房价预测案例

  • 回归性能评估:均方误差(MSE)
  1. 正规方程
    def linear_model1(): 
     """
     线性回归:正规方程 :return:None
     """
    
     # 1.获取数据
    
     data = load_boston()
     # 2.数据集划分
    
     x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)
     # 3.特征工程-标准化
    
     transfer = StandardScaler()
     x_train = transfer.fit_transform(x_train) 
     x_test = transfer.fit_transform(x_test)
     # 4.机器学习-线性回归(正规方程) estimator = LinearRegression() estimator.fit(x_train, y_train)
    
     # 5.模型评估
    
     # 5.1 获取系数等值
    
     y_predict = estimator.predict(x_test) 
     print("预测值为:\n", y_predict) 
     print("模型中的系数为:\n", estimator.coef_) 
     print("模型中的偏置为:\n", estimator.intercept_)
     # 5.2 评价
    
     # 均方误差
    
     error = mean_squared_error(y_test, y_predict) 
     print("误差为:\n", error)
     return None
    
  2. 梯度下降法
    def linear_model2(): 
     """
     线性回归:梯度下降法 :return:None
     """
    
     # 1.获取数据
    
     data = load_boston()
     # 2.数据集划分
    
     x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)
     # 3.特征工程-标准化
    
     transfer = StandardScaler()
     x_train = transfer.fit_transform(x_train) 
     x_test = transfer.fit_transform(x_test)
     # 4.机器学习-线性回归(特征方程)
    
     estimator = SGDRegressor(max_iter=1000) 
     estimator.fit(x_train, y_train)
     # 5.模型评估
    
     # 5.1 获取系数等值
    
     y_predict = estimator.predict(x_test) 
     print("预测值为:\n", y_predict) 
     print("模型中的系数为:\n", estimator.coef_) 
     print("模型中的偏置为:\n", estimator.intercept_)
     # 5.2 评价
    
     # 均方误差
    
     error = mean_squared_error(y_test, y_predict) 
     print("误差为:\n", error)
     return None
    

五、过拟合和欠拟合

1. 概念

  • 过拟合:
    • 一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。
    • 模型过于复杂
  • 欠拟合:
    • 一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。
    • 模型过于简单

2. 原因以及解决办法

  • 欠拟合原因以及解决办法
    • 原因:学习到数据的特征过少
    • 解决办法:
      • 1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来- 很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都- 可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都- 可以作为特征添加的首选项。
      • 2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
  • 过拟合原因以及解决办法
    • 原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点解决办法:
    • 1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新- 清洗数据。
    • 2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。
    • 3)正则化
    • 4)减少特征维度,防止维灾难

六、正则化

正则化就是为了防止过拟合!

1. 概念

在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化;

2. 正则化类别

1. L1正则化(Lasso回归)

2. L2正则化(Ridge回归)

3. Elastic Net(弹性网络)

4. Early Stopping

  • Early Stopping 也是正则化迭代学习的方法之一。
  • 其做法为: 在验证错误率达到最小值的时候停止训练。

3.正则化的几何解释

  • 最小二乘法和椭圆方程是拟合的
    • 椭圆的一般方程式 a+bx+cy+dxy+ex^2+fy^2=0
    • 其中a,b,c,d,e,f,为任意椭圆方程的系数,该一般方程包含了标准椭圆的旋转和平移变换
  • L1 正则为菱形
  • L2 正则为圆
  • 当椭圆和菱形/圆相交时有同解,若使得均方误差最小,则必须相切;

七、岭回归代码实现

1. API

  • sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=”auto”,normalize=False)
    • 具有l2正则化的线性回归
    • alpha:正则化力度,也叫 λ
      • λ取值:0~1 1~10
    • solver:会根据数据自动选择优化方法
      • sag:如果数据集、特征都比较大,选择该随机梯度下降优化
    • normalize:数据是否进行标准化
      • normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
    • Ridge.coef_:回归权重
    • Ridge.intercept_:回归偏置

2. 代码

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge,RidgeCV
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
import joblib

def linear_model3(): 
	"""
	线性回归:岭回归 :return:
	"""

	# 1.获取数据

	data = load_boston()
	# 2.数据集划分

	x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)
	# 3.特征工程-标准化

	transfer = StandardScaler()
	x_train = transfer.fit_transform(x_train) x_test = transfer.fit_transform(x_test)
	# 4.机器学习-线性回归(岭回归)

	estimator = Ridge(alpha=1)
	# 交叉验证

	# estimator = RidgeCV(alphas=(0.1, 1, 10)) 

	estimator.fit(x_train, y_train)

	# 5.模型评估

	# 5.1 获取系数等值

	y_predict = estimator.predict(x_test) 
	print("预测值为:\n", y_predict) 
	print("模型中的系数为:\n", estimator.coef_) 
	print("模型中的偏置为:\n", estimator.intercept_)
	# 5.2 评价

	# 均方误差

	error = mean_squared_error(y_test, y_predict) 
	print("误差为:\n", error)

	# 7. 保存模型

    joblib.dump(model, './test.pkl')

3. 模型保存和加载

  • from sklearn.externals import joblib
    • 保存:joblib.dump(estimator, ‘test.pkl’)
    • 加载:estimator = joblib.load(‘test.pkl’)