机器学习-线性回归

1 线性回归应用场景

房价预测
销售额度预测
贷款额度预测

线性回归的定义【了解】
  利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式

线性回归的分类【知道】
  线性关系
  非线性关系

2 线性回归API

sklearn.linear_model.LinearRegression()
- LinearRegression.coef_：回归系数

3 步骤分析

1.获取数据集
2.数据基本处理（该案例中省略）
3.特征工程（该案例中省略）
4.机器学习
5.模型评估（该案例中省略）

4 代码过程

导入模块
from sklearn.linear_model import LinearRegression

构造数据集
x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

机器学习-- 模型训练
# 实例化API
estimator = LinearRegression()
# 使用fit方法进行训练
estimator.fit(x,y)

estimator.coef_

estimator.predict([[100, 80]])

5 优化算法

如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）

线性回归经常使用的两种优化算法
- 正规方程
- 梯度下降法

5.1 正规方程

什么是正规方程

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果

缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

5.2 梯度下降(Gradient Descent)

5.2.1 什么是梯度下降

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景：

一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。

因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。

具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。



    1) α是什么含义？

    α在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过α来控制每一步走的距离，以保证不要步子跨的太大扯着蛋，哈哈，其实就是不要走太快，错过了最低点。同时也要保证不要走的太慢，导致太阳下山了，还没有走到山下。所以α的选择在梯度下降法中往往是很重要的！α不能太大也不能太小，太小的话，可能导致迟迟走不到最低点，太大的话，会导致错过最低点！

    2) 为什么梯度要乘以一个负号？

梯度前加一个负号，就意味着朝着梯度相反的方向前进！我们在前文提到，梯度的方向实际就是函数在此点上升最快的方向！而我们需要朝着下降最快的方向走，自然就是负的梯度的方向，所以此处需要加上负号

5.3 梯度下降和正规方程的对比

5.3.1 两种方法对比

梯度下降	正规方程
需要选择学习率	不需要
需要迭代求解	一次运算得出
特征数量较大可以使用	需要计算方程，时间复杂度高O(n3)

6 算法选择依据

小规模数据：
- 正规方程：LinearRegression(不能解决拟合问题)
- 岭回归
大规模数据：
- 梯度下降法：SGDRegressor

7 梯度下降法大家族

首先，我们来看一下，常见的梯度下降算法有：

全梯度下降算法(Full gradient descent),
随机梯度下降算法(Stochastic gradient descent),
小批量梯度下降算法(Mini-batch gradient descent),
随机平均梯度下降算法(Stochastic average gradient descent)

它们都是为了正确地调节权重向量，通过为每个权重计算一个梯度，从而更新权值，使目标函数尽可能最小化。其差别在于样本的使用方式不同。

全梯度下降算法(FG)

批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新。

计算训练集所有样本误差，对其求和再取平均值作为目标函数。

注意：
    因为在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。

    批梯度下降法同样也不能在线更新模型，即在运行的过程中，不能增加新的样本。

随机梯度下降算法(SG)
其每轮计算的目标函数不再是全体样本误差，而仅是单个样本误差，即每次只代入计算一个样本目标函数的梯度来更新权重，再取下一个样本重复此过程，直到损失函数值停止下降或损失函数值小于某个可以容忍的阈值。

此过程简单，高效，通常可以较好地避免更新迭代收敛到局部最优解。
但是由于，SG每次只使用一个样本迭代，若遇上噪声则容易陷入局部最优解。

小批量梯度下降算法(mini-batch)

小批量梯度下降算法是FG和SG的折中方案,在一定程度上兼顾了以上两种方法的优点。
每次从训练样本集上随机抽取一个小样本集，在抽出来的小样本集上采用FG迭代更新权重。
被抽出的小样本集所含样本点的个数称为batch_size，通常设置为2的幂次方，更有利于GPU加速处理。
特别的，若batch_size=1，则变成了SG；若batch_size=n，则变成了FG.

随机平均梯度下降算法(SAG)

在SG方法中，虽然避开了运算成本大的问题，但对于大数据训练而言，SG效果常不尽如人意，因为每一轮梯度更新都完全与上一轮的数据和梯度无关。

随机平均梯度算法克服了这个问题，在内存中为每一个样本都维护一个旧的梯度，随机选择第i个样本来更新此样本的梯度，其他样本的梯度保持不变，然后求得所有梯度的平均值，进而更新了参数。

如此，每一轮更新仅需计算一个样本的梯度，计算成本等同于SG，但收敛速度快得多。

线性回归API及参数详解

正规方程
- sklearn.linear_model.LinearRegression()
梯度下降法
- sklearn.linear_model.SGDRegressor(）

sklearn.linear_model.LinearRegression(fit_intercept=True)
        通过正规方程优化
        参数
            fit_intercept：是否计算偏置
        属性
            LinearRegression.coef_：回归系数
            LinearRegression.intercept_：偏置
    sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)
        SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
        参数：
            loss:损失类型
                loss=”squared_loss”: 普通最小二乘法
            fit_intercept：是否计算偏置
            learning_rate : string, optional
                学习率填充
                'constant': eta = eta0
                'optimal': eta = 1.0 / (alpha * (t + t0)) [default]
                'invscaling': eta = eta0 / pow(t, power_t)
                    power_t=0.25:存在父类当中
                对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。
        属性：
            SGDRegressor.coef_：回归系数
            SGDRegressor.intercept_：偏置

案例：波士顿房价预测

正规方程代码案例
def linear_model1():
    """
    线性回归:正规方程
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(正规方程)
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None



梯度下降法代码案例

def linear_model2():
    """
    线性回归:梯度下降法
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(特征方程)
    estimator = SGDRegressor(max_iter=1000)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None

欠拟合和过拟合

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)


    欠拟合原因以及解决办法
        原因：学习到数据的特征过少
        解决办法：
            1）添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
            2）添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

    过拟合原因以及解决办法
        原因：原始特征过多，存在一些嘈杂特征， 模型过于复杂是因为模型尝试去兼顾各个测试数据点
        解决办法：
            1）重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。
            2）增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。
            3）正则化
            4）减少特征维度，防止维灾难

正则化

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化

正则化类别

L2正则化
- 作用：可以使得其中一些W的都很小，都接近于0，削弱某个特征的影响
- 优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象
- Ridge回归
L1正则化
- 作用：可以使得其中一些W的值直接为0，删除这个特征的影响
- LASSO回归

正则化线性模型

Ridge Regression 岭回归
Lasso 回归
Elastic Net 弹性网络
Early stopping

Ridge Regression 岭回归

岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）:

以达到在拟合数据的同时，使模型权重尽可能小的目的

    α=0：岭回归退化为线性回归

Early Stopping [了解]
Early Stopping 也是正则化迭代学习的方法之一。
其做法为：在验证错误率达到最小值的时候停止训练。


    Ridge Regression 岭回归
        就是把系数添加平方项
        然后限制系数值的大小
        α值越小，系数值越大，α越大，系数值越小
    Lasso 回归
        对系数值进行绝对值处理
        由于绝对值在顶点处不可导，所以进行计算的过程中产生很多0，最后得到结果为：稀疏矩阵
    Elastic Net 弹性网络
        是前两个内容的综合
        设置了一个r,如果r=0--岭回归；r=1--Lasso回归
    Early stopping
        通过限制错误率的阈值，进行停止

线性回归的改进-岭回归

岭回归API

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)

    具有l2正则化的线性回归
    alpha:正则化力度，也叫 λ
        λ取值：0~1 1~10
    solver:会根据数据自动选择优化方法
        sag:如果数据集、特征都比较大，选择该随机梯度下降优化
    normalize:数据是否进行标准化
        normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
    Ridge.coef_:回归权重
    Ridge.intercept_:回归偏置

Ridge方法相当于SGDRegressor(penalty='l2', loss="squared_loss"),只不过SGDRegressor实现了一个普通的随机梯度下降学习，推荐使用Ridge(实现了SAG)

    sklearn.linear_model.RidgeCV(_BaseRidgeCV, RegressorMixin)
        具有l2正则化的线性回归，可以进行交叉验证
        coef_:回归系数

波士顿房价预测-岭回归代码案例

def linear_model3():
    """
    线性回归:岭回归
    :return:
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(岭回归)
    estimator = Ridge(alpha=1)
    # estimator = RidgeCV(alphas=(0.1, 1, 10))
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

机器学习-线性回归

作者张, 宴银

1 线性回归应用场景

2 线性回归API

3 步骤分析

4 代码过程

5 优化算法

5.1 正规方程

5.2 梯度下降(Gradient Descent)

5.2.1 什么是梯度下降

5.3 梯度下降和正规方程的对比

5.3.1 两种方法对比

6 算法选择依据

7 梯度下降法大家族

线性回归API及参数详解

案例：波士顿房价预测

欠拟合和过拟合

正则化

正则化类别

正则化线性模型

线性回归的改进-岭回归

波士顿房价预测-岭回归代码案例

作者张, 宴银

相关文章

机器学习 – 特征降维

机器学习 – 朴素贝叶斯

机器学习 – 集成学习 04-Xgboost 代码实操

发表回复取消回复

You missed

机器学习 – 特征降维

机器学习 – 朴素贝叶斯

机器学习 – 集成学习 04-Xgboost 代码实操

机器学习 – 集成学习 03-GBDT 代码实操

作者张, 宴银

1 线性回归应用场景

2 线性回归API

3 步骤分析

4 代码过程

5 优化算法

5.1 正规方程

5.2 梯度下降(Gradient Descent)

5.2.1 什么是梯度下降

5.3 梯度下降和正规方程的对比

5.3.1 两种方法对比

6 算法选择依据

7 梯度下降法大家族

线性回归API及参数详解

案例：波士顿房价预测

欠拟合和过拟合

正则化

正则化类别

正则化线性模型

线性回归的改进-岭回归

波士顿房价预测-岭回归代码案例

作者 张, 宴银

相关文章

发表回复 取消回复

You missed

作者张, 宴银

发表回复取消回复