《机器学习 》
第三章:线性模型
一、基本形式
$$
y(w,x)=w1x1+⋯+wdxd+b
$$$$
y(w,x)=w^T+b
$$
线性模型的优点:
形式简单但富于变化,易与建模,但却蕴涵着机器学习中的一些重要的基本思路。
许多非线性模型都可在线性模型的基础上通过引入层级结构高位映射而得。
有很好地解释性。
二、线性回归
目的是学得
$$
f(xi)=wxi+b,使得f(xi)约等于yi
$$
深入后就是确定
$$
w,b
$$
确定 w,b的方法是什么呢:
解释f(x)和y之间的差别——利用均方误差最小化(对应 “欧氏距离”)——
最小二乘法:线性回归中,就是找到一条直线,使所有样本到直线上的欧氏距离之和最小
公式:
上面只是一元回归的问题
由上面可推广到多元回归问题和广义线性模型
多元线性回归即 D个数据集和d个属性描述
最小二乘法求多元线性回归的参数
我们要求解多元线性回归模型,就是要求解使均方误差最小化时所对应的参数,类似于
有
X表示增广矩阵, 表示最优闭式解
最优解的闭式解,
求得对应模型的解,即使得均方误差函数最小化时的权重向量。
同上,我们可以用最小二乘法对模型的参数进行估计,具体做法是:损失函数对需要求解的参数进行求导,并且令其导数为 0,求得相应的参数。
损失函数对参数求导最后得到:
$$
X^T为满秩矩阵(full-rank matrix) 或正走矩阵(positivedefinite matrix) 时,令上式为 0 可得:
$$
其中,需满足条件为满秩矩阵或正定矩阵。
令,最终学得的多元线性回归模型为:
广义线性模型
将线性回归模型简写为:
在线性回归中,所对应的输出标记是在线性尺度(直线)上变化的,我们想把它映射到别的尺度上,来令模型预测值逼近y
的衍生物。如指数尺度上,就可以将输出标记的对数作为线性模型逼近的目标,这里是在用去逼近y
。即
称为对数线性回归。
上式在形式上仍是线性回归,但实质上已经是在求取输入空间到输出空间的非线性函数映射。示意图如下:
更一般地,考虑单调可微函数g(·)
,令
这样得到的模型称为广义线性模型。其中,函数g(·)
称为联系函数。
显然,对数线性回归是广义线性模型在g(·)=ln(·)
时的特例。
三、对数几率模型
线性回归模型产生的预测值是实值:
二分类任务的输出标记为:
我们需要将实值z
转换为 0/1 值
。可通过单位阶跃函数转换:
即若预测值z
大于 0 就判为正例,小于 0 判为反例,预测值为临界值 0 则可任意判别。如下图所示:
可以看出,单位阶跃函数(红色部分)不连续,故不满足函数g(·)
单调可微的条件,因此我们希望找到能在一定程度上近似它的替代函数,这个函数就是对数几率函数 (logistic function),简称对率函数,它是一种 Sigmoid 函数。
对数几率函数:
Sigmoid 函数:
即形似 S 的函数,对率函数是 Sigmoid 函数最重要的代表
对数几率回归模型
对率函数将z
值转化为一个接近 0 或 1 的y
值,并且在输出值z=0
附近变化很陡。将它作为代入广义线性模型,得到模型:
将上式变化为以下形式:
若将y
视为样本x
作为正例的可能性,则1-y
是其反例可能性,两者的比值
称为几率,反映了x
作为正例的相对可能性,对其取对数得到对数几率:
由以上推导可知,该模型实际上是在用线性回归模型的预测结果
去逼近真实标记的对数几率。
ll称它为对数几率回归 (logistic regression 亦称 logit regression),是一种分类学习方法。
四、线性判别分析
LDA 思想:给定训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类点尽可能远离;再对新鲜样本进行分类时,将其投影到相同的直线上,再根据投影点的位置来确定新的样本类别。
图:
类内小,内间大 类内方差最小,类间方差最大
LDA作用:1、分类
2、降维,其将高维空间的点映射到一条直线上,用一个实数来表示高维空间的点,此时点的描述信息会会全部丢失,例如用三个维度(形状、甜度、颜色)来描述苹果,有一个苹果在这三个维度的得分为(1,2,3),则可以用(1,2,3)来表述这个苹果的特征,利用线性判别分析投影到直线后,我们用一个实数来表示这个苹果,但是我们无法知道苹果的甜度是多少
欲使同类样例投影点尽可能接近,异类样例投影点尽可能远离
就有了一下算法:
若将 W视为一个投影矩阵,则多分类 LDA 将样本投影到 N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样点的维数,且投影过程中使用了类别信息?因此LDA也常被视为一种经典的监督降维技术。
五、多分类任务学习
在多数情况下,都是基于一些基本策略,利用二分类学习器来解决多分类问题。
引入”拆解法“:将多分类任务拆分为若干个二分类任务求解。
这里就有三种经典的拆分策略:
1、“一对一”——“OvO”:①、流程
将N个类别进行两两配对,产生N(N-1)/2 个二分类任务,然后为每一个二分类任务训练一个分类器。测试阶段,分类器将新样本进行预测,得到N(N-1)/2个预测结果,最终结果通过”投票”产生。
2、“一对多”——”OvR“:①、流程
对于由N个类别的样本,每次将样本的一个样例作为正例,其余样例作为反例,训练N个分类器。测试时,若仅有一个分类器预测为正例,则将其作为最终结果。若由多个分类器预测为正例,则选择分类器的预测置信度最大的为最终结果。
OVR、OVO 比较:
3、“多对多”——“MvM”:①、流程
每次将若干个样例作为正例,若干个样例作为反例。MVM的正反类构造需要特殊设计,通常采用“纠错输出码”(“ECOC”)。
ECOC: —-编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集。这样一共产生M个训练集,可训练出M个分类器。
—-解码:M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
六、类别不平衡问题
类别不平衡就是指分类任务中的不同类别的训练样例数目差别很大的情况
前言: 之前所说的分类学习方法都是基于训练样本比例大致相同,不同类别之间样本数目相差不大的情况, 但若差别很大,例如有 985 个反例,但正例只有 15 个,那么学习训练之后,学习器只需将任何一个新样本都预测为反例,就能达到 98.5% 的精度; 但这样学习器没什么价值。像这样训练样本比例相差很大的情况即为 类别不平衡问题 。
解决方法 :数值再缩放策略
- Threshold-moving
对于样本数据比例相同时,我们采用 y = w^T x + b
来对新样本 x 进行分类,y>0.5时判别为正例,否则为反例,相当于对 y 设立一个阈值,设置为0.5,那么此时分类器分类规则则是:
上面可以看出,当阈值设置为 0.5 的时候,那么上式的 y/1-y
则是与 1 进行比较;相应的,对于类别不平衡问题,我们可以尝试改变阈值,不是和1进行比较,我们可以对其进行更改。
$$
令m+为正例数目,m-为反例数目,此时我们观测几率则是 m+/m- ,因此当预测几率大于观测几率时,则判定为正例,即:
$$
注意: 分类器都是基于上式那样来进行决策,因此,需要再次进行调整,即:
a、
- Over-sampling
过采样 则是增加少的那一部分样本来使得正、反例数目接近,然后进行学习。
样本插值 (代表性算法:SMOTE)
样本生成 (GAN)
- Under-sampling
欠采样 则是去除一些样本来使得正、反例数目接近,然后进行学习。
集成学习机制 (代表性算法:EasyEnsemble)
- 直接给予原始训练集进行学习,但在用训练好的分类器进行预测时,将a式嵌入到决策过程中称为“阈值移动”