有序回归(Ordinal Regression)

序数回归建模的是有序输出,离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如:当征求个人意见,但是结果却限制为离散的类别如 “不同意”、”未确定” 和 “同意”。

建模过程

许多经典的建模类别数据的方法都假设类别是无序的,因此相应的概率是可以交换的。然而,有序类别的排序会导致一致统计模型的所需的特定相关性。特别的,相邻类别之间概率需要比遥远的类别之间的相关性要高。

一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型,对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式,并不需要用来解释真实数据的生成过程。

一旦具有了构建概率分布的过程,我们便可以引入潜在的影响来连续的调整这些概率。

假设隐变量分布空间为X = R X=R X =R ,概率分布密度函数为π ( x ) \pi(x)π(x ),通过三个cut points,c 0 , c 1 , c 2 {c_0,c_1,c_2}c 0 ​,c 1 ​,c 2 ​把X X X分割成两个区间,在这里c 0 = − ∞ , c 2 = + ∞ c_0=-\infty,c_2=+\infty c 0 ​=−∞,c 2 ​=+∞,c 1 c_1 c 1 ​在中间,控制X X X的分布情况,如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

可以通过累计概率分布函数的差来计算相应的概率:

p 1 = ∏ ( c 1 ) − ∏ ( c 0 ) = ∏ ( c 1 ) − 0 p_1=\prod(c_1)-\prod(c_0)=\prod(c_1)-0 p 1 ​=∏(c 1 ​)−∏(c 0 ​)=∏(c 1 ​)−0

p 2 = ∏ ( c 2 ) − ∏ ( c 1 ) = 1 − ∏ ( c 1 ) p_2=\prod(c_2)-\prod(c_1)=1-\prod(c_1)p 2 ​=∏(c 2 ​)−∏(c 1 ​)=1 −∏(c 1 ​)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

很容易把上面的过程扩展到多段的情况,使用K + 1 K+1 K +1个有序的cut points可以把X X X分割成K K K份,从而可以使用如下公式计算出K K K个有序概率:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

此时完整的序数模型为:

π ( k ∣ c 0 , … , c K ) = ∏ ( c k ) − ∏ ( c k − 1 ) \pi(k|c_0,\dots,c_K)=\prod(c_k)-\prod(c_{k-1})π(k ∣c 0 ​,…,c K ​)=∏(c k ​)−∏(c k −1 ​)

上述构建过程对于任何关于X X X的分布都成立,可以通过配置内部的切割点来实现任何期望的序数概率,通常可以考虑累积分布的计算复杂度来选择合适的关于X X X的概率分布。

当选择如下式所示的逻辑概率密度函数时:

π ( x ) = e − x ( 1 + e − x ) 2 \pi(x)=\frac{e^{-x}}{(1+e^{-x})^2}π(x )=(1 +e −x )2 e −x ​

其累计分布函数为sigmoid函数:

σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e{-x}}σ(x )=1 +e −x 1 ​

此时定义为 ordinal logistic或者ordered logistic,如果概率密度函数选择高斯分布,则称为 ordinal probit或者ordered probit。

如何来建模潜在因素对序数概率的影响呢?特别的,假设潜在因素记为γ \gamma γ,和较大的序数输出结果有关,问题的关键在于如何设计模型,使得当γ > 0 \gamma > 0 γ>0的时候把概率分布拉向较大的序数输出结果,当γ < 0 \gamma < 0 γ<0时,把概率分布拉向较小的序数输出结果。

实际上可以通过把x ⟼ x − γ x \longmapsto x-\gamma x ⟼x −γ来实现:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

由于潜在空间平移和切割点之间的这种等价性,在这种结构中,序数概率只告知γ \gamma γ 和切割点的相对位置。当对和切割点联合建模时,这导致观测模型中的不可辨识性和产生的似然函数中的强退化(个人理解为多组不同的γ \gamma γ和cut points可能代表同一个结果,比如γ \gamma γ、cut points和2 γ 2\gamma 2 γ和 c u t p o i n t s + 2 ∗ γ cut points + 2 * \gamma c u t p o i n t s +2 ∗γ)。为了防止这些退化从已实现的似然函数传播到相应的后验分布,我们必须小心地将γ \gamma γ、切割点,或者甚至两者都锚定到先验模型中的一些基线值。

一个更好的方法是完全避免对任何基线γ \gamma γ建模,而是使用这种构造来对跨不同环境的γ \gamma γ中的 _异构性_建模。例如,考虑亲和本身受外部协变量的影响,γ = α + β x \gamma=\alpha+\beta x γ=α+βx。截距α \alpha α不是从切割点确定的,因此不是真正定义明确的。理想情况下,我们将完全放弃截距,只对协变量依赖关系建模,γ = β x \gamma=\beta x γ=βx。

Original: https://blog.csdn.net/weixin_43424482/article/details/122330071
Author: 会说话的七里香
Title: 有序回归(Ordinal Regression)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/630125/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球