有序回归（Ordinal Regression）

2023年6月17日下午12:30 • 人工智能 • 阅读 137

序数回归建模的是有序输出，离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如：当征求个人意见，但是结果却限制为离散的类别如 “不同意”、”未确定” 和 “同意”。

建模过程

许多经典的建模类别数据的方法都假设类别是无序的，因此相应的概率是可以交换的。然而，有序类别的排序会导致一致统计模型的所需的特定相关性。特别的，相邻类别之间概率需要比遥远的类别之间的相关性要高。

一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型，对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式，并不需要用来解释真实数据的生成过程。

一旦具有了构建概率分布的过程，我们便可以引入潜在的影响来连续的调整这些概率。

假设隐变量分布空间为X = R X=R X =R ,概率分布密度函数为π ( x ) \pi(x)π(x )，通过三个cut points，c 0 , c 1 , c 2 {c_0,c_1,c_2}c 0 ,c 1 ,c 2 把X X X分割成两个区间，在这里c 0 = − ∞ , c 2 = + ∞ c_0=-\infty,c_2=+\infty c 0 =−∞,c 2 =+∞,c 1 c_1 c 1 在中间，控制X X X的分布情况，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

可以通过累计概率分布函数的差来计算相应的概率：

p 1 = ∏ ( c 1 ) − ∏ ( c 0 ) = ∏ ( c 1 ) − 0 p_1=\prod(c_1)-\prod(c_0)=\prod(c_1)-0 p 1 =∏(c 1 )−∏(c 0 )=∏(c 1 )−0

p 2 = ∏ ( c 2 ) − ∏ ( c 1 ) = 1 − ∏ ( c 1 ) p_2=\prod(c_2)-\prod(c_1)=1-\prod(c_1)p 2 =∏(c 2 )−∏(c 1 )=1 −∏(c 1 )

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

很容易把上面的过程扩展到多段的情况，使用K + 1 K+1 K +1个有序的cut points可以把X X X分割成K K K份，从而可以使用如下公式计算出K K K个有序概率：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

此时完整的序数模型为：

π ( k ∣ c 0 , … , c K ) = ∏ ( c k ) − ∏ ( c k − 1 ) \pi(k|c_0,\dots,c_K)=\prod(c_k)-\prod(c_{k-1})π(k ∣c 0 ,…,c K )=∏(c k )−∏(c k −1 )

上述构建过程对于任何关于X X X的分布都成立，可以通过配置内部的切割点来实现任何期望的序数概率，通常可以考虑累积分布的计算复杂度来选择合适的关于X X X的概率分布。

当选择如下式所示的逻辑概率密度函数时：

π ( x ) = e − x ( 1 + e − x ) 2 \pi(x)=\frac{e^{-x}}{(1+e^{-x})^2}π(x )=(1 +e −x )2 e −x

其累计分布函数为sigmoid函数：

σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e{-x}}σ(x )=1 +e −x 1

此时定义为 ordinal logistic或者ordered logistic，如果概率密度函数选择高斯分布，则称为 ordinal probit或者ordered probit。

如何来建模潜在因素对序数概率的影响呢？特别的，假设潜在因素记为γ \gamma γ，和较大的序数输出结果有关，问题的关键在于如何设计模型，使得当γ > 0 \gamma > 0 γ>0的时候把概率分布拉向较大的序数输出结果，当γ < 0 \gamma < 0 γ<0时，把概率分布拉向较小的序数输出结果。

实际上可以通过把x ⟼ x − γ x \longmapsto x-\gamma x ⟼x −γ来实现：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

由于潜在空间平移和切割点之间的这种等价性，在这种结构中，序数概率只告知γ \gamma γ 和切割点的相对位置。当对和切割点联合建模时，这导致观测模型中的不可辨识性和产生的似然函数中的强退化（个人理解为多组不同的γ \gamma γ和cut points可能代表同一个结果，比如γ \gamma γ、cut points和2 γ 2\gamma 2 γ和 c u t p o i n t s + 2 ∗ γ cut points + 2 * \gamma c u t p o i n t s +2 ∗γ）。为了防止这些退化从已实现的似然函数传播到相应的后验分布，我们必须小心地将γ \gamma γ、切割点，或者甚至两者都锚定到先验模型中的一些基线值。

一个更好的方法是完全避免对任何基线γ \gamma γ建模，而是使用这种构造来对跨不同环境的γ \gamma γ中的 _异构性_建模。例如，考虑亲和本身受外部协变量的影响，γ = α + β x \gamma=\alpha+\beta x γ=α+βx。截距α \alpha α不是从切割点确定的，因此不是真正定义明确的。理想情况下，我们将完全放弃截距，只对协变量依赖关系建模，γ = β x \gamma=\beta x γ=βx。

Original: https://blog.csdn.net/weixin_43424482/article/details/122330071
Author: 会说话的七里香
Title: 有序回归（Ordinal Regression）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630125/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java 有类似pandas_java中的数据处理框架-Joinery的初次使用(类似于python中的pandas)…

由于用惯了python中的pandas，在写java代码时也想找找类似的框架，便发现了Joinery。 Meaven配置 joinery joinery-dataframe 1.9…

人工智能 2023年7月8日
0064
Python数据分析与可视化（1）——Python数据分析与可视化

1、大数据分析框架结构 ; 2、数据、信息与数据分析数据：是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它…

人工智能 2023年7月4日
0075
SpringBoot 整合 Neo4j

知识图谱技术三要素在知识图谱中，通过三元组集合的形式来描述事物之间的关系：实体：又叫作本体，指客观存在并可相互区别的事物，可以是具体的人、事、物，也可以是抽象的概念或联系，…

人工智能 2023年6月1日
0082
关于模型冻结某层参数的问题

可看这两个链接 https://www.zhihu.com/question/311095447/answer/589307812 bert冻结参数 https://blog.cs…

人工智能 2023年6月4日
0082
什么是数据标注？

什么是数据标注这是IT互联网公司的一个职位。数据标注器使用自动化工具从互联网上抓取和收集数据，包括文本、图片、语音等。然后整理并注释捕获的数据。相当于网络上的”专职编辑…

人工智能 2023年5月31日
0080
卷积核的大小如何选择

问题介绍在卷积神经网络（Convolutional Neural Network, CNN）中，卷积核（Kernel）的大小是一个重要的超参数。正确选择卷积核的大小可以提高模型的…

人工智能 2024年1月1日
0071
Qt QImage 图像处理(翻转,灰度，亮度）代码实现

1.界面效果该程序利用QImage类对图片像素进行操作，实现图像的翻转，转灰度，增加亮度的效果。模拟图像处理效果背后的算法实现。后续可以陆续增加其他图像处理功能，可进一步扩展。 …

人工智能 2023年6月18日
00184
BERT实战（1）：使用DistilBERT作为词嵌入进行文本情感分类，与其它词向量（FastText,Word2vec,Glove）进行对比

这次根据一篇教程Jay Alammar: A Visual Guide to Using BERT for the First Time学习下如何在Pytorch框架下使用BERT…

人工智能 2023年5月30日
0075
python PIL读取图像转换为灰度图及二值图像

目录以下操作都是在windows环境下进行。一、读取数据 1. 读取单个图像： 2. 批量读取： 3. 看一下是否读取成功：二、模式”RGB”转换为&…

人工智能 2023年5月26日
00127
sklearn的系统学习——随机森林分类器与随机森林回归器（含有python完整代码及案例）

目录集成算法 sklearn中的随机森林随机森林分类器随机性参数属性案例代码随机森林回归器案例代码在前面的内容中，已经对决策树解决分类回归问题分别做了阐述，今天走进…

人工智能 2023年6月16日
0074
知识图谱基本概念

1.1 知识图谱定义与发展历程知识图谱在维基百科的定义：使用语义检索，从多种来源收集信息，以提高搜索质量的知识库。 1965年，斯坦福大学的E.A.Feigenbaum提出专家系…

人工智能 2023年6月1日
0078
深度学习100例 | 第41天：语音识别 – PyTorch实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0059
【SLAM】LVI-SAM解析——综述

LVI-SAM可以认为是LIO-SAM和VINS-MONO的合体，在此基础上的修改不大。 github： https://github.com/TixiaoShan/LVI-SAM…

人工智能 2023年6月24日
0097
基于生成对抗网络结构的图像修复（GAN）

GAN 网络的最初发展史自2014 年10 月Goodfellow 等人提出了一个通过对抗过程生成模型的框架开始，GAN 网络就成为近年来在无监督学习复杂分布中最具前景的方法之一…

人工智能 2023年6月16日
0080
手把手教你用JAVA实现“语音识别”功能（声音转文字）标贝科技

手把手教你用JAVA实现”语音识别”功能（声音转文字）标贝科技前言什么是语音识别？将自然语音转换为文本信息，本篇文章将介绍”一句话识别&#8…

人工智能 2023年6月6日
00102
2020CCFBDCI通用音频分类CNN方案（0.90+方案）

赛题名：通用音频分类赛道：训练赛道背景：随着移动终端的广泛应用以及数据量的不断积累，海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体，音频信息处理应用广泛且多样，如自…

人工智能 2023年5月27日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

有序回归（Ordinal Regression）

建模过程

大家都在看