摘要: 分享对论文的理解. 原文见 Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.
-
将标签矩阵进行矩阵分解, 所获得的子空间就没有缺失值了.
-
子空间能够表达标签相关性.
-
聚类后进行局部拟合.
符号维度含义
对象个数
标签个数
隐含标签个数
数据矩阵
标签矩阵
从隐含标签向真实标签的映射
从对象向隐含标签的映射
权值矩阵
W T × X ≈ Y \mathbf{W}^\mathrm{T} \times \mathrm{X} \approx \mathbf{Y}W T ×X ≈Y, 这时 W \mathbf{W}W 为 d × l d \times l d ×l
线性模型的优点: 直截了当.
缺点: 线性太简单, 相当于 W \mathbf{W}W 的每一列服务于一个标签, 不能体现标签相关性.
U × V ≈ Y \mathbf{U} \times \mathbf{V} \approx \mathbf{Y}U ×V ≈Y
即将 Y \mathbf{Y}Y 分解为两个矩阵. 但这种模型只能用于矩阵填充, 如缺失标签的补齐, 不能直接用于预测.
W T × X ≈ V \mathbf{W}^\mathrm{T} \times \mathbf{X} \approx \mathbf{V}W T ×X ≈V
即用拟合分解后的矩阵 V \mathbf{V}V.
优势:
- 隐含标签矩阵没有缺失值;
- 隐含标签可以比实际标签少;
- 支持预测:U W T x \mathbf{U} \mathbf{W}^\mathrm{T} \mathbf{x}U W T x: 就是对实例x \mathbf{x}x 的标签预测,结果是l × 1 l \times 1 l ×1 的. 这里的x \mathbf{x}x 既可以是X \mathbf{X}X 的一个实例, 也可以是新的实例.
min U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) (1) \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} \|\Pi_{\Omega}(\mathbf{Y} – \mathbf{U}\mathbf{V})\|_F^2 + \lambda \|\mathbf{V} – \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W}) \tag{1}U ,V ,U min ∥ΠΩ(Y −U V )∥F 2 +λ∥V −W T X ∥F 2 +λ2 R (U ,V ,W )(1 )
解释:
- Π Ω \Pi_{\Omega}ΠΩ 应对缺失标签, 不能对相应的拟合值进行惩罚. 矩阵分解通常都采用这种方案;
- 第一部分表示U V \mathbf{UV}U V 拟合Y \mathbf{Y}Y 的质量;
- 第二部分表示W T × W \mathbf{W}^\mathrm{T} \times \mathbf{W}W T ×W 拟合V \mathbf{V}V 的质量;
- 第三部分表示对几个参数矩阵的正则化. 可以分别对它们正则化.
min U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ 1 ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) + λ 3 t r ( F 0 T L 0 F 0 ) + ∑ m = 1 g λ 4 t r ( F m T L m F m ) (2) \begin{array}{ll} \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} & \|\Pi_{\Omega}(\mathbf{Y} – \mathbf{U}\mathbf{V})\|^2_F + \lambda_1 \|\mathbf{V} – \mathbf{W}^{\mathrm{T}}\mathbf{X}\|F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W})\ &+ \lambda_3 tr(\mathbf{F}_0^{\mathrm{T}} \mathbf{L}_0 \mathbf{F}_0) +\sum{m = 1}^g \lambda_4 tr(\mathbf{F}_m^{\mathrm{T}} \mathbf{L}_m \mathbf{F}_m) \tag{2} \end{array}min U ,V ,U ∥ΠΩ(Y −U V )∥F 2 +λ1 ∥V −W T X ∥F 2 +λ2 R (U ,V ,W )+λ3 t r (F 0 T L 0 F 0 )+∑m =1 g λ4 t r (F m T L m F m )(2 )
解释:
- 前三部分与 (1) 相同;
-
第四、五部分计算矩阵的轶, 轶越低越好.
-
F 0 \mathbf{F}_0 F 0 是对X \mathbf{X}X 中所有实例预测导致的矩阵, 用于拟合Y \mathbf{Y}Y. 以此实现 Global 优化.
-
S 0 1 \mathbf{S}_0 \mathbf{1}S 0 1 有两种可能:
a) 将S 0 \mathbf{S}_0 S 0 中对角线的元素保留,其它的位置为 0;
b) 将S 0 \mathbf{S}_0 S 0 的每i i i 行的值相加, 放到( i , i ) (i, i)(i ,i ) 位置, 其它位置为 0. -
聚类: 原始n n n = 1000, 聚类后n 1 n_1 n 1 = 100,n 2 n_2 n 2 = 300,n 3 n_3 n 3 = 600
获得X 1 , X 2 , X 3 \mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3 X 1 ,X 2 ,X 3 .
F m \mathbf{F}_m F m 是对各簇的拟合. 以此实现 Local 优化.
Original: https://blog.csdn.net/minfanphd/article/details/123021105
Author: 闵帆
Title: 论文笔记: 多标签学习 GLOCAL
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550510/
转载文章受原作者版权保护。转载请注明原作者出处!