论文笔记: 多标签学习 GLOCAL

摘要: 分享对论文的理解. 原文见 Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.

  • 将标签矩阵进行矩阵分解, 所获得的子空间就没有缺失值了.

  • 子空间能够表达标签相关性.

  • 聚类后进行局部拟合.

符号维度含义

对象个数

标签个数

隐含标签个数

数据矩阵

标签矩阵

从隐含标签向真实标签的映射

从对象向隐含标签的映射

权值矩阵

W T × X ≈ Y \mathbf{W}^\mathrm{T} \times \mathrm{X} \approx \mathbf{Y}W T ×X ≈Y, 这时 W \mathbf{W}W 为 d × l d \times l d ×l
线性模型的优点: 直截了当.

缺点: 线性太简单, 相当于 W \mathbf{W}W 的每一列服务于一个标签, 不能体现标签相关性.

U × V ≈ Y \mathbf{U} \times \mathbf{V} \approx \mathbf{Y}U ×V ≈Y
即将 Y \mathbf{Y}Y 分解为两个矩阵. 但这种模型只能用于矩阵填充, 如缺失标签的补齐, 不能直接用于预测.

W T × X ≈ V \mathbf{W}^\mathrm{T} \times \mathbf{X} \approx \mathbf{V}W T ×X ≈V
即用拟合分解后的矩阵 V \mathbf{V}V.

优势:

  • 隐含标签矩阵没有缺失值;
  • 隐含标签可以比实际标签少;
  • 支持预测:U W T x \mathbf{U} \mathbf{W}^\mathrm{T} \mathbf{x}U W T x: 就是对实例x \mathbf{x}x 的标签预测,结果是l × 1 l \times 1 l ×1 的. 这里的x \mathbf{x}x 既可以是X \mathbf{X}X 的一个实例, 也可以是新的实例.

min ⁡ U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) (1) \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} \|\Pi_{\Omega}(\mathbf{Y} – \mathbf{U}\mathbf{V})\|_F^2 + \lambda \|\mathbf{V} – \mathbf{W}^{\mathrm{T}}\mathbf{X}\|_F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W}) \tag{1}U ,V ,U min ​∥ΠΩ​(Y −U V )∥F 2 ​+λ∥V −W T X ∥F 2 ​+λ2 ​R (U ,V ,W )(1 )
解释:

  • Π Ω \Pi_{\Omega}ΠΩ​ 应对缺失标签, 不能对相应的拟合值进行惩罚. 矩阵分解通常都采用这种方案;
  • 第一部分表示U V \mathbf{UV}U V 拟合Y \mathbf{Y}Y 的质量;
  • 第二部分表示W T × W \mathbf{W}^\mathrm{T} \times \mathbf{W}W T ×W 拟合V \mathbf{V}V 的质量;
  • 第三部分表示对几个参数矩阵的正则化. 可以分别对它们正则化.

min ⁡ U , V , U ∥ Π Ω ( Y − U V ) ∥ F 2 + λ 1 ∥ V − W T X ∥ F 2 + λ 2 R ( U , V , W ) + λ 3 t r ( F 0 T L 0 F 0 ) + ∑ m = 1 g λ 4 t r ( F m T L m F m ) (2) \begin{array}{ll} \min_{\mathbf{U}, \mathbf{V}, \mathbf{U}} & \|\Pi_{\Omega}(\mathbf{Y} – \mathbf{U}\mathbf{V})\|^2_F + \lambda_1 \|\mathbf{V} – \mathbf{W}^{\mathrm{T}}\mathbf{X}\|F^2 + \lambda_2 R(\mathbf{U}, \mathbf{V}, \mathbf{W})\ &+ \lambda_3 tr(\mathbf{F}_0^{\mathrm{T}} \mathbf{L}_0 \mathbf{F}_0) +\sum{m = 1}^g \lambda_4 tr(\mathbf{F}_m^{\mathrm{T}} \mathbf{L}_m \mathbf{F}_m) \tag{2} \end{array}min U ,V ,U ​​∥ΠΩ​(Y −U V )∥F 2 ​+λ1 ​∥V −W T X ∥F 2 ​+λ2 ​R (U ,V ,W )+λ3 ​t r (F 0 T ​L 0 ​F 0 ​)+∑m =1 g ​λ4 ​t r (F m T ​L m ​F m ​)​(2 )
解释:

  • 前三部分与 (1) 相同;
  • 第四、五部分计算矩阵的轶, 轶越低越好.

  • F 0 \mathbf{F}_0 F 0 ​ 是对X \mathbf{X}X 中所有实例预测导致的矩阵, 用于拟合Y \mathbf{Y}Y. 以此实现 Global 优化.

  • S 0 1 \mathbf{S}_0 \mathbf{1}S 0 ​1 有两种可能:
    a) 将S 0 \mathbf{S}_0 S 0 ​ 中对角线的元素保留,其它的位置为 0;
    b) 将S 0 \mathbf{S}_0 S 0 ​ 的每i i i 行的值相加, 放到( i , i ) (i, i)(i ,i ) 位置, 其它位置为 0.

  • 聚类: 原始n n n = 1000, 聚类后n 1 n_1 n 1 ​ = 100,n 2 n_2 n 2 ​ = 300,n 3 n_3 n 3 ​ = 600
    获得X 1 , X 2 , X 3 \mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3 X 1 ​,X 2 ​,X 3 ​.

F m \mathbf{F}_m F m ​ 是对各簇的拟合. 以此实现 Local 优化.

Original: https://blog.csdn.net/minfanphd/article/details/123021105
Author: 闵帆
Title: 论文笔记: 多标签学习 GLOCAL

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550510/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球