CUR矩阵分解

2023年6月29日下午8:08 • 人工智能 • 阅读 123

CUR矩阵分解

1. Intuition

SVD缺点：

可解释性差。
太过Dense。

SVD: X = U Σ V T X=U\Sigma V^T X =U ΣV T，其中U , V U,V U ,V都是Big and Dense，Σ \Sigma Σ是Small But Sparse。

Aims to Get:

CUR: X = C U R X=CUR X =C U R，其中C , R C,R C ,R都是Big but Sparse，U U U是Small and Dense。

Rough Intuition:

CUR选的点可能是更偏离远点的，同时坐标轴可能是多余的。

; 2. Proof

TL;DR.

详见CUR理论公式推导。

3. Algo

Given Input Matrix A:

Randam choose, C columns, R rows.
C ∩ U C\cap U C ∩U intersection point matrix W W W.
SVD Decomposition W = X Σ Y T W = X\Sigma Y^T W =X ΣY T
Derive Generalized inverse matrix of $\Sigma^{+} $ via Σ \Sigma Σ, i.e. non-zero elements turn to its countdown
Derive U = Y Σ + X T U=Y\Sigma^{+}X^T U =Y Σ+X T
A = C ⋅ U ⋅ R = C ⋅ Y ⋅ Σ + ⋅ X T ⋅ R A=C\cdot U\cdot R=C\cdot Y\cdot \Sigma^{+}\cdot X^T\cdot R A =C ⋅U ⋅R =C ⋅Y ⋅Σ+⋅X T ⋅R

4. Remarks

第一步关于如何选择C,R

Mahoney等人提出可以里用normalized statistical leverage scores π j = 1 k ∑ η = 1 k = ( v η i ) 2 \pi_j=\frac{1}{k}\sum_{\eta=1}^k=(v_\eta^i)^2 πj =k 1 ∑η=1 k =(v ηi )2，i.e.该列/行的二范数占所有列数二范数的比例，作为衡量其统计影响力的指标。也即square of its Frobenius norm。
苏剑林解读论文

可能有读者想问”有代表的q,kq,k要怎么选？”，事实上，大多数情况下都是随机选的，这就留下了一些提升空间，比如可以 聚类后选最接近聚类中心的那个，这些就看大家自由发挥了。另外要指出的是，CUR分解本身只是一种近似，它肯定有误差，所以该 加速方案主要是为 检索场景设计的，检索场景的特点是比较在乎topk的召回率，而不是特别要求top1的精确率，我们可以用CUR分解加速来召回 若干个结果后，再用精确的s(q,k)做一次 重排序来提高准确度。

第四步关于广义逆矩阵

也有文献表示QR分解更稳定。

Experiments

不放回抽样的CUR效果最好。同时保证了效率和精度。对于large sparse matrix有很不错的效果。

; Reference

CUR matrix decompositions for improved data analysis

利用CUR分解加速交互式相似度模型的检索

Dimensionality_Reduction

CUR矩阵分解 (对比SVD)

Sublinear Time Approximation of Text Similarity Matrices

Semantic Representation of Documents Based on Matrix Decomposition

CUR分解算法及Python实现

Original: https://blog.csdn.net/weixin_43557139/article/details/127823880
Author: SUFEHeisenberg
Title: CUR矩阵分解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/659868/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Java中使用jxl.jar将数据导出为excel文件

Java对Excel文件的读写操作可由jxl.jar或poi.jar实现，这里使用 jxl.jar完成对Excel文件的导出。一、将Excel文件导出在本地步骤：创建文件 -&…

人工智能 2023年6月6日
00102
Win10 + C++ + Paddle进行OCR文字识别 Cmake编译

1,下载文件并保存到D盘 1.1，PaddleOCR 项目文件下载11.2，下载推理模型 PaddleOCR 项目文件下载21.4，下载推理库1.5，下载Opencv3.41.6，…

人工智能 2023年7月18日
0064
matlab 设计BP神经网络对给出的英文字符分类

题目如下：这里题目的意思应该是输入16个像素格如下图：输出向量表示那个地方没读太懂，希望有大佬懂得私信或者评论一下，这里对A I O分类的输出向量代表我换成了1 2 3，代码部…

人工智能 2023年7月1日
0074
图像处理（十一）：轮廓检测

1 图像的轮廓轮廓可以简单认为成将连续的点（连着边界）连在一起的曲线，具有相同的颜色或者灰度。轮廓是图像目标的外部特征，这种特征对于我们进行图像分析，目标识别和理解等更深层次的处…

人工智能 2023年6月18日
0085
数字图像处理（2）—OPENCV–学习笔记（颜色，色域，控制条）

文章目录前言一、数字图像处理—–色彩空间？二、图形绘制，RGB等色域 1.颜色空间转化 2.mat 数据结构，ndarray,深浅拷贝 3.颜色通道分…

人工智能 2023年6月22日
0087
【机器学习】决策树案例三：利用决策树进行泰坦尼克号事故人员存活分类预测

利用决策树进行泰坦尼克号事故人员存活分类预测 3 利用决策树进行泰坦尼克号事故人员存活分类预测 * 3.1 导入模块与加载数据 3.2 特征工程 3.3 划分数据 3.4 模型创建…

人工智能 2023年7月1日
0065
使用自己数据及进行PointNet++分类网络训练

二、数据集读取常用数据集点云数据集_爱学习的小菜鸡的博客-CSDN博客_点云数据集选用悉尼大学开放的自动驾驶数据集进行训练方式一：安装snark软件 math-deg2ra…

人工智能 2023年7月2日
00107
地理探测器学习

一、为什么选择了地理探测器（1）因变量Y和自变量x的两个空间分布的一致性也仅映了这两个变量的关联性，这种关联既包括线性部分，也包括非线性部分,可以用地理探测器度量这种关联性。线性…

人工智能 2023年7月16日
00120
如何进行模型的监控和诊断，以及错误处理和回滚

问题：如何进行模型的监控和诊断，以及错误处理和回滚？介绍在机器学习领域，模型的监控和诊断是保证模型持续高效运行的重要步骤。监控模型可以帮助我们检测模型性能下降、预测错误和异常行…

人工智能 2024年1月3日
0038
论文阅读 Exploring Temporal Information for Dynamic Network Embedding

10 Exploring Temporal Information for Dynamic Network Embedding 5 link:https://scholar.goo…

人工智能 2023年6月4日
0094
pytorch-lightning安装

一般pytorch-lightning 需要torch版本≥1.8.0。在安装pytorch-lightning时一定注意自己的torch是pip安装还是conda安装，两者要保…

人工智能 2023年6月16日
0052
pandas 数据整理（转置）

学习目标掌握melt函数整理数据的方法掌握stack、unstack的用法掌握wide_to_long函数的用法 1 melt整理数据加载美国收入与宗教信仰数据 impor…

人工智能 2023年7月8日
0078
多标签多分类相关

一、单标签多分类单标签二分类这种问题是我们最常见的算法问题，主要是指label 标签的取值只有两种，并且算法中只有一个需要预测的label标签；直白来讲就是每个实例的可能类别只…

人工智能 2023年6月4日
0076
Google I/O 2021 What‘s new in Android Machine Learning

视频地址：Android 机器学习新功能，Video 时长：9min29s 以下是视频内容的摘要，以供参考。 [En] The following is a summary of …

人工智能 2023年5月25日
0066
BP神经网络(反向传播算法原理、推导过程、计算步骤)

BP神经网络 1、反向传播算法的原理 2、反向传播算法参数学习的推导 3、反向传播算法参数更新案例 * 3.1 反向传播的具体计算步骤 – 3.1.1 计算输出层的误差…

人工智能 2023年6月15日
0095
KBQA 常用的问答数据集之 WebQSP

目录 1. 论文相关 2. 数据集概述 2.1 内容介绍 2.2 数据统计 2.3 文件介绍 3. 模型性能比较论文相关 WebQuestionsSP [Yih et al., …

人工智能 2023年5月27日
00101

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

CUR矩阵分解

1. Intuition

; 2. Proof

3. Algo

4. Remarks

Experiments

; Reference

大家都在看