稀疏矩阵的概念介绍

2023年6月16日上午8:48 • 人工智能 • 阅读 60

在机器学习中，如果我们的样本数量很大，在大多数情况下，首选解决方案是减少样本量、更改算法，或者通过添加更多内存来升级机器。这些方案不仅粗暴，而且可能并不总是可行的。由于大多数机器学习算法都期望数据集（例如常用的 DataFrame）是保存在内存中的对象（因为内存读取要比磁盘读取快不止一个量级），所以升级硬件这种解决方案基本上会被否定。所以科学家们找到的一种既能够保存信息，又节省内存的方案：我们称之为”稀疏矩阵”。

; 背景

Pandas的DataFrame 已经算作机器学习中处理数据的标配了，那么稀疏矩阵的真正需求是什么？答案是空间复杂度和时间复杂度。当涉及数百万行和/或数百列时，pandas DataFrames 变得最糟糕，这时因为 pandas DataFrams 存储数据的方式。例如下面的图,这是 CSV 文件的磁盘和内存大小比较。我们在这里使用的数据集是 Santander Customer Satisfaction 数据集。途中比较了 CSV 文件在读取为 DataFrame 之前和读取为 DataFrame 之后的磁盘/内存使用情况。

import os
import pandas as pd

#Read csv file
data = pd.read_csv("train.csv")
memory_usage = data.to_numpy().nbytes/1e6

#Read the original file size using os module
disk_usage = os.path.getsize('/content/train.csv')/1e6

#Lets plot results
plt.figure(figsize=(10,8))
plt.bar(x=["CSV","DataFrame"],height=[disk_size,memory_usage])
plt.title("Size comparison - CSV vs DataFrame")
plt.ylabel("Usage (MB)")
plt.show()

可以明显地看到数据大小的差异，可能是因为里面包含了很多0或者空值导致的，本文后面我们会有详细的分析和介绍

什么是稀疏矩阵？

有两种常见的矩阵类型，密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。

在上面的矩阵中，16 个中有 12 个是零。这就引出了一个简单的问题：

我们可以在常规的机器学习任务中只存储非零值来压缩矩阵的大小吗？
简单的答案是：是的，可以！

我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵（简称 CSR 矩阵）。对于这种压缩我们的要求是压缩后的矩阵可以应用矩阵运算并以有效的方式访问指标，所以CSR并不是唯一方法，还有有更多的选项来存储稀疏矩阵。例如：Dictionary of keys (DOK)、List of Lists (LIL)、Coordinate list (COO)、Compressed row storage (CRS)等。

但是稀疏矩阵的一个主要缺点是访问单个元素变得更加复杂。下面可以为选择不同的方法提供一些参考：

如果关心的是高效修改 – 使用 DOK、LIL 或 COO。这些通常用于构建矩阵。
如果关心的是有效的访问和矩阵操作 – 使用 CSR 或 CSC

上面说到了很多名词为简单起见我们深入研究一个CSR的示例。考虑下面的矩阵。

将上述矩阵转换为 CSR 矩阵的情况。在这里使用的是 scipy包的sparsemodule。

import numpy as np
from scipy import sparse#create the metrix with numpy
m = np.array([[1,0,0,0],
             [0,1,2,0],
             [0,0,0,0],
             [2,1,1,1]])
#convert numpy array into scipy csr_matrix
csr_m = sparse.csr_matrix(m)

虽然我们的原始矩阵将数据存储在二维数组中，但转换后的 CSR 矩阵将它们存储在 3 个一维数组中。

值数组 Value array：顾名思义，它将所有非零元素存储在原始矩阵中。数组的长度等于原始矩阵中非零条目的数量。在这个示例中，有 7 个非零元素。因此值数组的长度为 7。

列索引数组 Column index array：此数组存储值数组中元素的列索引。（这里使用从零开始的索引）

行索引数组 Row index array：该数组存储所有当前行和之前行中非零值的累积计数。row_index_array [j] 编码第 j 行上方非零的总数。最后一个元素表示原始数组中非零元素的数量。长度为 m + 1；其中 m 定义为原始矩阵中的行数。

这样上面的矩阵被存储为以下形式：

上面两个数组很好理解，但是第三个行索引数组 Row index array看起来就没有那么直观了：

Row index array的数值个数是#row + 1, 表示该行前面值在values的总数，或者说第一个值在values中的位置

咱们依次解释下：

第一个值0：前面的values总数是0，也就是values的index起始是0。
第二个值1：表示第3行起始，前一行的只有一个非0值，所以前面的values总数是1，也就是values的index起始是1。
第三个值3：表示第3行起始，前二行的非0值为3（1，1，2），所以前面的values总数是3，也就是values的index起始是3。
第四个值3：表示第4行起始，因为第3行没有非0值，所以非0值的总数还是3
第五个值4：没有第5行，所以可以认为这个值是整个矩阵中所有非0值的总数

绘制样本数据

同样我们也可以对稀疏的矩阵进行可视化

import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')

#read dataset
data = pd.read_csv("train.csv")

#plot samples
plt.figure(figsize=(8,8))
plt.spy(data.head(500).T)
plt.axis('off')
plt.grid(False)
plt.show()

这张图他能告诉我们什么？首先，这里是 plt.spy () 函数的介绍：绘制二维数组的稀疏模式。这可视化了数组的非零值。

在上图中，所有黑点代表非零值。所以可以理解为将这些数据转换为稀疏矩阵是值得得，因为能够节省很多得存储。

那么如何判断数据的稀疏程度呢？使用NumPy可以计算稀疏度。

sparsity = 1- np.count_nonzero(data)/ data.size
print(sparsity)

在我们使用的数据集运行代码后，会得到 0.906 作为稀疏度。这意味着，超过 90% 的数据点都用零填充。回到嘴上面的图，这就是上面我们看到为什么pandas占用内存多的原因。

我们为什么要关心稀疏矩阵？

好吧，使用稀疏矩阵有很多很好的理由。他们主要是，

与基本方法相比，可节省大量内存。
与传统方法相比，它通常会减少模型训练时间。

sklearn API 中的几乎所有算法现在都支持 csr_matrix 作为输入，这是一个非常好的消息

例如下面：这是来自 sklearn.ensemble.RandomForestClassifier 的示例

X {array-like, sparse matrix} 形状 (n_samples, n_features)
训练输入样本。在函数内部它的 dtype 将被转换为 dtype = np.float32。如果提供了稀疏矩阵，则将其转换为稀疏的 csc_matrix。

让我们继续使用数据集进行实验。

内存压缩比较

def get_mem_usage(train,test,labels=['Train','Test'],plot=True):

    """Helper function for plotting in-disk memory usage for pandas df"""

    #get the original memory usage
    train_original_size = train.to_numpy().nbytes/1e6
    test_original_size = test.to_numpy().nbytes/1e6

    #convert into csr_metrix
    train_csr = sparse.csr_matrix(train)
    test_csr = sparse.csr_matrix(test)

    #get memory usage
    train_csr_size = (train_csr.data.nbytes+train_csr.indptr.nbytes+train_csr.indices.nbytes)/1e6
    test_csr_size = (test_csr.data.nbytes+test_csr.indptr.nbytes+test_csr.indices.nbytes)/1e6

    original_sizes = [train_original_size, test_original_size]
    sparse_sizes = [train_csr_size, test_csr_size]

    if plot:
        width = 0.35
        x = np.arange(len(labels))

        fig, ax = plt.subplots(figsize=(10,8))

        rects1 = ax.bar(x - width/2, original_sizes, width, label='Original')
        rects2 = ax.bar(x + width/2, sparse_sizes, width, label='Sparse')

        ax.set_ylabel('Memory Usage(MB)')
        ax.set_title('Memory Usage Comparison'.title())
        ax.set_xticks(x)
        ax.set_xticklabels(labels)
        ax.legend()

        plt.grid(False)
        plt.show()

    else:
        return sparse_sizes+original_sizes

from sklearn.model_selection import train_test_split

#train test split
xtrain,xtest,ytrain,ytest = ( train_test_split(X,y,test_size=0.3,random_state=1997))

#plot compressed memory vs original memory
get_mem_usage(xtrain,xtest)

我们的数据集大致压缩为 0.9 倍，上面计算出的数据集的稀疏度也是 0.96，基本类似

通过这个简单的技巧，我们减少了数据集的内存使用量。让我们继续进行模型训练时间比较。

模型训练时间对比

在这里将使用 sklearn API 测试流行的机器学习算法。

LogisticRegression

GradientBoostingClassifier

LinearSVC

上图中可以看到，LogisticRegression和GradientBoostingClassifier可以明显地提高效率但是，LinearSVC效率不明显，这可能是因为LinearSVC需要投影到更高的维度有关（这个不确定，但是它的算法和LR和GBC不太一样），但是总之，使用稀疏矩阵不仅可以降低内存占用还可以提高训练的效率。

https://www.overfit.cn/post/b47f933731bc43c28733c93dd991af72

作者：Ransaka Ravihara

Original: https://blog.csdn.net/m0_46510245/article/details/123629566
Author: deephub
Title: 稀疏矩阵的概念介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622799/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python图片合成的示例

这篇文章主要介绍了python图片合成的示例，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下python的PIL库简直好用的不得了，PIL下面的Image库更是封装了…

人工智能 2023年7月20日
0045
【知识图谱】知识表示

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0058
[debug]PyTorch报错：ConnectionResetError:[Errno104]Connectionresetbypeer

问题描述：使用PyTorch 1.10.0，训练报错： ConnectionResetError: [Errno 104] Connection reset by peer 问题…

人工智能 2023年7月24日
0050
深度学习算法工程师面试知识点总结（四）

这是算法工程师面试知识点总结的第四篇，有兴趣的朋友可以看看前三篇的内容：深度学习算法工程师面试知识点总结（一）深度学习算法工程师面试知识点总结（二）深度学习算法工程师面试知识点总结…

人工智能 2023年5月26日
00107
使用KMeans对iris数据集聚类

一、聚类分析的基本知识聚类分析也称聚类，它与分类是不同的，分类的目标变量是已知的，每个样本都存在类标签，而聚类的目标变量是事先不知道的，聚类的样本类别没有被预先定义出来。聚类是根…

人工智能 2023年5月31日
0064
懒人python操作，代码中永远只需要导入一个库

Pyforest是一个开源的Python库，可以自动导入代码中使用到的Python库。【阅读全文】实话说，作为一个程序员还是得不停的学习呀。昨天晚上睡觉之前就在论坛上面溜达了一…

人工智能 2023年7月16日
0050
主成分分析（PCA）及其可视化——python

可以看看这个哦python入门：Anaconda和Jupyter notebook的安装与使用_菜菜笨小孩的博客-CSDN博客如果你学会了python 可以看看matlab的哦 …

人工智能 2023年7月3日
0075
机器学习之基础知识（全）

目录 1.机器学习概述 1.1 人工智能概述 1.1.1 人工智能使用场景 1.1.2 人工智能小案例 1.2 人工智能发展历程 1.2.1 图灵测试 1.2.2 发展历程 1.2…

人工智能 2023年6月15日
0082
独热(One-Hot)编码简述

目录 1.前言 2.什么是 one-hot 编码？ 3.Python 代码 1.前言今天看Colab上的代码的时候突然看到了这个概念，抱着好奇的心态学习了一下，挺基础也很重要的一…

人工智能 2023年7月4日
00110
为什么禁止MyBatis批量插入几千条数据使用foreach？

近日，项目中有一个耗时较长的Job存在CPU占用过高的问题，经排查发现，主要时间消耗在往MyBatis中批量插入数据。mapper configuration是用foreach循环…

人工智能 2023年6月30日
0045
Python opencv的轮廓检测基于车牌的字符分割

题目：将车牌的每个汉字和字母框出本文涉及到的函数在我的上一篇文章Python opencv 加载、显示、保存、图像转换、轮廓检测均有提及。目录 1、图像预处理，导入，灰度转换…

人工智能 2023年7月20日
0079
学习Transformer：自注意力与多头自注意力的原理及实现

前言自从Transformer[3]模型在NLP领域问世后，基于Transformer的深度学习模型性能逐渐在NLP和CV领域(Vision Transformer)取得了令人惊…

人工智能 2023年6月23日
0083
背景宽高随文本变化_今日论文|零资源口语建模&多尺度合并蒸馏语义分割持续学习&迷彩动物识别&数据到文本语义准确新指标&自动深度GNN设计&MORE…

11月24日人工智能领域新增论文 456篇，AI日读精选其中 88篇推荐给大家。这些论文主要来自AAAI，AAMAS，ACCV，CIKM，Artificial Intelligen…

人工智能 2023年6月1日
00104
conda 安装yaml环境中的各种坑

1、配置镜像源首先在”C:\Users\ma_pe.condarc”中将以下内容粘贴： channels: – http://mirrors.tuna.t…

人工智能 2023年6月17日
00103
opencv形态学处理

文章目录形态学处理 * 1. 灰度化与二值化 2. 形态学操作 3. 利用形态学取样 4. 代码部分形态学处理 ; 1. 灰度化与二值化这个在opencv中实现起来十分简单 …

人工智能 2023年6月20日
0071
pytorch（11）– crnn 车牌端到端识别

车牌图片端到端识别一、前言二、数据集处理三、crnn模型文件四、训练验证代码五、测试代码六、代码搬自一、前言本文主要记录了使用crnn 对车牌图片做端到端识别，即不…

人工智能 2023年7月22日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31