机器学习实战（十四）——利用SVD简化数据

2023年8月29日上午3:02 • Python • 阅读 47

一、SVD的应用

SVD（奇异值分解），可以 实现用小得多的数据集来表示原始数据集，达到去除噪声和冗余信息，以及压缩数据的目的。

SVD的主要应用场景有：

隐性语义索引：利用奇异值分解可以将文档中的概念或者主题提取出来
推荐系统：SVD可以从数据中构建一个主题空间，再在该主题空间下计算项的相似度达到推荐的目的

二、矩阵分解

在大多数情况下，原始数据集中很可能一小段就携带了大部分的信息，而其他的信息要么是噪声要么是毫不相关的信息，因此利用矩阵分解技术，可以将原始矩阵 表示成新的易于处理的形式。在 统计学习方法一书中对SVD方法的定义如下：

回顾上一章PCA中，得到的是矩阵的特征值，而此处得到的是矩阵的奇异值，实际上 奇异值就是矩阵 A T A A^TA A T A 的特征值的平方根。并且，由于不要求矩阵A A A是方阵，因此此处可能m ! = n m!=n m !=n。另外，可能在某一个奇异值σ r \sigma_r σr 之后的奇异值都是0，也就是说数据集中仅有r r r个重要特征。，而其余的特征都是噪声或者冗余特征。

; 三、利用Python实现SVD

在numpy库中，有现成的SVD函数，可以直接利用该函数来执行运行：

from numpy import *
if __name__ == "__main__":
    U,Sigma,VT = linalg.svd([[1,1],[7,7]])
    print("U = ",U)
    print("Sigma = ",Sigma)
    print("VT = ",VT)

返回值为：

U =  [[-0.14142136 -0.98994949]
 [-0.98994949  0.14142136]]
Sigma =  [1.00000000e+01 2.82797782e-16]
VT =  [[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]

可以看到S i g m a Sigma S i g ma原本应该是一个对角矩阵，但是其返回值为一个向量，这是因为对角矩阵除了其对角线元素外都为0，因此这样存储有利于节省空间。

下面对一个较大的数据集实行SVD：

def loadExData():
    return [[1,1,1,0,0],
            [2,2,2,0,0],
            [1,1,1,0,0],
            [5,5,5,0,0],
            [1,1,0,2,2],
            [0,0,0,3,3],
            [0,0,0,1,1]]
if __name__ == "__main__":
    Data = loadExData()
    U, Sigma, VT = linalg.svd(Data)
    print("Sigma = ",Sigma)

输出为：

Sigma =  [9.72140007e+00 5.29397912e+00 6.84226362e-01 1.89194737e-15
 1.35001244e-31]

可以看到前三个奇异值较大，后面两个奇异值接近于0，这说明可以将后面两个奇异值忽略，来恢复原来的矩阵：

即取明显不为0的奇异值来进行恢复，这称为 紧奇异值分解，还有另外一种为 截断奇异值分解，具体为：

紧奇异值分解：设r ( D a t a ) = r ≤ m i n ( m , n ) r(Data)=r\leq min(m,n)r (D a t a )=r ≤min (m ,n )，那么取U r = U 1 ( m × r ) U_r=U_1(m\times r)U r =U 1 (m ×r )，Σ r = Σ 1 ( r × r ) \Sigma_r=\Sigma_1(r\times r)Σr =Σ1 (r ×r )，V r = V 1 ( n × r ) V_r=V_1(n\times r)V r =V 1 (n ×r )来进行恢复矩阵
截断奇异值分解：设r ( D a t a ) = r ≤ m i n ( m , n ) r(Data)=r\leq min(m,n)r (D a t a )=r ≤min (m ,n )，取k ( k < r ) k(k个最大的奇异值，那么U k = U 1 ( m × k ) U_k=U_1(m\times k)U k =U 1 (m ×k )，Σ k = Σ 1 ( k × k ) \Sigma_k=\Sigma_1(k\times k)Σk =Σ1 (k ×k )，V k = V 1 ( n × k ) V_k=V_1(n\times k)V k =V 1 (n ×k )来进行恢复矩阵,k k k为指定的压缩大小。

那就有疑问， 重构出来的矩阵大小与原来的相同，为什么仍然称为压缩呢？

其实，SVD降维 不是体现在矩阵的大小上，而是减少了矩阵的秩。

这里引用知乎某位大佬的回答：

; 四、基于协同过滤的推荐引擎

协同过滤是 通过将用户和其他用户的数据进行对比来实现推荐的。

4.1、相似度计算

在比较物品之间的相似程度时，如果我们采用的是”专家’给出的描述物品的重要属性，例如对于食品来说有热量、配料等等，但这些属性当我们更换物品的时候就需要重新设置了，因此较为繁琐。

协同过滤中所使用的方法是： 利用用户对于物品的意见来计算相似度，它不关心物品的描述属性，而是严格按照许多用户的观点来计算相似度。

计算相似度有以下几种常见方式：

用欧氏距离表征的相似度：取相似度为相似度 = 1 / （ 1 + 距离）相似度=1/（1+距离）相似度=1/（1 +距离），就可将距离转换到在0和1之间变化的相似度，且相似度越大代表距离越小，物品之间越接近。
用皮尔逊相关系数表征的相似度：皮尔逊相关系数的优势在于它对于用户评级的量级并不敏感，例如某个人对于每种物品评分都是5分，而另外一个人都是1分，在皮尔逊中它认为这两个向量是相等的。取相似度为相似度 = 0.5 + 0.5 × c o r r c o e f ( ) 相似度=0.5+0.5\times corrcoef()相似度=0.5 +0.5 ×corrcoe f ()，将在-1和1之间变量的皮尔逊相关系数转换到0和1之间变换的相似度
余弦相似度：其计算的是两个向量夹角的余弦值，如果夹角为90度，那么相似度为0，如果两个向量方向相同那么相似度为1（因此也会忽略量级的影响）。余弦相似度的定义为：c o s Θ = A × B ∥ A ∥ ∥ B ∥ cos\Theta = \frac{A\times B}{\| A\| \| B \| }cos Θ=∥A ∥∥B ∥A ×B 。之后同样要取相似度为相似度 = 0.5 + 0.5 × c o s Θ 相似度=0.5+0.5\times cos\Theta 相似度=0.5 +0.5 ×cos Θ。

具体代码如下：

def ecludSim(inA,inB):
    return 1.0 / (1.0 + la.norm(inA - inB))

def pearsSim(inA,inB):
    if len(inA) < 3:return 1.0
    return 0.5 + 0.5 * corrcoef(inA,inB,rowvar=False)[0][1]

def cosSim(inA,inB):
    num = float(inA.T * inB)
    denom = la.norm(inA) * la.norm(inB)
    return 0.5 + 0.5 * (num / denom)

4.2、基于物品的相似度还是基于用户的相似度

在计算时如果取向量为列向量，那么就是计算物品之间的相似度；如果取为行向量那么就是计算用户之间的相似度。如何选择这两种方式就取决于数据中用户的数据多还是物品的数据多。如果用户的数目很多，那么会倾向于使用基于物品相似度的计算方法。

4.3、推荐引擎的评价

具体做法是将数据集划分为训练集和测试集，在测试集上预测已知的分数，查看偏差程度。

五、示例：餐馆菜肴推荐引擎

5.1、推荐未尝过的菜肴

具体的流程大致为：

寻找用户没有评级的菜肴，即用户-物品矩阵中的0值
在用户没有评级的所有物品中，对每个物品预计一个可能的评级分数，也就是打分
对这些物品的评分从高到低进行排序，返回前N个物品

具体代码为：

def standEst(dataMat,user,simMeas,item):
    n = shape(dataMat)[1]
    simTotal = 0.0
    ratSimTotal = 0.0
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0:
            continue
        overLap = nonzero(logical_and(dataMat[:,item].A>0,dataMat[:,j].A>0))[0]
        if len(overLap) == 0:
            similarity = 0
        else:
            similarity = simMeas(dataMat[overLap,item],dataMat[overLap,j])
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0:
        return 0
    else:
        return ratSimTotal / simTotal

def recommend(dataMat,user,N = 3,simMeas = cosSim,estMethod = standEst):
    unratedItems = nonzero(dataMat[user,:].A == 0)[1]
    print(nonzero(dataMat[user,:].A == 0))
    if len(unratedItems) == 0:
        return "you have rated everything"
    itemScores = []
    for item in unratedItems:
        estimatedScore = estMethod(dataMat,user,simMeas,item)
        itemScores.append((item,estimatedScore))
    return sorted(itemScores,key=lambda jj:jj[1],reverse=True)[:N]

解释一下这行代码：

overLap = nonzero(logical_and(dataMat[:,item].A>0,dataMat[:,j].A>0))[0]

首先是l o g i c a i _ a n d logicai_and l o g i c ai _an d，就是对两个向量按对应位置的元素进行逻辑与操作，例子如下：

A = np.mat([[1,0,1,0,1,1]])
B = np.mat([[0,0,1,1,0,1]])
np.logical_and(A,B)
Out[9]: matrix([[False, False,  True, False, False,  True]])

那么该行代码就是先找出i t e m item i t e m列（该用户未评分的物品那列）和当前循环的第j列，取出其中那些大于0的部分再按位与，再通过nonzero函数取出不为0，即两个物品都评分过的那些用户的索引。

再解释一下这行代码：

ratSimTotal += similarity * userRating

这里是因为 该物品评分越高，且与未知物品越接近，那么用户对这个未知物品的评分也可能越高。另外分数是多个已评价的物品累计的，也就是：

如果有一个物品用户评价过分数很高(u s e r R a t i n g userRating u ser R a t in g很大)，且与待评价的物品很接近(s i m i l a r i t y similarity s imi l a r i t y很大)，那么会对未评价物品的评分有较大的增加效果
如果有一个物品用户评价过分数很低(u s e r R a t i n g userRating u ser R a t in g很小)，且与待评价的物品不接近(s i m i l a r i t y similarity s imi l a r i t y很小)，那么会就没什么贡献，没法使得预测分数增大。

再解释下这行代码为什么最后是[1]：

unratedItems = nonzero(dataMat[user,:].A == 0)[1]

dataMat[user,:].A返回的是一个array类型的数据，可以看成一维的矩阵，那么对于矩阵，nonzero函数就会有两个参数：第一个参数为 非零元素所在的行的索引，第二个为 非零元素所在的列的索引，因为这里是一维矩阵，那么这里第一个元素就里面都是0。取出第二个元素也就是索引1才是我们想要的那些未评分的那些列的索引。

5.2、利用SVD提升推荐的效果

利用SVD可以先将数据进行降维，再在低维度上计算物品之间的相似度就更加方便：

def svdEst(dataMat,user,simMeas,item):
    n = shape(dataMat)[1]
    simTotal = 0.0
    ratSimTotal = 0.0
    U,Sigma,VT = la.svd(dataMat)
    Sig4 = mat(eye(4) * Sigma[:4])
    xformedItems = dataMat.T * U[:,:4] * Sig4.I
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0 or j == item:
            continue
        similarity = simMeas(xformedItems[item,:].T,xformedItems[j,:].T)
        print("the %d and %d similarity is: %f" %(item,j,similarity))
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0:
        return 0
    else:
        return ratSimTotal / simTotal

此部分代码与之前很相似，只不过用来计算的矩阵是重构之后维度更低的矩阵。

六、基于SVD的图像压缩

具体代码为：

def printMat(inMat,thresh = 0.8):
    for i in range(32):
        for j in range(32):
            if float(inMat[i,j]) > thresh:
                print("1 ",end = ' ')
            else:
                print("0 ",end = ' ')
        print(" ")

def imgCompress(numSV = 3,thresh = 0.8):
    myl = []
    fr = open("0_5.txt")
    for line in fr.readlines():
        newRow = []
        for i in range(32):
            newRow.append(int(line[i]))
        myl.append(newRow)
    myMat = mat(myl)
    print("*"*10,"original matrix","*"*10)
    printMat(myMat,thresh)
    U,Sigma,VT = la.svd(myMat)
    SigRecon = mat(zeros((numSV,numSV)))
    for k in range(numSV):
        SigRecon[k,k] = Sigma[k]
    reconMat = U[:,:numSV] * SigRecon * VT[:numSV,:]
    print("*"*10,"reconstructed matrix using %d singular values" % numSV,"*"*10)
    printMat(reconMat,thresh)

输出结果为：

********** original matrix **********
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
********** reconstructed matrix using 2 singular values **********
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

处理后还是很明显的看出手写的0的

并且经过SVD处理之后，我们的U U U和V T V^T V T都是32 × 2 32\times 2 32 ×2的矩阵，另外还需要两个奇异值，则总共需要存储数字的数目为130。和原来图像需要存储1024个数字相比压缩效果显著。

Original: https://blog.csdn.net/StarandTiAmo/article/details/126429011
Author: FavoriteStar
Title: 机器学习实战（十四）——利用SVD简化数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/762548/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用scrapy +selenium爬取动态渲染的页面

背景在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但…

Python 2023年10月1日
0043
python中类与对象的命名空间（静态属性的陷阱）、__dict__ 和 dir() 在继承中使用说明

1. 面向对象的概念 1）类是一类抽象的事物，对象是一个具体的事物；用类创建对象的过程，称为实例化。 2）类就是一个模子，只知道在这个模子里有什么属性、什么方法，但是不知道这些属性…

Python 2023年10月20日
0039
python虚拟环境操作（创建、管理、查看、删除）

目录一、虚拟环境的好处二、操作（安装anaconda前提）一、虚拟环境的好处各个虚拟环境互相独立，互不干扰，可以解决高版本的兼容性问题比如，新建一个版本较低的环境去兼容旧…

Python 2023年8月2日
0073
深耕不辍创新不止 | 智变大交通，新华三与您一路同行

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月8日
0035
【python】Flask之session使用

一、session机制由于http协议是一个无状态的协议，但网站基本上有登录使用的功能，这要求有状态管理，而session机制实现的就是这个功能 session基于cookie实…

Python 2023年8月9日
0069
weditor 0.6.5版本安装报 ‘gbk’ codec can’t decode byte 0xad in position

pip安装或者更新 weditor到最新的0.6.5版本时会报错，如下：解决办法：设置环境变量，在命令窗口中执行：然后再次执行pip install weditor==0.6…

Python 2023年6月11日
00124
Python系列15-外星人入侵项目源码

一.外星人入侵项目概述主文件alien_invasion.py创建一系列整个游戏都要用到的对象：存储在ai_settings 中的设置、存储在screen 中的主显示surfac…

Python 2023年9月21日
0053
Django测试小工具平台开发（二）

一、编写django视图函数 Django 中的视图的概念是一类具有相同功能和模板的网页的集合。作用就是将数据写入到html模板文件中，然后返回给调用方。 #django项目根目…

Python 2023年8月6日
0055
Tensor的创建方法

1、直接创建Tensor——torch.tensor() 2、从numpy创建tensor——torch.from_numpy(ndarray) 3、根据数值创建tensor （1…

Python 2023年8月30日
0046
python df head_在方法（）中调用时，Pandas Df.head（）不显示？

在方法内部进行调用时，无法访问pandas dataframe.head()或dataframe.describe()。 def develop_df()： studentData…

Python 2023年8月8日
0069
matplotlib色彩（colors）之色彩基础知识（色彩模型，matplotlib色彩格式，matplotlib默认色彩映射）

色彩模型（RGB，RGBA，CMYK灰度） matplotlib中的色彩定义主要用到了 RGB、 RGBA、 CMYK、 灰色四种模型。…

Python 2023年9月5日
0063
yolov5 anchors 中 K-means聚类

anchors 运行trains.py没有生成anchor原因程序 kmeans改动（距离、k-means++）运行trains.py没有生成anchor原因 yolov5运行…

Python 2023年8月2日
0073
显示库之matplotlib(常用图绘制)

1.常用图的绘制1. 折线图在之前的博客中详细解释过。地址： https://blog.csdn.net/cai_niao_lu/article/details/121886458…

Python 2023年9月5日
0050
【繁中】Python Pandas 資料分析

HackMD版本 Python Pandas 資料分析文章目录 Python Pandas 資料分析 * @[toc] 基礎教學 – Series + 單維度資料建…

Python 2023年8月18日
0065
pytest（二十三）–conftest.py作用范围

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月12日
0050
重温Python基础——数

哈喽，兄弟们，本文带大家来复习一下Python基础中的数。在编程中，经常会使用到数。在一些计算题中,或者其他的可视化数据等。Python能够根据不同用法处理它们 1、整数在Py…

Python 2023年10月30日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习实战（十四）——利用SVD简化数据

一、SVD的应用

二、矩阵分解

; 三、利用Python实现SVD

; 四、基于协同过滤的推荐引擎

4.1、相似度计算

4.2、基于物品的相似度还是基于用户的相似度

4.3、推荐引擎的评价

五、示例：餐馆菜肴推荐引擎

5.1、推荐未尝过的菜肴

5.2、利用SVD提升推荐的效果

六、基于SVD的图像压缩

大家都在看