相似文本聚类与调参

2023年6月15日下午10:46 • 人工智能 • 阅读 110

📢作者： 小小明-代码实体
📢博客主页：https://blog.csdn.net/as604049322
📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论！

之前我在《批量模糊匹配的三种方法》一文中讲述了如何匹配最相似文本的方法，其中使用Gensim进行批量模糊匹配，是使用了稀疏的词向量计算相似度，速度相对前面的方法极快。

去年我有使用sklearn做过文本聚类，今天我就给大家演示一下如何在一大堆文本中自动寻找出相似的文本进行聚类，主要思路有：

将每个文本进行分词
根据词频或TF-IDF生成词向量
使用DBSCAN聚类算法对词向量矩阵计算余弦相似度并连接聚类

之前使用Gensim计算出的词频向量无法直接作为sklearn库的输入，需要进行如下转换为专门的稀疏矩阵对象：

from scipy import sparse

data, rows, cols = [], [], []
for i, row in enumerate(data_corpus):
    for e, c in row:
        rows.append(i)
        cols.append(e)
        data.append(c)
data = sc.csr_matrix((data, (rows, cols)))

为了方便，今天词向量和聚类算法都使用sklearn库，不再使用Gensim库。

首先我们读取测试数据：

import pandas as pd
import numpy as np
import jieba

df = pd.read_csv("所有客户.csv", encoding="gbk")

中文分词

分词的好坏会直接影响后续词向量的表现，我们可以根据数据集的情况自定义词汇，例如我根据前20条数据的情况增加相应的药店品牌：

words = ["元岗", "铭心堂", "金健民", "祺和", "钜富", "杏园春", "天平民康"]
for word in words:
    jieba.add_word(word)

如果我们需要分词的数据集存在停用词，可以使用如下代码将所有非中文字符（不含几个生僻字）删除：

df.user = df.user.str.replace("[^一-龟]+", "", regex=True)

然后执行分词并查看结果：

data_split_word = df.user.apply(jieba.lcut).apply(" ".join)
data_split_word.head(20)

0             [&#x73E0;&#x6D77;, &#x5E7F;&#x836F;, &#x5EB7;&#x9E23;, &#x533B;&#x836F;, &#x6709;&#x9650;&#x516C;&#x53F8;]
1                   [&#x6DF1;&#x5733;&#x5E02;, &#x5B9D;&#x5B89;&#x533A;, &#x4E2D;&#x5FC3;&#x533B;&#x9662;]
2              [&#x4E2D;&#x5C71;, &#x706B;&#x70AC;, &#x5F00;&#x53D1;&#x533A;, &#x4F34;&#x5EB7;, &#x836F;&#x5E97;]
3                [&#x4E2D;&#x5C71;&#x5E02;, &#x540C;&#x65B9;, &#x533B;&#x836F;, &#x6709;&#x9650;&#x516C;&#x53F8;]
4         [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x91D1;&#x5065;&#x6C11;, &#x533B;&#x836F;, &#x5E97;]
5            [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x5C45;&#x5065;&#x5802;, &#x836F;&#x623F;]
6             [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x6DA6;&#x4F70;, &#x836F;&#x5E97;]
7             [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x534F;&#x5FC3;, &#x836F;&#x623F;]
8             [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x5FC3;&#x6021;, &#x836F;&#x5E97;]
9            [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5143;&#x5C97;, &#x6C38;&#x4EA8;&#x5802;, &#x836F;&#x5E97;]
10        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5458;&#x6751;, &#x5FB7;&#x6656;, &#x4E2D;, &#x897F;&#x836F;&#x5E97;]
11    [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5458;&#x6751;, &#x4E1C;&#x5174;, &#x5802;&#x660C;, &#x4E50;&#x56ED;, &#x836F;&#x5E97;]
12        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5458;&#x6751;, &#x5408;&#x5BB6;&#x6B22;, &#x5927;, &#x836F;&#x623F;]
13        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5458;&#x6751;, &#x6177;&#x4E50;, &#x533B;&#x836F;, &#x5546;&#x5E97;]
14        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x5458;&#x6751;, &#x4E3A;&#x6C11;, &#x6C38;&#x5EB7;, &#x836F;&#x5E97;]
15        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x73E0;&#x6C5F;, &#x65B0;&#x57CE;, &#x949C;&#x5BCC;, &#x836F;&#x5E97;]
16        [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x73E0;&#x6C5F;, &#x65B0;&#x57CE;, &#x797A;&#x548C;, &#x836F;&#x5E97;]
17       [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;&#x533A;, &#x73E0;&#x6C5F;, &#x65B0;&#x57CE;, &#x674F;&#x56ED;&#x6625;, &#x836F;&#x5E97;]
18            [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;, &#x6C99;&#x6CB3;, &#x4E91;&#x829D;, &#x4E2D;&#x836F;&#x5E97;]
19               [&#x5E7F;&#x5DDE;&#x5E02;, &#x5929;&#x6CB3;, &#x5929;&#x5E73;&#x6C11;&#x5EB7;, &#x836F;&#x5E97;]
Name: user, dtype: object

当前前20条数据勉强算是分词达标。

当然明显药房和药店这些词的含义相同，如果我需要进一步减少影响，完全可以批量将其替换为一致的词汇。

创建词频向量

然后我们需要使用sklearn建立词频向量：

from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
title_vec = count.fit_transform(data_split_word)

注意：如果我们需要使用TF-IDF模型当某个词在多个文本中出现时降低其权重，直接将 CountVectorizer修改为 TfidfVectorizer即可。

title_vec是个稀疏矩阵： <43487x24882 sparse matrix of type '<class 'numpy.int64'>' with 224221 stored elements in Compressed Sparse Row format>

可以看看稀疏矩阵的结果：

print(title_vec[:2])

  (0, 17283)    1
  (0, 10626)    1
  (0, 11177)    1
  (0, 5944) 1
  (0, 13505)    1
  (1, 16416)    1
  (1, 9475) 1
  (1, 2833) 1

SciPy 稀疏矩阵：https://www.runoob.com/scipy/scipy-sparse-matrix.html

DBSCAN原理简介

DBSCAN的核心参数是eps和min_samples，eps表示上图圆的半径，如果两个词向量的距离小于eps就会被连接在一起，而一个点能否成为中心点取决于圆内的点是否超过min_samples。

如何计算两个词向量之间的距离呢？sklearn内置了各种公式。

各类距离公式可查阅：https://xiao-xiaoming.github.io/DataMiningGuide/#/chapter-2

下面编写一个方法用于测试各种公式计算距离：

from sklearn.metrics import pairwise_distances

def calc_distance(i, j, metric="l1"):
    x, y = title_vec[i].toarray(), title_vec[j].toarray()
    print(i, j, data_split_word[i], "|", data_split_word[j],
          pairwise_distances(x, y, metric=metric)[0][0])

先测试曼哈顿距离：

for i, j in combinations(range(3, 11), 2):
    calc_distance(i, j)

3 4 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; 7.0
3 5 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; 9.0
3 6 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; 9.0
3 7 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; 9.0
3 8 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; 9.0
3 9 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 9.0
3 10 &#x4E2D;&#x5C71;&#x5E02; &#x540C;&#x65B9; &#x533B;&#x836F; &#x6709;&#x9650;&#x516C;&#x53F8; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 9.0
4 5 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; 4.0
4 6 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; 4.0
4 7 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; 4.0
4 8 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; 4.0
4 9 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 4.0
4 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x91D1;&#x5065;&#x6C11; &#x533B;&#x836F; &#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0
5 6 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; 4.0
5 7 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; 2.0
5 8 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; 4.0
5 9 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 4.0
5 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5C45;&#x5065;&#x5802; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0
6 7 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; 4.0
6 8 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; 2.0
6 9 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 2.0
6 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6DA6;&#x4F70; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0
7 8 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; 4.0
7 9 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 4.0
7 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x534F;&#x5FC3; &#x836F;&#x623F; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0
8 9 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; 2.0
8 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x5FC3;&#x6021; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0
9 10 &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5143;&#x5C97; &#x6C38;&#x4EA8;&#x5802; &#x836F;&#x5E97; | &#x5E7F;&#x5DDE;&#x5E02; &#x5929;&#x6CB3;&#x533A; &#x5458;&#x6751; &#x5FB7;&#x6656; &#x4E2D; &#x897F;&#x836F;&#x5E97; 6.0

从目前的数据来看，可以认为曼哈顿距离在4以内的认为相似。

for i, j in combinations(range(3, 11), 2):
    calc_distance(i, j, "l2")

而欧几里得距离下，可以认为距离在2以内的相似：

而余弦相似度距离下或许应该设置距离0.4以内认为相似：

DBSCAN聚类

今天我们就使用余弦相似度进行聚类：

from sklearn.cluster import DBSCAN

model = DBSCAN(eps=0.4, min_samples=5, metric="cosine")
model.fit(title_vec)
df['label'] = model.labels_

结果中标签 -1未找到相似文本的节点，标签0往往表示大量的数据都被聚类到了这里面：

print("未被聚类：", df.query("label==-1").shape[0])
print("都被聚在一起：", df.query("label==0").shape[0])
print("正常的聚类：", df.query("label not in (-1,0)").shape[0])
print("产生类别数：", df.label.nunique()-2)

&#x672A;&#x88AB;&#x805A;&#x7C7B;&#xFF1A; 5727
&#x90FD;&#x88AB;&#x805A;&#x5728;&#x4E00;&#x8D77;&#xFF1A; 35840
&#x6B63;&#x5E38;&#x7684;&#x805A;&#x7C7B;&#xFF1A; 1920
&#x4EA7;&#x751F;&#x7C7B;&#x522B;&#x6570;&#xFF1A; 203

我们可以不断调整eps和metric得到更准确的结果。下面我们预览一下成功聚类的部分的聚类结果：

for label, df_split in df.query("label not in (-1,0)").groupby("label"):
    print(label, df_split.user.to_list())
    if label > 50:
        break

个人觉得结果还算达标~

当然，这种文本聚类问题不可能100%结果完全准确，这需要大家根据数据集的情况，细化到每个步骤去调整，最好能够自定义距离计算公式（metric参数支持传入自动化函数）~

相关参考：

使用sklearn处理经纬度的三种距离计算与地图可视化
https://xxmdmst.blog.csdn.net/article/details/117307759

Original: https://blog.csdn.net/as604049322/article/details/126150893
Author: 小小明-代码实体
Title: 相似文本聚类与调参

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618020/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PaddleDetection目标检测任务简介和概述

本篇博客不计入作业目标检测任务简介目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别，并在该目标周围绘制边界框，标示出每个目标的位置，如下图所示。图（a）是…

人工智能 2023年7月9日
0051
爆改YOLOV7的detect.py制作成API接口供其他python程序调用（超低延时）

一、前言 YOLO系列框架凭借其超高的运行流畅度和不俗的准确率，一直被广泛地应用到各个领域。刚刚推出不久的YOLOV7在5 FPS到160 FPS范围内的速度和精度达到了新的高度…

人工智能 2023年6月16日
0091
YOLOv5、YOLOX、YOLOv6的分析与比较

美团的技术团队在最近提出了YOLOv6网络模型，美团在技术文档中重点对比了前两代的YOLOv5和YOLOX，以及百度的PP-YOLOE，在对coco数据集的验证中，YOLOv6不仅…

人工智能 2023年7月25日
00105
女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G…

emmm~ 起因呢，这昨晚女同桌跟我说电脑有点卡，喊我去宿舍给她装个新系统，装系统就装系统吧，结果又说新系统表情包都没保存~ 我当时就有点生气，真当我是万能的呢？于是我直接就用P…

人工智能 2023年5月30日
0091
PC语音识别GUI设计（接上篇）

复制就行不多逼逼 import tkinter as tk from tkinter import * from tkinter import messagebox import…

人工智能 2023年5月25日
0083
Python 增强视频画质，就这么做！

文 | 闲欢来源：Python 技术「ID: pythonall」前面通过文章给大家介绍了如何读取、播放和保存视频，后面又通过文章给大家介绍了如何对图像的亮度、对比度、色度…

人工智能 2023年5月28日
0074
机器学习笔记：LSTM 变体（conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU）

1 LSTM复习机器学习笔记 RNN初探 & LSTM_UQI-LIUWJ的博客-CSDN博客机器学习笔记：GRU_UQI-LIUWJ的博客-CSDN博客_gru 机器…

人工智能 2023年6月15日
00107
3D点云转Mesh网格【Python】

本文将介绍使用 python 从点云快速创建网格的3D 表面重建过程，你可以导出、可视化并将结果集成到最喜欢的 3D 软件中，而无需任何编码经验。此外，我们还将介绍一种生成多个细…

人工智能 2023年7月4日
00168
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景经济广告是指以营利为目的的广告，通常是商…

人工智能 2023年6月24日
0090
关于numpy,torch中seed()方法的一些理解

首先举几个使用seed()函数的例子: 生成随机数&#xFF0…

人工智能 2023年7月22日
0045
百度ai开放平台使用方法（附带例子详细步骤）

百度ai开放平台 1.百度ai开放平台内有众多功能，如文字识别，语音技术等等内容，本文章以身份证识别为例子，教大家怎么使用它啦链接走起：https://cloud.baidu.co…

人工智能 2023年5月27日
0099
【入门教程】使用预训练模型进行训练、预测（以VGG16为例）

本文环境：win10、torch>=1.6 VGG16是一个简单的深度学习模型，可以实现图像的分类。PyTorch的库中有VGG16的模型构架，在torchvision.mo…

人工智能 2023年7月28日
0065
CUDA11.3以及PyTorch-GPU版本安装

目录 1 前言 2 CUDA&cuDNN * 2.1 查看硬件 2.2 安装 2.3 验证 3 PyTorch * 3.1 安装 3.2 验证 4 总结 1 前言本笔记仅…

人工智能 2023年7月26日
00192
Python 毕设精品实战案例——快速索引目录Part2

温馨提示：文末有 CSDN 平台官方提供的学长 QQ 名片 :) 基于性别网上学习特征分析及可视化系统本项目通过调查问卷获取大学生的网上在线学习的特征数据，利用python分析不…

人工智能 2023年7月15日
0062
数据分析之Numpy取消numpy科学计数法【详解np.set_printoptions()】

numpy中默认是使用科学计数法来显示数据的，但是这种做法往往不利于我们观测数据，比如坐标数据等。那么如何取消numpy科学计数法呢，请往下看。 np.set_printoptio…

人工智能 2023年7月15日
0057
直播预告 | 美团语音技术实践 @ INTERSPEECH 2020语音国际顶会（有奖参与）

INTERSPEECH 是由国际语音通信协会 ISCA（International Speech Communication Association）组织的语音研究领域的顶级会议之…

人工智能 2023年5月27日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

相似文本聚类与调参

大家都在看