《基于Tensorflow的知识图谱实战》| 有趣的词嵌入–word embedding（一）| 文本数据处理

2023年6月10日上午4:50 • 人工智能 • 阅读 70

⚽开发平台：jupyter lab

🎈运行环境：python3、TensorFlow2.x

第7章有趣的词嵌入–word embedding（一）| 文本数据处理

1. 数据集介绍和数据清洗
*
1.1 数据集显示
1.2 清洗数据
2. 停用词的使用（后续完善）
3. 词向量训练模型word2vec使用介绍
*
3.1 word2vec模型的介绍
3.2 word2vec的优缺点
3.3 word2vec的模型训练结构
1.4 以gensim包对数据进行训练（程序7-5）
4. 文本主体的提取
*
4.1 文本主体的提取：基于TF-IDF
–
- 4.1.1 TF-IDF的原理
- 4.1.2 TF-IDF的实现（程序7-7）
4.2 文本主体的提取：基于TextRank
–
- 4.2.1 TextRank算法的介绍
- 4.2.2 TextRank算法的实现（程序7-8）

word embedding(词嵌入)，常用来进行情感分析、同义词聚类、文章分类和打标签。
（1）该部分内容介绍：通过多种计算word embedding的方法循序渐进的了解如何获取对应的word embedding，之后通过实战使用word embedding进行文本分类。
（2）该章节将分为两个部分，

组建能够代表文本内容的矩阵向量的主要步骤：文本分词 –> 词向量训练 –> 特征词抽取。

数据集介绍和数据清洗

· 新闻分类数据集”AG”，是从2000多个不同的新闻来源搜索的超过一百万的新闻文章。用于研究分类、聚类、信息获取（排序、搜索）等非商业活动。
· AG News下载地址： https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

1.1 数据集显示


rankings_colname=['label','title','text']
agnews_train = pd.read_csv('./ag_news_csv/train.csv',encoding='utf-8',engine='python',header=None,names=rankings_colname)
agnews_train

《基于Tensorflow的知识图谱实战》| 有趣的词嵌入--word embedding（一）| 文本数据处理

1.2 清洗数据


import re
def text_clear(text):
    text = text.lower()
    text = re.sub(r'[^a-z0-9]',' ',text)
    text = re.sub(r' +',' ',text)
    text = text.strip()
    text = text.split(' ')
    return text

import csv
import numpy as np
agnews_label = []
agnews_title = []
agnews_text = []

agnews_train = csv.reader(open('./ag_news_csv/train.csv','r'))
for line in agnews_train:

     agnews_label.append(np.float32(line[0]))
     agnews_title.append(line[1])
     agnews_text.append(text_clear(line[2]))

merge = pd.DataFrame({
    'label':agnews_label,
    'title':agnews_title,
    'text':agnews_text
})
merge

停用词的使用（后续完善）

import re
import nltk
def text_clear(text):
    syoplist = stopwords.words('english')
    text = text.lower()
    text = re.sub(r'[^a-z0-9]',' ',text)
    text = re.sub(r' +',' ',text)
    text = text.strip()
    text = text.split(' ')
    text = [word for word in text if word not in stoplist]
    text = [PorterStemmer().stem(word) for word in text]
    text.append('eos')
    text = ['bos'] + text
    return text

词向量训练模型word2vec使用介绍

3.1 word2vec模型的介绍

one-hot 存在的问题：one-hot用来表达词向量非常简单，但是存在着很多问题。最大的问题是词汇表一般非常大，表达的效率不高。使用在卷积神经网络中会使得网络难以收敛。
百度百科版本：Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

; 3.2 word2vec的优缺点

其优点：
（1）由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比，效果要更好（但不如 18 年之后的方法）
（2）比之前的 Embedding方法维度更少，所以速度更快。
其缺点：
（1）由于词和向量是一对一的关系，所以多义词的问题无法解决。
（2）Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

3.3 word2vec的模型训练结构

如上图， word2vec具体的训练方法主要由2个方法：CBOW（Continuous Bag-of-Word Model，连续词袋模型）和Skip-gram模型。

CBOW模型（左）：CBOW是一个三层网络神经，该模型的特点是输入已知上下文，输出对当前单词的预测。
Skip-gram模型（右）：与CBOW模型相反，由当前词预测上下文词。

; 1.4 以gensim包对数据进行训练（程序7-5）


import re
def text_clear(text):
    text = text.lower()
    text = re.sub(r'[^a-z0-9]',' ',text)
    text = re.sub(r' +',' ',text)
    text = text.strip()
    text = text.split(' ')
    return text

import csv
import numpy as np
agnews_label = []
agnews_title = []
agnews_text = []

agnews_train = csv.reader(open('./ag_news_csv/train.csv','r'))
for line in agnews_train:

    agnews_label.append(np.float32(line[0]))
    agnews_title.append(text_clear(line[1]))
    agnews_text.append(text_clear(line[2]))

from gensim.models import word2vec
model = word2vec.Word2Vec(agnews_text,vector_size = 64,min_count = 0,window = 5, epochs = 128)
model_name = './corpusWord2Vec.bin'
model.save(model_name)

print("开始训练模型...")
from gensim.models import word2vec
model = word2vec.Word2Vec.load('./corpusWord2Vec.bin')
model.train(agnews_title,epochs = model.epochs,total_examples = model.corpus_count)

文本主体的提取

（1）文本的提取关键字主要涉及两种算法：基于TF-IDF 和基于TextRank。
（2）目标文本经过文本清洗和停用词的去除后，一般可以认为剩下的均有着目标含义的词。如果需要对其特征进行进一步的提取，提取能够代表文章的元素，包括词、短语、句子、标点以及其他信息的词。从词的角度来看，需要提取对文章表达贡献度大的词。

4.1 文本主体的提取：基于TF-IDF

4.1.1 TF-IDF的原理

TF-IDF的介绍：
（1）是一种用于信息检索与信息勘测的常用加权技术。
（2）是一种统计方法，用来衡量一个词对一个文件及的重要程度。字词的重要性与其在文件中出现的次数成正比，而与其在文件集中出现的次数成反比。
（2）TextRank提取文本关键词的步骤：

把给定的文本T按照完整句子进行分割；
对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词。
构建候选关键词图G=（V,E），其中V为节点集，由每个词之间的相似度作为连接的边值。
根据下面的公式迭代传播公式，直至收敛：
对接点权重进行倒序排序，作为按重要程度排列的关键词。

; 4.2.2 TextRank算法的实现（程序7-8）


class TextRank_score:
    def __init__(self,agnews_text):
        self.agnews_text = agnews_text
        self.filter_list = self.__get_agnews_text()
        self.win = self.__get_win()
        self.agnews_text_dict = self.__get_TextRank_score_dict()

    def __get_agnews_text(self):
        sentence = []
        for text in self.agnews_text:
            for word in text:
                sentence.append(word)
        return sentence

    def __get_win(self):
        win = {}
        for i in range(len(self.filter_list)):
            if self.filter_list[i] not in win.keys():
                win[self.filter_list[i]] = set()
            if i-5 < 0:
                lindex = 0
            else:
                lindex = i-5
            for j in self.filter_list[lindex:i+5]:
                win[self.filter_list[i]].add(j)
        return win
    def __get_TextRank_score_dict(self):
        time = 0
        score = {w:1.0 for w in self.filter_list}
        while (time<50):
            for k,v in self.win.items():
                s = score[k]/len(v)
                score[k] = 0
                for i in v:
                    score[i] += s
            time += 1
        agnews_text_dict = {}
        for key in score:
            agnews_text_dict[key] = score[key]
        return agnews_text_dict
    def __get_TextRank_score(self,text):
        temp_dict = {}
        for word in text:
            if word in self.agnews_text_dict.keys():
                temp_dict[word] = (self.agnews_text_dict[word])
        values_list = sorted(temp_dict.items(),key = lambda word_tfidf:word_tfidf[1],reverse=False)
        return values_list
    def get_TextRank_result(self,text):
        temp_dict = {}
        for word in text:
            if word in self.agnews_text_dict.keys():
                temp_dict[word] = (self.agnews_text_dict[word])
        values_list = sorted(temp_dict.items(),key = lambda word_tfidf:word_tfidf[1],reverse=False)
        value_list = []
        for value in values_list:
            value_list.append(value[0])
        return (value_list)

import re
def text_clear(text):
    text = text.lower()
    text = re.sub(r'[^a-z0-9]',' ',text)
    text = re.sub(r' +',' ',text)
    text = text.strip()
    text = text.split(' ')
    return text

import csv
import numpy as np
agnews_label = []
agnews_title = []
agnews_text = []

agnews_train = csv.reader(open('./ag_news_csv/train.csv','r'))
for line in agnews_train:

    agnews_label.append(np.float32(line[0]))
    agnews_title.append(text_clear(line[1]))
    agnews_text.append(text_clear(line[2]))

import math
from gensim.models import word2vec
model = word2vec.Word2Vec.load('./corpusWord2Vec.bin')
model.train(agnews_title,epochs = model.epochs,total_examples = model.corpus_count)
textRank = TextRank_score(agnews_text)
for line in agnews_text:
    value_list = textRank.get_TextRank_result(line)
    print(value_list)
    print(model.wv[value_list])


['cynics', 'dwindling', 'sellers', 'ultra', 'seeing', 'band', 'green', 'short', 'wall', 'street', 'again', 'are', 'reuters', 's', 'of']
[[ 1.17348909e+00  1.02108687e-01 -2.14409783e-01  5.70180178e-01
   5.92369318e-01 -2.27488980e-01  8.21133733e-01 -1.15657197e-02
  -1.33338773e+00  8.64599049e-01  6.07247353e-02  1.21579468e-01
  -2.61938065e-01 -2.27355242e+00  9.15813267e-01 -1.07883906e+00
  -1.14634979e+00  1.12520278e+00 -4.91948947e-02 -1.16895348e-01
   7.24857509e-01  1.39616776e+00  1.17800856e+00 -1.72829461e+00
  -5.66338658e-01  2.23885298e-01  1.25472039e-01  6.62063241e-01
  -7.65496254e-01  1.92389220e-01  1.52555954e+00  5.19824445e-01
   2.86635458e-01 -9.66206968e-01 -1.14739060e+00 -9.22317505e-01
  -4.35026914e-01 -1.09736383e+00  6.40903533e-01  1.33023655e+00
  -5.85277438e-01 -1.80912471e+00  1.23930439e-01 -1.80330956e+00
   1.17725062e+00  1.23168588e+00  2.40483686e-01 -6.05988549e-03
   1.87227798e+00  1.09425902e+00  1.05933940e+00  8.33601654e-01
   4.79003996e-01  1.70514488e+00 -4.15998369e-01  1.31858647e+00
  -5.62793136e-01 -1.34071529e+00 -2.29905796e+00  2.67159432e-01
   1.65977216e+00 -1.72118330e+00  7.79630840e-01  8.27822387e-01]
 [ 4.25027561e+00 -2.85347676e+00 -1.37562180e+00 -5.55923402e-01
  -1.86602366e+00 -2.47801828e+00 -7.06179380e-01  1.77989691e-01
  -3.90829116e-01 -1.60654616e-02 -4.09186506e+00  5.16973114e+00
  -2.94205189e-01  1.05223686e-01  4.93972570e-01  1.74947226e+00
  -7.62385488e-01  4.78628069e-01 -2.49241114e+00 -1.89942157e+00
   5.75124562e-01 -6.23579323e-01  1.25777984e+00 -2.65328214e-02
  -2.61453342e+00  1.17088020e+00  1.76670197e-02  2.22019523e-01
    ...

Original: https://blog.csdn.net/d_eng_/article/details/125371433
Author: deng_den
Title: 《基于Tensorflow的知识图谱实战》| 有趣的词嵌入–word embedding（一）| 文本数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595366/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像处理基本方法-将BMP图片灰度化-c语言实现

图像处理基本方法-将BMP图片灰度化-c语言实现 c语言实现图片灰度化，主要利用公式Gray = R _0.299 + G_0.587 + B*0.114实现。实现函数为bmpG…

人工智能 2023年6月22日
00110
3.1. Cross-validation（交叉验证）: evaluating estimator performance（一）

3.1. Cross-validation: evaluating estimator performance 一、简介这一段我反反复复修改了很多次，最后，我发现，我很难靠自己的…

人工智能 2023年6月18日
0072
如何用Python对股票数据进行LSTM神经网络和XGboost机器学习预测分析（附源码和详细步骤），学会的小伙伴们说不定就成为炒股专家一夜暴富了

前言最近调研了一下我做的项目受欢迎程度，大数据分析方向竟然排第一，尤其是这两年受疫情影响，大家都非常担心自家公司裁员或倒闭，都想着有没有其他副业搞搞或者炒炒股、投资点理财产品，未…

人工智能 2023年7月26日
0077
2022世界杯结果预测，简单AI模型最有效？附代码！

2022世界杯冠军是谁？本文将为你揭晓一个利用简单AI模型得到的靠谱预测。许多人称足球为”不可预测的比赛”，因为一场足球比赛有不同的因素可以改变最终比分。…

人工智能 2023年7月29日
0050
sklearn的系统学习——决策树回归（含有python完整代码及案例）

目录结果随机性？交叉验证如何调参？网格搜索上一篇我们了解了决策树，以及决策树分类器，这一篇来一起了解决策树解决回归问题。其实，决策树回归和决策树分类器的参数、属性以及接…

人工智能 2023年6月17日
0084
Jetson nano部署Yolov5 ——从烧录到运行 1:1复刻全过程

前言因为一次竞赛接触了jetson nano和yolov5，网上的资料大多重复也有许多的坑，在配置过程中摸爬滚打了好几天，出坑后决定写下这份教程供大家参考事先声明，这篇文章的许…

人工智能 2023年7月4日
00139
【云驻共创】华为云IoT数据分析流程实操

文章目录一、数据分析的发展 * 1.数据分析概念 – 1.1 数据分析的背景 1.2 数据分析的目的 1.3数据分析的定义 2.物联网数据分析概念 3.华为云IoT数…

人工智能 2023年7月17日
0067
【pandas】将Pandas DataFrame转换为字典常用的几个方法

1. df.to_dict(‘dict’) dict – 默认值：列名是键，值是索引的字典：数据对 2. df.to_dict(‘l…

人工智能 2023年5月23日
0075
人工智能在无人驾驶领域有哪些方面的运用和应用

人工智能的应用领域有哪些？人工智能的应用领域有哪些？人工智能主要应用领域 1、农业：农业中已经用到很多的AI技术，无人机喷撒农药，除草，农作物状态实时监控，物料采购，数据收集，…

人工智能 2023年6月10日
00112
TensorFlow

TensorFlow 是谷歌发布的深度学习开源的计算框架，该计算框架可以很好地实现各种深度学习算法，涉及自然语言处理、机器翻译、图像描述、图像分类等一系列技术。简单来说，Tenso…

人工智能 2023年5月24日
0088
Jetson Xavier NX arm64 pytorch1.8.0安装

系统信息：板子：NVIDIA Jetson Xavier NX 系统：Ubuntu 18.04.6 LTS (GNU/Linux 4.9.201-tegra aarch64) $…

人工智能 2023年7月14日
0072
tensor与numpy的相互转换

tensor与numpy的相互转换 * – + 1. numpy转tensor + * 命令1：torch.tensor() * 命令2：torch.as_tensor…

人工智能 2023年7月5日
0061
MobilenetV1、V2、V3系列详解

Mobilenet系列模型作为当前主流的端侧轻量级模型被广泛应用，很多算法都会使用其作为backbone提取特征，这一章对Mobilenet系列模型做一个总结。一、Mobilne…

人工智能 2023年5月26日
00175
pycharm读取excel中的数据，文章中含有源码

我们首先通过打开pycharm,首先准备个excel，然后将数据读取到文件中** 提取excel中特定的行或者列 ** import xlrd A=[] xx=xlrd.open_…

人工智能 2023年7月7日
0073
C++ OpenCV 中的 imread, imwrite函数

imread 函数原型： Mat cv::imread(const String& filename, int flags = IMREAD_COLOR) imread从指…

人工智能 2023年7月19日
0065
使用tensorflow神经网络预测房价模型

本例使用kaggle的”House Sales in King County, USA”数据集，共有21613笔房屋数据，每一笔数据有21个不同的信息，如图…

人工智能 2023年7月14日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

《基于Tensorflow的知识图谱实战》| 有趣的词嵌入–word embedding（一）| 文本数据处理

第7章 有趣的词嵌入–word embedding（一）| 文本数据处理

1.1 数据集显示

1.2 清洗数据

3.1 word2vec模型的介绍

; 3.2 word2vec的优缺点

3.3 word2vec的模型训练结构

; 1.4 以gensim包对数据进行训练（程序7-5）

4.1 文本主体的提取：基于TF-IDF

4.1.1 TF-IDF的原理

; 4.2.2 TextRank算法的实现（程序7-8）

大家都在看

第7章有趣的词嵌入–word embedding（一）| 文本数据处理