nlp第四章作业

2023年5月28日上午6:05 • 人工智能 • 阅读 87

基于spacy以及tf-idf向量化文本

第一题

问题：根据tf-idf的计算方法编写一个自定义的计算tf-idf的方法（推荐包装成函数或者类）

封装成函数的代码如下：

def tf_idf(fenci,stop_words,tongci):
    result2 = []
    for i in range(len(data)):
        res = []
        for j in tongci[i].keys():
            outdic = {}
            tf = tongci[i][str(j)]/len(fenci[i])

            idf = math.log(len(stop_words)/(tongci[i][str(j)]+1))

            tfidf = tf*idf
            outdic = {j:tfidf}
            res.append(outdic)
            sorted_word = sorted(res, key=lambda r: next(iter(r.values())),reverse=1)
        result2.append(sorted_word)
    return result2

这里要介绍一下 TF、 IDF的含义：

TF(Term Frequency)表示一个词在文档中出现的词频。
TF = （某个词语在文档中出现的次数）/ （文档中词语的总数）
在此次作业当中tongci[i][‘str(j)’]表示的是去掉停用词之后，该词在该篇新闻文本中出现的次数，而len(fenci[i])表示的是该篇新闻的总长度。 TF公式表示如下：

T F i j = n i j ∑ k n k j TF_{ij } = \frac{n_{ij}}{\sum_{k}n_{kj}}T F i j =∑k n k j n i j

IDF（反向文档频率）用于表示单词在文档中的重要性。通过计算包含某个词语的文档数文档总数比的倒数文档总数除以包
含该单词的文档数量），然后再取对数，可以量化该单词在所有文
档中的常见程度
IDF(t) = lg(文档的总数量/存在某个词语的文档总量)
本次作业的文档的总数量一共是85，所以直接用len(stop_words)的长度，存在某个词语的文档总量是tongci[i][str(j)]+1，其中为了避免除以0值实现不了，所以加上1。 IDF的公式表示如下：

I D F i = l o g ∣ D ∣ 1 + ∣ j : t i ϵ d j ∣ IDF_{i} = log\frac{|D|}{1+|j:t_{i} \epsilon d_{j}|}I D F i =l o g 1 +∣j :t i ϵd j ∣∣D ∣

TF-IDF倾向于过滤掉常见的词语，保留重要的词语

T F − I D F = T F ∗ I D F TF-IDF = TF*IDF T F −I D F =T F ∗I D F

第二题

使用文本数据的test.txt（每一行为一条新闻数据），使用spacy（数据预处理）和自定义的tf-idf函数（词袋模型）句向量化（输出结果可以自定义结构，但需要在pdf中进行说明），并输出成resut.txt提交。

实现代码

import spacy
import math
from collections import Counter

def read(path):
    f = open(path,encoding="utf8")
    data = []
    for line in f.readlines():
        data.append(line)
    return data

def spacy_text(data):

    spacy_en = spacy.load('zh_core_web_sm')
    result = []
    for i in data:
        result.append(spacy_en(i))

    fenci = []
    for j in range(len(result)):
        result1 = []
        for i in result[j]:
            result1.append(i.text)
        fenci.append(result1)

    stop_words = []
    for i in range(len(fenci)):
        result3 = []
        for j in fenci[i]:
            words = spacy_en.vocab[j]
            if words.is_stop == False:
                result3.append(j)
        stop_words.append(result3)

    tongci = []
    for i in range(len(stop_words)):
        count = Counter(stop_words[i])
        tongci.append(count)

    return fenci,stop_words,tongci

def tf_idf(fenci,stop_words,tongci):
    result2 = []
    for i in range(len(data)):
        res = []
        for j in tongci[i].keys():
            outdic = {}
            tf = tongci[i][str(j)]/len(fenci[i])

            idf = math.log(len(stop_words)/(tongci[i][str(j)]+1))

            tfidf = tf*idf
            outdic = {j:tfidf}
            res.append(outdic)
            sorted_word = sorted(res, key=lambda r: next(iter(r.values())),reverse=1)
        result2.append(sorted_word)
    return result2

if __name__ == '__main__':
    path = "E://大三下//自然语言处理//作业//第四章nlp作业//test.txt"
    data = read(path)
    fenci,stop_words,tongci = spacy_text(data)
    result2 = tf_idf(fenci,stop_words,tongci)
    for i in range(len(result2 )):
        with open("E://大三下//自然语言处理//code//resut.txt",'a',encoding='utf8') as f:
            f.write(str(result2 [i]))
            f.close()

本次作业一共对85个新闻内容利用spacy（数据预处理）和tf-idf函数向量化，每一行是一条新闻内容。所以在对数据进行读入的时候就将其保存为列表的形式，后续的分词以及去除停用词，都要将每个新闻的词语分隔开，这样才会更好的判断该新闻的关键词。所以使用嵌套列表的形式，将85个新闻文本分隔开。

我们以第一个和第二个新闻文本为例，其最后计算得到的tf-idf的值，经过排序结果如下图所示：

第一个新闻文档：

第六十个新闻文档：

最后输出的txt文件有点杂，只可以根据代码找到新闻的长度来确定一则新闻tf-idf值的范围。

参考文献：
1、https://www.cnblogs.com/panchuangai/archive/2020/09/17/13688528.html
2、https://zhuanlan.zhihu.com/p/70314114

Original: https://blog.csdn.net/qq_47712110/article/details/123764154
Author: Love. Rover
Title: nlp第四章作业

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530113/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java教学信息管理辅助系统jszpb

大学计算机专业毕业的，实际上到了毕业的时候，基本属于会与不会之间。说会，是因为学了整套的理论和方法，就是所谓的科班出身。说不会，是因为实践能力极差。不会的问题，集中体现在毕设的时…

人工智能 2023年6月29日
00127
【python计量】statsmodels进行OLS回归——以伍德里奇数据为例

此文章首发于公众号：Python for Finance链接：【python计量】statsmodels进行OLS回归——以伍德里奇数据为例伍德里奇的《计量经济学导论》，是目前国…

人工智能 2023年6月16日
0093
深度学习与神经网络2

激活函数：神经元经过加权融合后一般还需要经过激活函数激活，主要作用就是为了增加神经网络模型的非线性。否则你想想，没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后，无…

人工智能 2023年5月30日
0077
Tensorflow-gpu版本安装

安装分为3个步骤文章目录 1.安装CUDA 2. 安装cuDNN 3. 安装tensorflow-gpu 1.安装CUDA 首先要查看自己电脑的显卡支持的CUDA版本打开英伟达控…

人工智能 2023年5月23日
0086
【鸢尾花数据集最小错误率贝叶斯分类】

一、问题描述——鸢尾花数据集最小错误率贝叶斯分类iris是鸢尾植物数据集，存储了其萼片和花瓣的长宽，共4个特征属性（记萼长为属性1，萼宽为属性2，花瓣长为属性3，花瓣宽为属性4）…

人工智能 2023年7月1日
0069
神经网络模糊pid控制算法,模糊神经网络应用实例

1、模糊神经网络的基本形式模糊神经网络有如下三种形式：1．逻辑模糊神经网络2．算术模糊神经网络3．混合模糊神经网络模糊神经网络就是具有模糊权系数或者输入信号是模糊量的神经网络。上…

人工智能 2023年7月28日
00102
Freesurfer recon-all命令详解及使用示例

一、一些名词解释 atlas 模板，带标签的地图 CA Canonical 典型的，规范的(CA Normalize, CA Register) GCA Gaussian Clas…

人工智能 2023年6月17日
0072
加速度一

MainActivity.java public class MainActivity extends AppCompatActivity implements SensorEve…

人工智能 2023年5月25日
0089
DeepSnake环境配置

DeepSnake 文章：https://arxiv.org/abs/2001.01629 代码：GitHub – zju3dv/snake: Code for &#8…

人工智能 2023年7月10日
0066
web前端期末大作业【足球网页】学生网页设计作业源码

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年7月31日
0067
对数据进行提取划分整理

巧妙得对复杂的pdf数据进行提取划分整理至excel 对文档的数据进行提取划分整理 * 观察数据将数据提取放进表格中 – 方法1.python利用pdfplumber…

人工智能 2023年7月9日
0051
opencv中自适应阈值（adaptiveThreshold()函数）介绍

自适应阈值简介自适应阈值（adaptiveThreshold()，用于二值化处理图像，对于对比大的图像有较好效果，相对于opencv中固定阈值化操作（threshold()），自…

人工智能 2023年7月18日
0059
Torchtext下的AG_NEWS数据集进行分类（官方文档代码）

原链接：Text classification with the torchtext library — PyTorch Tutorials 1.11.0+cu102 docume…

人工智能 2023年7月22日
0098
【IA-SSD】阅读笔记与代码理解

结果： IA-SSD为目前最快的3d点云目标检测网络，在单个RTX 2080Ti上速度高达 85 FPS！论文地址：https://arxiv.org/abs/2203.1113…

人工智能 2023年7月28日
0079
Matlab 主成分分析与K均值聚类分析实验报告

Matlab 主成分分析与K均值聚类分析实验报告提示：数据资源在本CSDN号的上传资料中直接领取 1 引言数据：gyzb.mat（按顺序对应每一列）为：31个省市区的国有控股企…

人工智能 2023年7月15日
0087
基于YOLOv5的DeepSORT行人目标跟踪

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

nlp第四章作业

第一题

实现代码

大家都在看