半监督文本分类学习代码展示及最终总结

2023年5月28日上午10:54 • 人工智能 • 阅读 93

2021SC@SDUSC

2021SC@SDUSC

normal_bert.py 代码分析

代码输入包含七个部分,分别为
input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.

input_ids:表示tokens的ids
input_mask:表示哪些是input,哪些是padding.len(input_ids)个1,后面继续补0.对于mask的词,主要占了全部vocabulary的15%左右,在代码中对于每个词80%replace with [mask],10% keep original,10% replace with random word.超过了mask的词数,则终止.

segment_ids:第一个句子到[SEP]为0,后面为1.主要是对输入进行区分,判断输入的两个句子.

masked_lm_positions:表示句子中mask的token的position.

mask_lm_ids:表示句子中mask的token的id.

masked_lm_weights:表示句子中mask的token的权重.

next_sentence_labels:表示两个句子是不是相连的.

代码示例

class ClassificationBert(nn.Module):
    def __init__(self, num_labels=2):
        super(ClassificationBert, self).__init__()

加载预训练bert模型

self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.linear = nn.Sequential(nn.Linear(768, 128),
                                    nn.Tanh(),
                                    nn.Linear(128, num_labels))

python中torch.nn解析

torch.nn是专门为神经网络设计的模块化接口。nn构建于autograd之上，可以用来定义和运行神经网络。
nn.Module是nn中十分重要的类,包含网络各层的定义及forward方法。
定义自已的网络：
需要继承nn.Module类，并实现forward方法。
一般把网络中具有可学习参数的层放在构造函数__init__()中，
不具有可学习参数的层(如ReLU)可放在构造函数中，也可不放在构造函数中(而在forward中使用nn.functional来代替)

只要在nn.Module的子类中定义了forward函数，backward函数就会被自动实现(利用Autograd)。
在forward函数中可以使用任何Variable支持的函数，毕竟在整个pytorch构建的图中，是Variable在流动。还可以使用if,for,print,log等python语法.

编码输入文本

     def forward(self, x, length=256):
        # Encode input text
        all_hidden, pooler = self.bert(x)

使用linear layer（线性）层进行预测

pooled_output = torch.mean(all_hidden, 1)

        predict = self.linear(pooled_output)

        return predict

实验结果

结果表明，Tmix的效果好于Bert，尤其当分类在10种的时候，MixText效果是最好的，因为MixText不仅合成了无标签数据，并且利用了有标签数据和无标签数据的隐含的关系，而且可以对无标签数据进行猜测标签，通过对数据增强和原始文件的权重平均。

无标签数据量对结果产生的影响，无标签数据越多，模型越准确。

学期学习总结

在本学期选择了该项目进行学习后，对自然语言处理方面有了更加深入的了解，从一开始读文章晦涩难懂，到最后查找资料逐步有了新的认识，逐渐学会了研究新项目，学习新知识的方法，现对相关领域的基础知识进行学习和弥补，再对某一部分深入了解的东西进行看网课，看其他的博客进行学习，并总结出其中的重点，主要代码以及其实现方式，可以自己手写进行练习。对任务中需要深入学习的模型和算法，进行每周的总结，虽然总结距离准确严谨还不够，但每次的总结都能有一些收获。与小组一起合作，互相讲自己负责的部分，最终对半监督文本分类的项目有了更进一步的了解。

Original: https://blog.csdn.net/m0_52073096/article/details/122153321
Author: IT_BD_Zhang
Title: 半监督文本分类学习代码展示及最终总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531077/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【数学模型】层次分析

Hello大家好，今年数学建模国赛将于9月中旬举行，是时候提前做一些准备了。本次模型非常简单，只是介绍比较得详细，我下次注意，争取限制下字数。文末准备了层次分析-python模…

人工智能 2023年7月26日
0048
微软提出基于知识图谱的深度神经网络DKN用于新闻推荐

DKN: Deep Knowledge-Aware Network for News Recommendation Hongwei Wang, Fuzheng Zhang, Xin…

人工智能 2023年6月10日
0063
模糊照片秒变高清大图，飞桨PPDE带你复现图像恢复模型CMFNet

本文已在飞桨公众号发布，查看请戳链接：模糊照片秒变高清大图，飞桨PPDE带你复现图像恢复模型CMFNet 图像恢复技术，就是使用各种图像算法对有缺陷的图像进行修复还原的技术，常见的…

人工智能 2023年5月28日
00101
3050显卡驱动安装+配置pytorch的cuda环境

3050显卡驱动安装+配置pytorch的cuda环境前言一、下载3050驱动二、下载CUDA 二、cuDNN下载三、cuDNN配置四、pytorch环境配置 * ①、创…

人工智能 2023年7月21日
0047
【人工智能 & 机器学习 & 深度学习】基础选择题 61~90题练习（题目+答案）

目录一、前情回顾二、61~70题 * 2.1 题目 2.2 答案三、71~80题（NLP，LSTM） * 3.1 题目 3.2 答案四、81~90题（序列、时间序列、预测）…

人工智能 2023年7月27日
0057
无线唤醒在灌溉系统上的应用

农业是一个国家的经济命脉，国家的发展离不开农业的发展。我国作为农业大国之一，随着农业的发展，农业用水占比也越来越高。并且我国目前农业上的灌溉主要还是以传统的人工灌溉为主。传统的人工…

人工智能 2023年6月4日
0074
最基本的25道深度学习面试问题和答案

近年来，对深度学习的需求不断增长，其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中，将整理深度学习面试中最常被问到的25个问题和…

人工智能 2023年7月25日
0044
python 数据处理学习pandas之DataFrame

请原谅没有一次写完,本文是自己学习过程中的记录,完善pandas的学习知识,对于现有网上资料的缺少和利用python进行数据分析这本书部分知识的过时,只好以记录的形势来写这篇文章….

人工智能 2023年6月2日
0084
vs2022重新编译opencv-python cuda加速时报错

今天重新编译了一下Windows的opencv-python的cuda加速在生成INSTALL的时候报错 严重性…

人工智能 2023年7月19日
0048
基于Blinker的小爱同学语音控制【脱坑指南】

基于Blinker的小爱同学语音控制ESP8266 前些天在使用esp8266时遇到很多小爱不能控制设备问题，现在来叙述我控制过程中所遇到的问题，以及到完整的小爱能成功控制Esp8…

人工智能 2023年5月25日
0091
盲图像超分辨率重建 ( CVPR，2022) (Pytorch)（附代码）

🍊 这篇测评文章用心写了一个下午，个人觉得作为一个初学者入门教程，再合适不过了，敬请查阅 🍊 精选专栏，超分重建-代码环境搭建-知识总结 🍊 博主：墨理，2020年硕士毕业，目前从…

人工智能 2023年5月26日
0092
pyspark DataFrame问题解决

pyspark.sql.DataFrame.dropDuplicates(subset=None) 作用：返回删除重复行的新 DataFrame，可选择仅考虑某些列。 Exampl…

人工智能 2023年7月8日
0064
pip安装OpenCV教程（简单步骤）基于python

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月18日
0048
前端vue中箭头函数省略return的写法之详细讲解

1.什么括号都不用的情况 (a,b)=>{return a+b}//简化(a,b)=>a+b 2.使用()的情况下 let arr=[]arr.map(item=&gt…

人工智能 2023年6月27日
0066
pyecharts的各个系列配置项设置示例——个人整理与分享

由于在使用pyecharts时我们有很多对图表的配置项设置需要用到全局配置项和系列配置项，因此在对pyecharts的图表进行介绍之前先进行个人在pyecharts官网对系列配置项…

人工智能 2023年6月19日
0072
知识图谱（二）——知识表示

一、经典知识表示理论 1. 语义网络语义网络：是一个通过语义关系连接的概念网络，将知识表示为相互连接的点和边的模式。节点——实体、事件、值；边——对象间的语义关系。语义网络中最…

人工智能 2023年6月1日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

半监督文本分类学习代码展示及最终总结

2021SC@SDUSC

2021SC@SDUSC

normal_bert.py 代码分析

python中torch.nn解析

实验结果

学期学习总结

大家都在看