研一NLP学习笔记1

2023年5月28日上午11:25 • 人工智能 • 阅读 87

截至到二月上旬，给自己研一上和寒假的学习做一个总结。目前学完了transformer模型，后面看bert模型。

首先把李宏毅的机器学习课程看一遍，用xmind做一下笔记.

然后可以看一下这个人的入门机器学习

李宏毅的课看了两遍算是理解了，第一遍确实懂的不多，边学边看挺好，第一遍看视频算是有个印象，第二遍重点看自己不会的地方。看了几个人的入门准备导图，李rumor的入门顺序不错

李航的统计学习方法，基本原理看一下

邱锡朋的神经网络书，简单看一下，有个印象

基本上就是TextCNN,Fasttext,transformer,bert。

跑模型可以快速理解内容.

整体代码参考：

FastText，TextCNN，transformer，Bert等

coding: UTF-8
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np

class Config(object):

    """配置参数"""
    def __init__(self, dataset, embedding):
        self.model_name = 'TextCNN'
        self.train_path = dataset + '/data/train.txt'                                # 训练集
        self.dev_path = dataset + '/data/dev.txt'                                    # 验证集
        self.test_path = dataset + '/data/test.txt'                                  # 测试集
        self.class_list = [x.strip() for x in open(
            dataset + '/data/class.txt', encoding='utf-8').readlines()]              # 类别名单
        self.vocab_path = dataset + '/data/vocab.pkl'                                # 词表
        self.save_path = dataset + '/saved_dict/' + self.model_name + '.ckpt'        # 模型训练结果
        self.log_path = dataset + '/log/' + self.model_name
        self.embedding_pretrained = torch.tensor(
            np.load(dataset + '/data/' + embedding)["embeddings"].astype('float32'))\
            if embedding != 'random' else None                                       # 预训练词向量
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # 设备

        self.dropout = 0.5                                              # 随机失活0.5
        self.require_improvement = 1000                                 # 若超过1000batch效果还没提升，则提前结束训练
        self.num_classes = len(self.class_list)                         # 类别数
        self.n_vocab = 0                                                # 词表大小，在运行时赋值
        self.num_epochs = 20                                            # epoch数
        self.batch_size = 256                                           # mini-batch大小128
        self.pad_size = 32                                              # 每句话处理成的长度(短填长切)
        self.learning_rate = 2e-3                                       # 学习率1e-3
        self.embed = self.embedding_pretrained.size(1)\
            if self.embedding_pretrained is not None else 300           # 字向量维度
        self.filter_sizes = (2, 3, 4)                                   # 卷积核尺寸
        self.num_filters = 256                                          # 卷积核数量(channels数)

'''Convolutional Neural Networks for Sentence Classification'''

class Model(nn.Module):
    def __init__(self, config):
        super(Model, self).__init__()
        if config.embedding_pretrained is not None:
            self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)#通过设置参数：freeze=False，来使模型学习embedding中的参数。
        else:
            self.embedding = nn.Embedding(config.n_vocab, config.embed, padding_idx=config.n_vocab - 1)
        self.convs = nn.ModuleList(
            [nn.Conv2d(1, config.num_filters, (k, config.embed)) for k in config.filter_sizes])
        self.dropout = nn.Dropout(config.dropout)
        self.fc = nn.Linear(config.num_filters * len(config.filter_sizes), config.num_classes)

    def conv_and_pool(self, x, conv):
        x = F.relu(conv(x)).squeeze(3)#主要对数据的维度进行压缩，去掉维数为1的的维度，squeeze(a)就是将a中所有为1的维度删掉。不为1的维度没有影响
        x = F.max_pool1d(x, x.size(2)).squeeze(2)#在由几个输入平面组成的输入信号上应用1D自适应最大池化
        return x

    def forward(self, x):
        out = self.embedding(x[0])
        out = out.unsqueeze(1)#对数据维度进行扩充。给指定位置加上维数为一的维度
        out = torch.cat([self.conv_and_pool(out, conv) for conv in self.convs], 1)
        out = self.dropout(out)
        out = self.fc(out)
        return out

学习率为2e-3的时候acc能到91.11%

TEXTRNN

coding: UTF-8
import torch
import torch.nn as nn
import numpy as np

class Config(object):

    """配置参数"""
    def __init__(self, dataset, embedding):
        self.model_name = 'TextRNN'
        self.train_path = dataset + '/data/train.txt'                                # 训练集
        self.dev_path = dataset + '/data/dev.txt'                                    # 验证集
        self.test_path = dataset + '/data/test.txt'                                  # 测试集
        self.class_list = [x.strip() for x in open(
            dataset + '/data/class.txt', encoding='utf-8').readlines()]              # 类别名单
        self.vocab_path = dataset + '/data/vocab.pkl'                                # 词表
        self.save_path = dataset + '/saved_dict/' + self.model_name + '.ckpt'        # 模型训练结果
        self.log_path = dataset + '/log/' + self.model_name
        self.embedding_pretrained = torch.tensor(
            np.load(dataset + '/data/' + embedding)["embeddings"].astype('float32'))\
            if embedding != 'random' else None                                       # 预训练词向量
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # 设备

        self.dropout = 0.5                                              # 随机失活
        self.require_improvement = 1000                                 # 若超过1000batch效果还没提升，则提前结束训练
        self.num_classes = len(self.class_list)                         # 类别数
        self.n_vocab = 0                                                # 词表大小，在运行时赋值
        self.num_epochs = 10                                            # epoch数
        self.batch_size = 128                                           # mini-batch大小
        self.pad_size = 32                                              # 每句话处理成的长度(短填长切)
        self.learning_rate = 1e-3                                       # 学习率
        self.embed = self.embedding_pretrained.size(1)\
            if self.embedding_pretrained is not None else 300           # 字向量维度, 若使用了预训练词向量，则维度统一
        self.hidden_size = 256                                          # lstm隐藏层
        self.num_layers = 3                                             # lstm层数

'''Recurrent Neural Network for Text Classification with Multi-Task Learning'''

class Model(nn.Module):
    def __init__(self, config):
        super(Model, self).__init__()
        if config.embedding_pretrained is not None:
            self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)
        else:
            self.embedding = nn.Embedding(config.n_vocab, config.embed, padding_idx=config.n_vocab - 1)
        self.lstm = nn.LSTM(config.embed, config.hidden_size, config.num_layers,
                            bidirectional=True, batch_first=True, dropout=config.dropout)
        self.fc = nn.Linear(config.hidden_size * 2, config.num_classes)

    def forward(self, x):
        x, _ = x
        out = self.embedding(x)  # [batch_size, seq_len, embeding]=[128, 32, 300]
        out, _ = self.lstm(out)
        out = self.fc(out[:, -1, :])  # 句子最后时刻的 hidden state
        return out

Test Loss: 0.28, Test Acc: 91.30%

Original: https://blog.csdn.net/qq_41560285/article/details/122851903
Author: qq_41560285
Title: 研一NLP学习笔记1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531189/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】文件操作中的a，a+,w，w+几种方式的区别_转

第一步排除文件打开方式错误： r 只读，r+ 读写，不创建 w 新建只写，w+ 新建读写，二者都会将文件内容清零（以w方式打开，不能读出。w+可读写） w+与r+区别： r+：…

人工智能 2023年6月4日
0061
统一检测和分割任务！港科大&清华&IDEA提出基于Transformer统一目标检测与分割框架Mask DINO，效果SOTA！…

关注公众号，发现CV技术之美本篇分享论文『Mask DINO: Towards A Unified Transformer-based Framework for Object…

人工智能 2023年7月9日
0096
keras模型转换为tensorflow的pb模型结构

官方文档介绍如下, 此时博主电脑环境配置为：tensorflow-gpu 2.4.0、python3.6、cuda11.0、cudnn8.0，详细信息可见博主这篇博客应用 Ap…

人工智能 2023年5月25日
0065
语音识别与转换小试牛刀(1)

前言这几天突然觉得语音有点儿意思。想探索一些用一些库来实现下。看见这篇推文：这段AI的深情告白在外网爆火：我并非真实，从未出生，永不死亡，你能爱我吗？, 觉得语音合成的声音也…

人工智能 2023年5月25日
0082
JavaScript：日期对象

日期对象 js种的一个内置方法，用于处理日期与时间相关的操作创建日期对象 new Date() 创建一个和日期有关的对象 new Date()里可以接收参数 1.没有参数 var…

人工智能 2023年6月29日
0063
yolo 目标检测

文章大纲简介 * 原理入门网络模型与可视化目标检测的评测 * mAP 代码部分解读使用 Demo * 数据集最佳实践模型大小计数模型部署与框架选择图片或视频推…

人工智能 2023年7月12日
0030
Datawhale数据分析教程笔记04

数据可视化 tips:在jupyter notebook上使用matplotlib绘图，可以加上一行%matplotlib inline生成无交互的可视化图表或使用%matpl…

人工智能 2023年7月17日
0048
什么是过拟合

什么是过拟合？过拟合（Overfitting）是指机器学习模型在训练数据上的表现非常好，但在新的、未见过的数据上表现较差的现象。简单来说，过拟合就是模型在训练集上“死记硬背”了所…

人工智能 2023年12月31日
0032
【数据结构】C语言实现顺序栈 && OJ题 —— 有效的括号

👑作者主页：@进击的安度因🏠学习社区：进击的安度因（个人社区）📖专栏链接：数据结构文章目录 1. 栈的概念 2. 栈的结构 3. 栈的实现 * 3.1 结构设计 3.2 接口总览…

人工智能 2023年6月27日
00100
SENet实战详解：使用SE-ReSNet50实现对植物幼苗的分类

摘要 1、SENet概述 Squeeze-and-Excitation Networks（简称 SENet）是 Momenta 胡杰团队（WMW）提出的新的网络结构，利用SEN…

人工智能 2023年7月1日
00136
几种回归问题评估指标

以预测房价为例，假设我们有n个样本(即n个房屋的信息和价格数据)，这n个房屋的真实价格用向量y =[y1,y2,…,J.]表示,我们建立的机器学习模型得到的这n个房屋价…

人工智能 2023年6月17日
0067
机器学习-生成对抗网络WGAN-GP实战（四-1）

上一篇文章简单介绍了WGAN-GP的原理，本文来实现WGAN-GP的实战。还是建议大家先读机器学习-生成对抗网络变种（三）之前的博客写了DCGAN的实战代码，实际上在生成器和判…

人工智能 2023年7月14日
0049
【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

目录 task 数据集 AP-CNN * 1、主要改进 – 1）Attention Pyramid（注意金字塔） 2） ROI引导的细化模块 2、与主流模型比较 3、可…

人工智能 2023年7月14日
0066
回归预测 | MATLAB实现SVR(支持向量机回归)fitrsvm参数设定

回归预测 | MATLAB实现SVR(支持向量机回归)fitrsvm参数设定目录 * – 回归预测 | MATLAB实现SVR(支持向量机回归)fitrsvm参数设定…

人工智能 2023年6月17日
0080
使用PyTorch搭建ResNet101、ResNet152网络

ResNet18的搭建请移步：使用PyTorch搭建ResNet18网络并使用CIFAR10数据集训练测试ResNet34的搭建请移步：使用PyTorch搭建ResNet34网络R…

人工智能 2023年6月16日
0087
matlab：快速傅里叶（反）变换 FFT&IFFT

文章目录前言一、傅里叶变换的离散性与周期性二、MATLAB 实现快速傅里叶变换 FFT (DFT) 的计算三，FFT 频谱的对称性四，FFT 频谱的频率刻度五，频谱图的…

人工智能 2023年6月18日
00436

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

研一NLP学习笔记1

大家都在看