【CS224n】(lecture1)课程介绍和word2vec

2023年5月31日上午4:01 • 人工智能 • 阅读 99

学习总结

（1）明确课程时间安排和task概况。
（2）简单复习：word2vec通过滑动窗口截取词构成样本，输入向量矩阵的行向量即所需的单词embedding；另外为了优化训练，还有负采样和SGD等方法。另外manning老爷子木有讲分层 softmax（Hierarchical Softmax），这个后续跟进。

文章目录

学习总结
一、课程安排
二、Word2vec算法
*
2.1 引子
2.2 滑动窗口
2.3 目标函数
2.4 预测函数
三、训练
*
3.1 激活函数
3.2 梯度下降
3.3 负采样
四、代码实现
Reference

; 一、课程安排

CS224n 课程介绍：

课程主页
课程资料
课程国内观看链接
课程油管观看地址
答疑平台

总时长：12周
（1）week1-4: 词向量，分类，神经网络，分词
（2）week5-8: RNN和语言模型，梯度消失和seq2seq，机器翻译、注意力和子词模型
（3）week9-12: Transformers，预训练模型，自然语言生成（可选），基于知识的语言模型（可选）

要求：
（1）观看视频，笔记输出，要有自己的思考；
（2）完成课后的quiz（不多，共8个，大概10道选择题）；
（3）一起组队做一个项目（自选一个NLP任务）；

ddl打卡安排如下：

WeekDueLectureQuizProjects1Sun 11/21 24:00P11 – Introduction and Word Vectors 1:24:281-2周后选题2Sun 11/28 24:00P22 – Neural Classifiers 1:15:193Sun 12/05 24:00P33 – Backprop and Neural Networks 1:22:29Quiz 14Sun 12/12 24:00P44 – Dependency Parsing 1:21:225Sun 12/19 24:00P55 – Language Models and RNNs 1:19:18

P66 – Simple and LSTM RNNs 1:21:38Quiz 26Sun 12/26 24:00P77 – Translation, Seq2Seq, Attention 1:18:55Quiz 37Sun 01/02 24:00P99 – Self- Attention and Transformers 1:16:57

P1010 – Transformers and Pretraining 1:21:46 （可选）

P20 BERT and Other Pre-trained Language Models 54:29 （可选）Quiz 48Sun 01/09 24:00P1111 – Question Answering 1:51:53 （二选一）

P1212 – Natural Language Generation1:17:27 （二选一）Quiz 5 Quiz 69Sun 01/16 24:00P1414 – T5 and Large Language Models 1:35:1410Sun 01/23 24:00P1515 – Add Knowledge to Language Models 1:17:26Quiz 711Sun 01/30 24:00P1818 – Future of NLP + Deep Learning 1:20:06Quiz 812Sun 02/05 24:00

作业简要介绍：

课程项目：

N-Gram Language Models (Lectures 1-4) （语音识别）
Word Alignment Models for Machine Translation (Lectures 5-9)（机器翻译）
Maximum Entropy Markov Models & Treebank Parsing (Lectures 10-3)（命名实体识别和句法分析）

; 二、Word2vec算法

2.1 引子

理解单词意思的最常见的语言方式：语言符号与语言符号的意义的转化。

; 2.2 滑动窗口

为了得到每个单词的高质量稠密embedding（相似上下文的单词的vector应该相似），word2vec是通过一个滑动窗口的滑动，同时计算P ( w t + j ∣ w t ) P\left(w_{t+j} \mid w_{t}\right)P (w t +j ∣w t )。下面就是一个栗子， window_size=2。

2.3 目标函数

（1）一开始我们将刚才得到的一坨P ( w t + j ∣ w t ) P\left(w_{t+j} \mid w_{t}\right)P (w t +j ∣w t )相乘，并且是对于每个t，所以有2个累乘：

（2）因为一般我们是最小化目标函数，所以进行了取log和负平均的操作，修改后的目标函数：
【CS224n】(lecture1)课程介绍和word2vec

为了求出上面损失函数最里面的概率P ( w t + j ∣ w t ; θ ) P\left(w_{t+j} \mid w_{t} ; \theta\right)P (w t +j ∣w t ;θ)，对于每个单词都用2个vector表示：

当w是中心词时，表示为v w v_w v w
当w是上下文词时，表示为u w u_w u w

但是为啥要用两个vector表示每个单词呢，manning给出的解释是：更容易optimization。

; 2.4 预测函数

所以对于一个中心词c和一个上下文次c有：P ( o ∣ c ) = exp ⁡ ( u o T v c ) ∑ w ∈ V exp ⁡ ( u w T v c ) P(o \mid c)=\frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}P (o ∣c )=∑w ∈V exp (u w T v c )exp (u o T v c )将任意值x i x_i x i 映射到概率分布中，即如下：

分子的点积用来表示o和c之间相似程度，分母这坨东西就是基于整个词表，给出归一化后的概率分布。

三、训练

3.1 激活函数

用softmax函数，使大的更大，小的更小：

; 3.2 梯度下降

又是熟悉的通过minimize loss来优化更新参数，注意一开始说了每个单词都有2个vector表示，其中vector是d维度的，一共有V个单词，我们想要得到的模型参数：θ = [ v a a r d v a r k v a ⋮ v z e b r a u a a r d v a r k u a ⋮ u z e b r a ] ∈ R 2 d V \theta=\left[\begin{array}{l} v_{a a r d v a r k} \ v_{a} \ \vdots \ v_{z e b r a} \ u_{a a r d v a r k} \ u_{a} \ \vdots \ u_{z e b r a} \end{array}\right] \in \mathbb{R}^{2 d V}θ=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡v a a r d v a r k v a ⋮v z e b r a u a a r d v a r k u a ⋮u z e b r a ⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤∈R 2 d V
梯度下降就是通过链式求导法则，这里我们对里面那项概率求导：log ⁡ p ( o ∣ c ) = log ⁡ exp ⁡ ( u o T v c ) ∑ w = 1 V exp ⁡ ( u w T v c ) \log p(o \mid c)=\log \frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w=1}^{V} \exp \left(u_{w}^{T} v_{c}\right)}lo g p (o ∣c )=lo g ∑w =1 V exp (u w T v c )exp (u o T v c )
在每个窗口中，我们通过梯度下降求出当前窗口的所有参数，我们上面是用的CBOW，即根据上下文预测中心词。

并且在更新参数时，是要设定超参数——学习率：
【CS224n】(lecture1)课程介绍和word2vec

上面的梯度下降实际上需要对语料库（corpus）的所有窗口都计算后才更新参数。所以为了训练更高效，可以使用SGD，SGD是对一个窗口进行更新参数，并且重复采样窗口。

while True:
    window = sample_window(corpus)
    theta_grad = evaluate_gradient(J, window, theta)
    theta = theta - alpha * theta_grad

3.3 负采样

CBOW或者skip-gram这类模型的训练，在当词表规模较大且计算资源有限时，这类多分类模型会因为输出层概率的归一化计算效率的影响，训练龟速。

所以负采样提供了另一个角度：给定当前词与上下文，任务是最大化两者的共现概率。
也即将多分类问题简化为：针对(w, c)的二分类问题（即共现or不共现），从而避免了大词表上的归一化复杂计算量。

如P ( D = 1 ∣ w , c ) P(D=1 \mid w, c)P (D =1 ∣w ,c )表示c和w共现的概率P ( D = 1 ∣ w , c ) = σ ( v w ⋅ v c ′ ) P(D=1 \mid w, c)=\sigma\left(v_{w} \cdot v_{c}^{\prime}\right)P (D =1 ∣w ,c )=σ(v w ⋅v c ′)

四、代码实现

这里的数据集我们用了 nltk库的reuters数据集：

reuters = LazyCorpusLoader(
    "reuters",
    CategorizedPlaintextCorpusReader,
    "(training|test).*",
    cat_file="cats.txt",
    encoding="ISO-8859-2",
)

这里我们的损失函数选用 nn.NLLLoss()，可以回顾上次学习pytorch图片多分类时的图：

我们之前经常使用的 torch.nn.CrossEntropyLoss如下（将下列红框计算纳入）。注意右侧是由类别生成独热编码向量。
【CS224n】(lecture1)课程介绍和word2vec

具体细节见代码注释：

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset
from torch.nn.utils.rnn import pad_sequence
from tqdm.auto import tqdm
from utils import BOS_TOKEN, EOS_TOKEN, PAD_TOKEN
from utils import load_reuters, save_pretrained, get_loader, init_weights

class CbowDataset(Dataset):
    def __init__(self, corpus, vocab, context_size=2):
        self.data = []
        self.bos = vocab[BOS_TOKEN]
        self.eos = vocab[EOS_TOKEN]
        for sentence in tqdm(corpus, desc="Dataset Construction"):
            sentence = [self.bos] + sentence+ [self.eos]

            if len(sentence) < context_size * 2 + 1:
                continue
            for i in range(context_size, len(sentence) - context_size):

                context = sentence[i-context_size:i] + sentence[i+1:i+context_size+1]

                target = sentence[i]
                self.data.append((context, target))

    def __len__(self):
        return len(self.data)

    def __getitem__(self, i):
        return self.data[i]

    def collate_fn(self, examples):
        inputs = torch.tensor([ex[0] for ex in examples])
        targets = torch.tensor([ex[1] for ex in examples])
        return (inputs, targets)

class CbowModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(CbowModel, self).__init__()

        self.embeddings = nn.Embedding(vocab_size, embedding_dim)

        self.output = nn.Linear(embedding_dim, vocab_size)
        init_weights(self)

    def forward(self, inputs):
        embeds = self.embeddings(inputs)

        hidden = embeds.mean(dim=1)

        output = self.output(hidden)
        log_probs = F.log_softmax(output, dim=1)
        return log_probs

embedding_dim = 64
context_size = 2
hidden_dim = 128
batch_size = 1024
num_epoch = 10

corpus, vocab = load_reuters()
dataset = CbowDataset(corpus, vocab, context_size=context_size)
data_loader = get_loader(dataset, batch_size)

nll_loss = nn.NLLLoss()

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = CbowModel(len(vocab), embedding_dim)
model.to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)

model.train()
for epoch in range(num_epoch):
    total_loss = 0
    for batch in tqdm(data_loader, desc=f"Training Epoch {epoch}"):

        inputs, targets = [x.to(device) for x in batch]

        optimizer.zero_grad()

        log_probs = model(inputs)

        loss = nll_loss(log_probs, targets)

        loss.backward()

        optimizer.step()
        total_loss += loss.item()
    print(f"Loss: {total_loss:.2f}")

save_pretrained(vocab, model.embeddings.weight.data, "cbow.vec")

Reference

（1）课程ppt：https://web.stanford.edu/class/cs224n/slides/
（2）Speech and Language Processing ：https://web.stanford.edu/~jurafsky/slp3/
（3）课程官网：https://see.stanford.edu/Course/CS224N#course-details
（4）https://datawhale.feishu.cn/docs/doccncx2cwCD9jtZCp6kKhlKdee#
（5）pytorch损失函数之nn.CrossEntropyLoss()、nn.NLLLoss()

Original: https://blog.csdn.net/qq_35812205/article/details/121433041
Author: 山顶夕景
Title: 【CS224n】(lecture1)课程介绍和word2vec

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548513/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu22.04 在线安装 MySQL8

使用APT安装MySQL sudo apt-get -y install mysql-server 确保记住您设置的根密码。以后想设置密码的用户可以在对话框中将密码字段留空，然后按…

人工智能 2023年6月28日
00148
半监督学习中的多示例学习是什么

什么是多示例学习？多示例学习(Multiple Instance Learning, MIL)是半监督学习的一个重要分支。半监督学习是机器学习的一个任务领域，其旨在从少量标记样本…

人工智能 2024年1月1日
0044
QA-GNN: Reasoning with Language Models and Knowledge Graphsfor Question Answering

题目：QA-GNN：使用语言模型和知识图进行问答推理作者：Michihiro Yasunaga、Hongyu Ren、Antoine Bosselut、Percy Liang、Ju…

人工智能 2023年5月27日
0093
切比雪夫（Chebyshev）不等式

标准化设随机变量x具有数学期望E ( x ) = μ E(x) = \mu E (x )=μ，方差D ( x ) = σ 2 D(x) = \sigma^{2}D (x )=σ2…

人工智能 2023年6月15日
00129
论文检索和阅读方法

作为一名研究生，一定要有论文检索和阅读能力，下面的内容是我结合自身经验总结的论文检索和阅读方法,因为我是计算机专业研究生，所以主要关注计算机方面。一.论文查阅 DBLP（Data…

人工智能 2023年5月28日
00103
chatGPT与世界杯的故事：人工智能的双重面对

（本文是 CSDN 的世界杯征文）在本文中，我们将借助chatGPT的智慧，一起探究世界杯与人工智能之间的关系，并展望人工智能在体育领域的应用。同时，我们也将思考人工智能如何影响着…

人工智能 2023年7月28日
00107
【神经网络】【TensorFlow】求解耦合常微分方程组

刚开始学习神经网络，之前在帖子中学习了arxiv.org中一篇论文通过神经网络求解常微分方程的思路，原帖介绍了论文思路并给出了常微分方程求解举例，在这里我写一下自己的一些理解，并尝…

人工智能 2023年5月25日
00132
一、创建DataFrame及Numpy基础操作

1. 创建DateFrame：（1）字典法: data = {"grammer":[‘Python’, ‘C’, ‘Java’, ‘GO’, np.NaN, …

人工智能 2023年7月8日
0084
Importerror: libgl.so.1: cannot open shared object file: no such file or directory

如果您的应用程序依赖于cv2或opencv-python如果您尝试使用诸如 python:3.9-slim、python:buster 等图像构建 docker 容器，并且如果您导…

人工智能 2023年6月18日
0079
【SaaS金羊毛】微信小程序We分析

微信前几天发布了通告https://mp.weixin.qq.com/cgi-bin/announce?action=getannouncement&announce_id…

人工智能 2023年7月15日
0095
灰色预测GM(1,1)模型

目录简介数学模型分析步骤对数据进行准指数规律检验对预测效果进行评价 GM(1,1)模型拓展 MATLAB源码简介在这里，灰色的意思是系统的信息只有一部分，不完整，与之…

人工智能 2023年6月19日
0094
有监督学习：回归（进阶——跳过简单的线性回归）

总所周知，回归是机器学习的入门，而对于这篇文章，我也是下了很大的功夫。对于最基础的线性回归（也就是），这里我就不再过多叙述了，并且在该文章里面涉及到回归基础的东西我也不再过多啰嗦，…

人工智能 2023年6月18日
00119
神经网络加上注意力机制，精度不升反降？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0083
Windows 利用Anaconda创建pytorch等环境

前言之前安装得anaconda windows版本，后来原因诸多问题在ubuntu上进行实验了，现在回想，来试试在windows下环境配置看看，加以记录！【 ubuntu的ana…

人工智能 2023年6月29日
0084
一元线性回归分析与建模

一元线性回归分析一元回归分析的基本概念回归模型的建立一般包括：（1）通过某事物现，转化为具体问题；（2）确定指标变量，收集整理数据，并构建模型进行参数估计；（3）模型的检验，当模…

人工智能 2023年6月18日
0093
pandas DataFrame(5)-合并DataFrame与Series

之前已经学过DataFrame与DataFrame相加,Series与Series相加,这篇介绍下DataFrame与Series的相加: import pandas as pd …

人工智能 2023年6月2日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31