【Review】自然语言处理发展史中的里程碑总结

2023年5月28日下午1:04 • 大数据 • 阅读 62

2001 Neural language models

语言建模是指在给定前面若干个单词的情况下，预测文本下一个出现的单词。这是一个最简单的自然语言处理任务，但同时有着最具体的应用。传统方法使用n-gram模型进行语言建模，并用不同平滑方法处理未出现的n-gram。[1]
第一个神经网络方法是Bengio等人在2001年提出的feed-forward neural network[2]，该方法首先在look-up table中查询到前面n个单词的表示向量，拼接并送入隐藏层，之后被送入softmax层。
现在FFNN更多地被RNN[3]，LSTM[4]取代用来做语言建模。

2008 Multi-task learning

多任务学习第一次被应用于处理NLP任务的神经网络是2008年的[5][6]，Collobert和Weston的文章也被评为ICML 2018的最佳时间检验奖。

2013 Word embeddings

自然语言的稀疏向量表示一直以来是用词袋模型解决的。Mikolov在2013年提出了稠密向量表示word2vec，有两种训练方式，一种是CBOW(continuous bag-of-words)，从周围词预测中心词，另一种是skip-gram，从中心词预测周围词。
word embedding也能通过有微调的矩阵分解以及SVD LSA等传统矩阵分解方法得到，但word2vec还是最被广泛运用的。此外，word2vec中skip-gram的负采样方法也有很多的应用场景。
一个有趣的方向是如何利用无监督学习把不同语言映射到同一个投影空间中，这样就能更好地实现跨语言迁移学习，从而利用常用语言的预训练向量来帮助解决低资源语言的若干问题。

2013 Neural networks for NLP

RNN CNN和RecNN被应用于NLP。其中，recursive neural network和前两者不同，不把语言看做序列，而看做有结构的信息，自底向上建模语言的表示，而RNN则自左向右或自右向左建模语言。

2014 Sequence-to-sequence models

2014年Sutskever提出seq2seq模型，利用encoder-decoder结构实现序列到序列的映射。之后谷歌全面使用seq2seq进行机器翻译，代替phrase-based翻译系统，开启了神经机器翻译的时代。
由于decoder的存在，seq2seq模型不仅可以实现语言序列到语言序列的映射，也可以实现图片到语言，以及序列到结构化序列的映射。

2015 Attention

2015年Bahdanau[7]提出的Attention真正使神经机器翻译的效果超过了传统的phrase-based翻译系统。seq2seq中要把整个序列的语义压缩为一个固定大小的向量，而attention通过让decoder能够看到输入序列的隐状态来缓解这个问题。

2015 Memory-based networks

Attention可以看做一种模糊记忆，模型能根据带权重的隐藏状态自主选择抽取什么记忆。在Attention之外，很多包含显式记忆的模型被提出，比如neural turing machines[8], memory networks9], end-to-end memory networks[10]等等。

2018 Pretrained language models

2018年是预训练语言模型元年，以BERT为首的预训练语言模型极大地提高了在神经网络在一系列任务上的效果。

[1] Kneser, R., & Ney, H. (1995, May). Improved backing-off for m-gram language modeling. In icassp (Vol. 1, p. 181e4).

[2] Bengio, Y., Ducharme, R., & Vincent, P. (2001). Proceedings of NIPS.

[3] Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010). Recurrent neural network based language model. In Eleventh Annual Conference of the International Speech Communication Association.

[4] Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.

[5] Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing. In Proceedings of the 25th International Conference on Machine Learning (pp. 160–167).

[6] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural Language Processing (almost) from Scratch. Journal of Machine Learning Research, 12(Aug), 2493–2537. Retrieved from http://arxiv.org/abs/1103.0398.

[7] Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR 2015.

[8] Graves, A., Wayne, G., & Danihelka, I. (2014). Neural turing machines. arXiv preprint arXiv:1410.5401.

[9] Weston, J., Chopra, S., & Bordes, A. (2015). Memory Networks. In Proceedings of ICLR 2015.

[10] Sukhbaatar, S., Szlam, A., Weston, J., & Fergus, R. (2015). End-To-End Memory Networks. In Proceedings of NIPS 2015. Retrieved from http://arxiv.org/abs/1503.08895

Original: https://blog.csdn.net/qq_39540454/article/details/122649416
Author: feiba54
Title: 【Review】自然语言处理发展史中的里程碑总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531700/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据分析及可视化（Matplotlib， Plotly，random）实例：双色球根据往期数据产生随机号码

之前有写过一篇”双色球数据爬取及写入数据库Sqlite、json和Excel表”，是通过网站提供的json网页把数据爬取并存储下来，今天就通过这个数据进行数…

大数据 2023年11月10日
0040
Java基础——Collections工具类

参考操作数组的工具类：Arrays。当Collections工具类的参数列表是Collection时，表示参数可以是set或者List，如果明确表明了参数列表是List或者set…

大数据 2023年6月3日
0063
Apache服务的搭建与配置

1. ServerRoot：服务器的基础目录，一般来说它将包含conf/和logs/子目录，其它配置文件的相对路径即基于此目录。默认为安装目录，不需更改。语法：ServerRo…

大数据 2023年5月27日
0072
sarama的消费者组分析、使用

kafka的go客户端，使用最多的应该是sarama，但以前老的sarama版本不支持消费者组的消费方式，所以大多数人都用sarama-cluster。后来sarama支持了消费…

大数据 2023年6月3日
0089
Redis持久化 | 黑马Redis高级篇

大数据 2023年11月16日
0033
harbor安装

镜像下载、域名解析、时间同步请点击阿里云开源镜像站系统版本：CentOS Linux release 7.6.1810 (Core) docker版本：20.10.12 dock…

大数据 2023年5月27日
0092
shell学习

1、什么是shell和shell脚本 Shell 本身是一个用 C 语言编写的程序，是一个命令行解释器，它的作用就是遵循一定的语法将输入的命令加以解释并传给系统，它是用户使用 …

大数据 2023年5月27日
0087
JVM中的垃圾收集算法和Heap分区简记

如何判断垃圾对象？垃圾收集的第一步就是先需要算法来标记哪些是垃圾，然后再对垃圾进行处理。引用计数（ReferenceCounting）算法这种方法比较简单直观，FlashPl…

大数据 2023年5月28日
0047
【Python】SQLite3的execute函数参数详细说明

Python使用SQLite3在使用execute方法执行数据更新时，如何传递要更新的数据。搜索了挺久，很多博客文章人云亦云，抄来抄去，没有找到有价值的东西。用Bing搜到官方…

大数据 2023年11月10日
0038
数据仓库（跟做）

大数据 2023年11月13日
0033
数据结构核心知识（精简版）

一、数据结构的理解简单地说，数据结构是计算机组织数据和存储数据的方式；即数据结构是指一组相互之间存在一种或多种特定关系的数据的组织方式和它们在计算机内的存储方式，以及定义在该组数…

大数据 2023年6月3日
0094
【Python】SQLite3获取新插入的记录ID及ROWID探究

sqlite是一个非常好用的轻量级数据库，并且python自带操作sqlite的函数库，开箱即用，对新手特别友好。 1. 傻瓜式调用在Python官方API中，sqlite3.C…

大数据 2023年11月11日
0026
Redis 缓存穿透、缓存击穿、缓存雪崩

大数据 2023年11月16日
0045
无监督关键短语的生成问题博客07–create_vocabulary.py的分析

2021SC@SDUSC 本文我们将分析create_vocabulary.py文件，该文件主要的功能是创立了一个词典，统计了文本的所有词和词对应的索引，以便后续的指标的计算和处理…

大数据 2023年5月28日
0075
Ubuntu搭建Pytorch，就这一篇就够了

镜像下载、域名解析、时间同步请点击阿里云开源镜像站第一步：配置镜像源，安装必要环境更换镜像第二步：安装anaconda 1 进入官网 https://www.anaconda…

大数据 2023年5月27日
0076
SQLite数据库基本使用（Java）

一、是什么？ SQLite是一个进程内的轻量级嵌入式数据库，它的数据库就是一个文件，实现了自给自足、无服务器、零配置的、事务性的SQL数据库引擎。它是一个零配置的数据库，这就体现出…

大数据 2023年11月11日
0035

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30