NLP之文本分类(二)—FastText

2023年5月28日上午12:02 • 人工智能 • 阅读 75

参考资料：
https://blog.csdn.net/feilong_csdn/article/details/88655927
https://fasttext.cc/docs/en/supervised-tutorial.html
https://fasttext.cc

1. 背景：

fasttext文本分类效率较高，可以快速生成文本分类baseline，本文主要是了解fasttext核心优化点，以及熟悉官网python版本模型训练与预测。
将doc的词以及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。核心是模型结构与word2vector的cbow模型结构类似，但是fasttext的输出是全部文档词，输出是文档的分类标签。

通过分层softmax 提高模型训练的效率，因为原始softmax多分类需要计算所有的分类标签值，并做一次归一化，当分类标签比较大时，有些耗时，因此引入分层softmax。我理解分层softmax后，只需要关注根节点到叶子节点的路径预测，不需要关注其他分类标签（这里需要确认下，感觉还是没弄懂）。
softmax 回归：隐藏层与所有的node进行连接（inner 与leaf）

分层softmax回归：

输入增加n-gram特征，这个是跟word2vector差异
模型包含两部分输出：词向量输出，文本分类。
官网模型优化几个trick：多个epoch训练，学习率调整，加入n-gram， lr=0.5, epoch=25, wordNgrams=2，loss 改为 loss=’hs’，可提高训练速度

paper: https://arxiv.org/abs/1607.01759
fasttext Git：https://github.com/facebookresearch/fastText
fasttext官网：https://fasttext.cc/
数据：https://dl.fbaipublicfiles.com/fasttext/data/cooking.stackexchange.tar.gz

; 2. 运行demo

参考官网运行代码，跑了一遍，主要关注效果如何提升。
https://fasttext.cc/docs/en/supervised-tutorial.html

## &#x5B89;&#x88C5;python &#x7248;&#x672C;fasttext
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ pip install .
## &#x9A8C;&#x8BC1;&#x662F;&#x5426;&#x5B89;&#x88C5;&#x6210;&#x529F;&#xFF1A;
import fasttext

## &#x4E0B;&#x8F7D;&#x6570;&#x636E;
linux
>> wget https://dl.fbaipublicfiles.com/fasttext/data/cooking.stackexchange.tar.gz && tar xvzf cooking.stackexchange.tar.gz
>> head cooking.stackexchange.txt
## &#x67E5;&#x770B;&#x6837;&#x672C;&#x6570;
>> wc cooking.stackexchange.txt
   15404  169582 1401900 cooking.stackexchange.txt

## &#x6570;&#x636E;&#x5206;&#x5272;&#x4E3A;&#x8BAD;&#x7EC3;&#x4E0E;&#x6D4B;&#x8BD5;&#x96C6;
#python
>> head -n 12404 cooking.stackexchange.txt > cooking.train
>> tail -n 3000 cooking.stackexchange.txt > cooking.valid

数据example
模型训练

## &#x6A21;&#x578B;&#x8BAD;&#x7EC3;
import fastext
model = fasttext.train_supervised(input="cooking.train")
Read 0M words
Number of words:  14543
Number of labels: 735
Progress: 100.0% words/sec/thread:   31007 lr:  0.000000 avg.loss: 10.164967 ETA:   0h 0m 0s

## &#x4FDD;&#x5B58;&#x6A21;&#x578B;&#x6587;&#x4EF6;
model.save_model("model_cooking.bin")

## &#x6A21;&#x578B;&#x9884;&#x6D4B;
model.predict("Which baking dish is best to bake a banana bread ?")

(('__label__baking',), array([0.0851237]))

## &#x6A21;&#x578B;&#x5728;&#x9A8C;&#x8BC1;&#x96C6;&#x4E0A;&#x9A8C;&#x8BC1;
model.test("cooking.valid")
(3000L, 0.124, 0.0541)&#xFF0C; precesion&#xFF0C; recall&#xFF0C; &#x9ED8;&#x8BA4;&#x662F;top1 &#x7684;&#x8BC4;&#x4F30;&#x7ED3;&#x679C;

 model.test("cooking.valid", k=5) &#xFF0C; top5&#x7684;&#x51C6;&#x786E;&#x7387;&#x4E0E;&#x53EC;&#x56DE;&#x7387;
(3000L, 0.0668, 0.146)

## &#x8F93;&#x51FA; top5 &#x5206;&#x7C7B;&#x6807;&#x7B7E;
>>> model.predict("Why not put knives in the dishwasher?", k=5)
((u'__label__food-safety', u'__label__baking', u'__label__equipment', u'__label__substitutions', u'__label__bread'), array([0.0857 , 0.0657, 0.0454, 0.0333, 0.0333]))

模型优化

## &#x6570;&#x636E;&#x5904;&#x7406;&#xFF0C; &#x5927;&#x5C0F;&#x5199;&#x8F6C;&#x5316;&#xFF0C; &#x6570;&#x636E;&#x6807;&#x51C6;&#x4E9B;
#linux
>> cat cooking.stackexchange.txt | sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > cooking.preprocessed.txt
>> head -n 12404 cooking.preprocessed.txt > cooking.train
>> tail -n 3000 cooking.preprocessed.txt > cooking.valid

## &#x6A21;&#x578B;&#x8BAD;&#x7EC3;&#x66F4;&#x591A;epoch
#python
>>> model = fasttext.train_supervised(input="cooking.train")
Read 0M words
Number of words:  8952
Number of labels: 735
Progress: 100.0% words/sec/thread:   33793 lr:  0.000000 avg.loss: 10.410798 ETA:   0h 0m 0s

>>> model = fasttext.train_supervised(input="cooking.train", epoch=25)
Read 0M words
Number of words:  8952
Number of labels: 735
Progress: 100.0% words/sec/thread:   35564 lr:  0.000000 avg.loss:  7.241970 ETA:   0h 0m 0s

>>> model.test("cooking.valid")
(3000, 0.522, 0.22574599971169093)  ## &#x6570;&#x636E;&#x6807;&#x51C6;&#x5316;&#x540E;&#xFF0C;&#x6548;&#x679C;&#x6709;&#x4E9B;&#x63D0;&#x5347;

##  learing rate 0.1 - 1.0
model = fasttext.train_supervised(input="cooking.train", lr=1.0, epoch=25)
Read 0M words
Number of words:  8952
Number of labels: 735
Progress: 100.0% words/sec/thread:   36017 lr:  0.000000 avg.loss:  4.563952 ETA:   0h 0m 0s  # loss &#x660E;&#x663E;&#x4E0B;&#x964D;&#x4E86;&#x6BD4;&#x8F83;&#x591A;&#xFF0C; &#x5B66;&#x4E60;&#x7387;&#x5F71;&#x54CD;&#x633A;&#x5927;&#x7684;

>>> model.test("cooking.valid")
(3000, 0.588, 0.2542885973763875)  # &#x4FEE;&#x6539;&#x5B66;&#x4E60;&#x7387;&#x540E;&#xFF0C; &#x6548;&#x679C;&#x6709;&#x63D0;&#x5347;

### &#x52A0;&#x5165;n-gram &#x7279;&#x5F81;&#x3002;&#x5BF9;&#x4E8E;&#x5206;&#x7C7B;&#x4EFB;&#x52A1;&#x8BCD;&#x7684;&#x8FDE;&#x7EED;&#x6027;&#x6BD4;&#x8F83;&#x91CD;&#x8981;&#x3002;
>>> model = fasttext.train_supervised(input="cooking.train", lr=1.0, epoch=25, wordNgrams=2)
Read 0M words
Number of words:  8952
Number of labels: 735
Progress: 100.0% words/sec/thread:   35100 lr:  0.000000 avg.loss:  3.208134 ETA:   0h 0m 0s. ## &#x8F93;&#x5165;&#x52A0;&#x5165;ngram&#x540E;&#xFF0C;loss&#x660E;&#x663E;&#x4E0B;&#x964D;

>>> model.test("cooking.valid")
(3000, 0.6066666666666667, 0.2623612512613522) # &#x8F93;&#x5165;&#x52A0;&#x5165;ngram&#x7279;&#x5F81;&#xFF0C; &#x6548;&#x679C;&#x6709;&#x63D0;&#x5347;

&#x6CE8;&#x610F; ngram&#x5206;&#x4E3A;&#x5B57;ngram&#xFF0C; &#x8BCD;ngram&#x3002;

大数据上使用层次softmax进行模型训练

>>> model = fasttext.train_supervised(input="cooking.train", lr=1.0, epoch=25, wordNgrams=2, bucket=200000, dim=50, loss='hs')
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 2199406  lr: 0.000000  loss: 1.718807  eta: 0h0m

多标签分类：Multi-label classification

 loss = &#x2018;ova&#x2019; &#x8868;&#x793A; one -vs - all
>>> model = fasttext.train_supervised(input="cooking.train", lr=0.5, epoch=25, wordNgrams=2, bucket=200000, dim=50, loss='ova')
Read 0M words
Number of words:  14543
Number of labels: 735
Progress: 100.0% words/sec/thread:   72104 lr:  0.000000 loss:  4.340807 ETA:   0h 0m

&#x53EA;&#x4FDD;&#x7559;&#x9608;&#x503C;>0.5&#x7684;lable
>>>model.predict("Which baking dish is best to bake a banana bread ?", k=-1, threshold=0.5)

Original: https://blog.csdn.net/zhouwenyuan1015/article/details/124132146
Author: Catherine_In_Data
Title: NLP之文本分类(二)—FastText

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528272/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CUDA和cudnn的安装

CUDA和cudnn的安装一、CUDA的安装 * 1.1 查看显卡驱动版本 1.2 下载CUDA 1.3 安装CUDA 1.4 设置环境变量 1.5 测试CUDA是否装好二、c…

人工智能 2023年7月21日
0086
Jupyter中安装深度学习pytorch框架并import torch测试

目录（装前必看）一.安装pytorch 二.在Jupyter中嵌入pytorch 本文记录一下自己在本机安装pytorch框架时候的流程以及遇到的问题。（装前必看）本文参考…

人工智能 2023年7月22日
0090
kaldi thchs30使用自己的数据和字典训练tdnn模型

一、生成语言模型 1、需要准备 lexicon.txt声学字典；words.txt语料：lexicon.txt字典删除所有的音素即是；phones.txt语料：lexicon.tx…

人工智能 2023年5月25日
00127
Anaconda的下载和安装（保姆级别教程）

Anaconda的下载、安装及使用 * – anaconda简介 – anaconda下载 – anaconda安装 – anaco…

人工智能 2023年7月6日
0052
Python基础知识入门（二）

Python基础知识入门（一） Python基础知识入门（三） Python基础知识入门（四） Python基础知识入门（五）一、数字类型 Python 数字数据类型用于存储数值…

人工智能 2023年7月30日
0059
智能优化算法：分类、特点和未来

文章目录定义描述联系与区别 * 分类简述找相同找不同研究方向 * 创新点在哪里？就业前景如何？科研前景如何？定义描述本文从一个经典的优化函数开始，引出智能优化算法…

人工智能 2023年7月3日
0097
阿里云天池零基础入门NLP – 新闻文本分类 2种做法，F1=0.87

代码： import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from s…

人工智能 2023年7月1日
0054
高斯滤波 c++实现

高斯滤波 To smooth the image, a Gaussian filter kernel is convolved with the image. 高斯滤波的实质就是用…

人工智能 2023年7月18日
0069
clion配置opencv

clion配置opencv clion配置opencv * 1安装clion 2配置mingw 3opencv下载与配置 4clion+opencv的测试 clion配置openc…

人工智能 2023年7月28日
0063
在 Pandas 中使用 Merge、Join 、Concat合并数据的效率对比

在 Pandas 中有很多种方法可以进行DF的合并。本文将研究这些不同的方法，以及如何将它们执行速度的对比。合并DF Pandas 使用 .merge() 方法来执行合并。 im…

人工智能 2023年7月6日
0075
python DataFrame数据分组统计groupby()函数，值得推荐

通过字典和 Series 对象进行分组统计 * 4.1通过一个字典 4.2通过一个Series groupby基本用法 ============================…

人工智能 2023年6月19日
0083
shape_based_matching代码解读0422

写作本系列文章旨在就个人学习该论文及其开源项目做一个学习分享和交流。原论文篇名：Gradient Response Maps for Real-TimeDetection of …

人工智能 2023年6月18日
0084
《AdaFace: Quality Adaptive Margin for Face Recognition》用于人脸识别的图像质量自适应边缘损失

方法简介：（1）介绍了损失函数中自适应性的另一个方面，即图像质量。（2）强调误分类样本的策略应根据其图像质量进行调整。（3）提出了一种新的损失函数，该函数根据图像质量强调不同…

人工智能 2023年6月18日
0071
数据分析：新冠疫情实时数据爬取

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0078
VMware虚拟机无法运行Gazebo，Gazebo闪退打不开，报错[Err] [REST.cc:205] Error in REST request的一种解决办法

前言在VMware上使用ROS Gazebo的时候，碰到了Gazebo打不开或者打开就闪退的情况，也没有任何报错，初始化页面运行一秒之后就会退出的问题。经过在Gazebo论坛上和…

人工智能 2023年6月2日
00123
训练集和验证集的划分是AI算法中常见的细节问题之一。合理划分训练集和验证集可以避免过拟合问题，提高模型的泛化能力

问题说明在AI算法中，训练集和验证集的划分是一个关键细节问题。合理划分训练集和验证集可以避免过拟合问题并提高模型的泛化能力。本文将详细介绍训练集和验证集划分的原理、算法和代码实现…

人工智能 2024年1月6日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP之文本分类(二)—FastText

1. 背景：

; 2. 运行demo

大家都在看