【阿里云天池算法挑战赛】零基础入门NLP – 新闻文本分类-Day3-基于机器学习的文本分类

一、赛题解析

【阿里云天池算法挑战赛】零基础入门NLP – 新闻文本分类-Day1-赛题理解_202xxx的博客-CSDN博客

二、数据读取与数据分析

【阿里云天池算法挑战赛】零基础入门NLP – 新闻文本分类-Day2-数据读取与数据分析_202xxx的博客-CSDN博客

三、机器学习提取文本特征方法

3.1 One-hot

将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。

One-hot表示方法的例子如下：

&#x53E5;&#x5B50;1&#xFF1A;&#x6211; &#x7231; &#x5317; &#x4EAC; &#x5929; &#x5B89; &#x95E8;
&#x53E5;&#x5B50;2&#xFF1A;&#x6211; &#x559C; &#x6B22; &#x4E0A; &#x6D77;

首先对所有句子的字进行索引，即将每个字确定一个编号：

{
    '&#x6211;': 1, '&#x7231;': 2, '&#x5317;': 3, '&#x4EAC;': 4, '&#x5929;': 5,
  '&#x5B89;': 6, '&#x95E8;': 7, '&#x559C;': 8, '&#x6B22;': 9, '&#x4E0A;': 10, '&#x6D77;': 11
}

在这里共包括11个字，因此每个字可以转换为一个11维度稀疏向量：

&#x6211;&#xFF1A;[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
&#x7231;&#xFF1A;[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
...

&#x6D77;&#xFF1A;[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

3.2 Bag of Words

Bag of Words（词袋表示），也称为Count Vectors，每个文档的字/词可以使用其出现次数来进行表示。

&#x53E5;&#x5B50;1&#xFF1A;&#x6211; &#x7231; &#x5317; &#x4EAC; &#x5929; &#x5B89; &#x95E8;
&#x53E5;&#x5B50;2&#xFF1A;&#x6211; &#x559C; &#x6B22; &#x4E0A; &#x6D77;

直接统计每个字出现的次数，并进行赋值：

&#x53E5;&#x5B50;1&#xFF1A;&#x6211; &#x7231; &#x5317; &#x4EAC; &#x5929; &#x5B89; &#x95E8;
&#x8F6C;&#x6362;&#x4E3A; [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

&#x53E5;&#x5B50;2&#xFF1A;&#x6211; &#x559C; &#x6B22; &#x4E0A; &#x6D77;
&#x8F6C;&#x6362;&#x4E3A; [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]

在sklearn中可以直接 CountVectorizer来实现这一步骤：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

3.3 N-gram

N-gram与Count Vectors类似，不过加入了相邻单词组合成为新的单词，并进行计数。

如果N取值为2，则句子1和句子2就变为：

&#x53E5;&#x5B50;1&#xFF1A;&#x6211;&#x7231; &#x7231;&#x5317; &#x5317;&#x4EAC; &#x4EAC;&#x5929; &#x5929;&#x5B89; &#x5B89;&#x95E8;
&#x53E5;&#x5B50;2&#xFF1A;&#x6211;&#x559C; &#x559C;&#x6B22; &#x6B22;&#x4E0A; &#x4E0A;&#x6D77;

3.4 TF-IDF

TF-IDF 分数由两部分组成：第一部分是 词语频率（Term Frequency），第二部分是 逆文档频率（Inverse Document Frequency）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

TF(t)= &#x8BE5;&#x8BCD;&#x8BED;&#x5728;&#x5F53;&#x524D;&#x6587;&#x6863;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570; / &#x5F53;&#x524D;&#x6587;&#x6863;&#x4E2D;&#x8BCD;&#x8BED;&#x7684;&#x603B;&#x6570;
IDF(t)= log_e&#xFF08;&#x6587;&#x6863;&#x603B;&#x6570; / &#x51FA;&#x73B0;&#x8BE5;&#x8BCD;&#x8BED;&#x7684;&#x6587;&#x6863;&#x603B;&#x6570;&#xFF09;

四、 基于机器学习的文本分类

使用词代模型构造3000维特征，用岭回归对特征进行分类，用f1_score计算分类的评分

Count Vectors + RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
import os

data_dir = os.path.abspath("./").replace("competition", "competition_data")

train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=15000)

vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
0.74

使用TF-IDF构造3000维特征，ngram_range=(1,3)进行分词，用岭回归对特征进行分类，用f1_score计算分类的评分

TF-IDF +  RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

data_dir = os.path.abspath("./").replace("competition", "competition_data")

train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=15000)

tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
0.87

四、作业思路

尝试改变TF-IDF的参数，并验证精度

答：通过调整词代模型生成的训练集维度观察最后打分的变化情况以及耗时

&#x4F5C;&#x4E1A;1 &#x8C03;&#x6574;TFIDF&#x5411;&#x91CF;&#x7279;&#x5F81;

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
import time

data_dir = os.path.abspath("./").replace("competition", "competition_data")

train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=15000)

for max_features in [30, 300, 3000, 30000]:
    start  = time.time()
    tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=max_features)
    train_test = tfidf.fit_transform(train_df['text'])

    clf = RidgeClassifier()
    clf.fit(train_test[:10000], train_df['label'].values[:10000])

    val_pred = clf.predict(train_test[10000:])
    print(max_features, f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
    print("&#x8017;&#x65F6;&#xFF1A;", str(time.time()-start))

可以看出，特征随着维度的增加，结果的精度会越高，但是耗时也会随之增加。

30 0.2189540444476877
&#x8017;&#x65F6;&#xFF1A; 33.73664093017578
300 0.6718911185943914
&#x8017;&#x65F6;&#xFF1A; 33.80941700935364
3000 0.8721598830546126
&#x8017;&#x65F6;&#xFF1A; 35.318426847457886
30000 0.8961640609998208
&#x8017;&#x65F6;&#xFF1A; 38.89586901664734

通过控制特征为度为30000，调整n-gram分词参数，观察模型评分的变化情况

&#x4F5C;&#x4E1A;1 &#x8C03;&#x6574;TFIDF&#x7684;ngram_range&#x53C2;&#x6570;

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
import time

data_dir = os.path.abspath("./").replace("competition", "competition_data")

train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=15000)

for ngram_range in [1, 2, 3, 4]:
    start  = time.time()
    tfidf = TfidfVectorizer(ngram_range=(1,ngram_range), max_features=30000)
    train_test = tfidf.fit_transform(train_df['text'])

    clf = RidgeClassifier()
    clf.fit(train_test[:10000], train_df['label'].values[:10000])

    val_pred = clf.predict(train_test[10000:])
    print(ngram_range, f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
    print("&#x8017;&#x65F6;&#xFF1A;", str(time.time()-start))

可以看出随着n-gram最大值的增加，评分逐步增加，但是耗时暴涨，并且到3之后随着n-gram最大值的增加评分变化不大。

1 0.8603325900148268
&#x8017;&#x65F6;&#xFF1A; 5.810247182846069
2 0.8955102528662253
&#x8017;&#x65F6;&#xFF1A; 16.896533012390137
3 0.8961640609998208
&#x8017;&#x65F6;&#xFF1A; 38.89586901664734
4 0.8957080944137796
&#x8017;&#x65F6;&#xFF1A; 304.3434760570526

尝试使用其他机器学习模型，完成训练和验证

答：用随机森林模型替换岭回归模型进行训练

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
import time

data_dir = os.path.abspath("./").replace("competition", "competition_data")
train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=15000)

start  = time.time()
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=30000)
train_test = tfidf.fit_transform(train_df['text'])

#&#x968F;&#x673A;&#x68EE;&#x6797;
clf = RandomForestClassifier(random_state = 100,
                            min_samples_split = 3,
                            n_estimators = 100,
                            oob_score = True,
                            verbose = 2,
                            class_weight = "balanced",
                            n_jobs = 10)#&#x8FDB;&#x7A0B;&#x6570;
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print"f1_score:", f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
print("&#x8017;&#x65F6;&#xFF1A;", str(time.time()-start))

随机森林耗时38秒，f1评分为0.849

f1_score: 0.8495898388161273
&#x8017;&#x65F6;&#xFF1A; 38.263571977615356

切换所有数据进行训练

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
import time

data_dir = os.path.abspath("./").replace("competition", "competition_data")
train_df = pd.read_csv(os.path.join(data_dir, 'data/train_set.csv'), sep='\t', nrows=None)

start  = time.time()
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=30000)
train_test = tfidf.fit_transform(train_df['text'])

#&#x968F;&#x673A;&#x68EE;&#x6797;
clf = RandomForestClassifier(random_state = 100,
                            min_samples_split = 3,
                            n_estimators = 100,
                            oob_score = True,
                            verbose = 2,
                            class_weight = "balanced",
                            n_jobs = 10)#&#x8FDB;&#x7A0B;&#x6570;
clf.fit(train_test[:-10000], train_df['label'].values[:-10000])
val_pred = clf.predict(train_test[-10000:])
print("f1_score:", f1_score(train_df['label'].values[-10000:], val_pred, average='macro'))
print("&#x8017;&#x65F6;&#xFF1A;", str(time.time()-start))

随机森林耗时1947.7秒，f1评分为0.9098

f1_score: 0.8495898388161273
&#x8017;&#x65F6;&#xFF1A; 38.263571977615356

五、总结

【阿里云天池算法挑战赛】零基础入门NLP - 新闻文本分类-Day3-基于机器学习的文本分类

模型优化建议，通过调整特征提取模型TF-IDF的参数，或者替换更好的特征提取模型。或者替换更好的分类器，并对分类器的参数进行调优。

六、Reference

tianchi_competition/零基础入门NLP – 新闻文本分类 at main · RxxxxR/tianchi_competition · GitHub

Datawhale零基础入门NLP赛事 – Task2 数据读取与数据分析-天池实验室-实时在线的数据分析协作工具，享受免费计算资源

Original: https://blog.csdn.net/weixin_37474682/article/details/121088074
Author: 202xxx
Title: 【阿里云天池算法挑战赛】零基础入门NLP – 新闻文本分类-Day3-基于机器学习的文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531940/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31