【初学者入门】零基础入门NLP – 新闻文本分类

2023年7月1日上午3:57 • 人工智能 • 阅读 83

序言

从今天开始入门学习NLP，虽然有点晚，但是我觉得 任何时候都值得开始，尤其是面对你去感兴趣的事情。今天的任务是【零基础入门NLP – 新闻文本分类】，这是天池大赛中的入门级算法比赛，入口链接请自取【在这里】。目前正式赛已经结束了，不过赛道同时也开放了长期赛，正好适合我这样的新手练习和学习。

理解题意
简单总结一下。赛题中的文本数据来源于新闻文本，但是所有文本内容已经按照字符集进行匿名处理。总共有14个待分类的类别，包括：科技，股票，体育，娱乐，时政等。所提供的训练数据的数据量是20w，测试数据的数据量是5w。接下来我们利用pandas读取并先初步了解数据的整体情况。
评估指标：类别f1_score的均值
*数据


train_data = pd.read_csv("dataset/train_set.csv", sep='\t')
print(train_data.head(5))
"""
                                         label\ttext
0  2\t2967 6758 339 2021 1854 3731 4109 3792 4149...

1  11\t4464 486 6352 5619 2465 4802 1452 3137 577...

2  3\t7346 4068 5074 3747 5681 6093 1777 2226 735...

3  2\t7159 948 4866 2109 5520 2490 211 3956 5520 ...

4  3\t3646 3055 3055 2490 4659 6065 3370 5814 246...

print(train_data.describe())
"""
"""
               label
count  200000.000000
mean        3.210950
std         3.084955
min         0.000000
25%         1.000000
50%         2.000000
75%         5.000000
max        13.000000
"""

train_data['text_len'] = train_data['text'].apply(lambda x : len(x.split(' ')))
print(train_data['text_len'].describe())

"""
count    200000.000000
mean        907.207110
std         996.029036
min           2.000000
25%         374.000000
50%         676.000000
75%        1131.000000
max       57921.000000
Name: text_len, dtype: float64
"""


import matplotlib.pyplot as plt

plt.hist(train_data['text_len'],bins=100)
plt.xlabel('Length')
plt.ylabel('Numbers')
plt.title('Histogram of xinwen length')
plt.show()


train_data['label'].value_counts().plot(kind='bar')
plt.title('Histogram of category')
plt.xlabel("category")
plt.ylabel("Numbers")
plt.show()

"""
{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}
类别的分布也不是平衡的，甚至可以说差距还是蛮大的

解决思路

思路一：词频权重岭回归分类器

def count_rl():
"""
    tfidf + 岭回归分类器
    :return:
"""
    df = pd.read_csv('dataset/train_set.csv', sep='\t')
    CountVec = CountVectorizer(max_features=4000)
    train_text = CountVec.fit_transform(df.text)

    words = CountVec.get_feature_names_out()
    print("个数：{} 单词：{}".format(len(words), words))

    x_train, x_val, y_train, y_val = train_test_split(train_text, df.label, test_size=0.25, random_state=0)

    clf = RidgeClassifier()
    clf.fit(x_train, y_train)

    val_pre = clf.predict(x_val)
    score_f1 = f1_score(y_val, val_pre, average='macro')

    print('CountVectorizer + RidgeClassifier : %.4f' % score_f1)

    test_df = pd.read_csv('dataset/test_a.csv')
    test_count = CountVec.transform(test_df.text)
    test_pre = clf.predict(test_count)
    write_the_result(test_pre, "results/test_result_cv_rl.csv")

测试集上的结果可达0.8165

思路二：词频权重岭回归分类器

def tfidf_rl():
"""
    tfidf + 岭回归分类器
    :return:
"""

    df = pd.read_csv('dataset/train_set.csv', sep='\t')

    Tfidf = TfidfVectorizer(max_features=4000)
    train_tfidf = Tfidf.fit_transform(df.text)

    x_train, x_val, y_train, y_val = train_test_split(train_tfidf, df.label, test_size=0.25, random_state=0)

    clf = RidgeClassifier()
    clf.fit(x_train, y_train)

    val_pre = clf.predict(x_val)
    score_f1 = f1_score(y_val, val_pre, average='macro')

    print('Tfidf + RidgeClassifier : %.4f' % score_f1)

    test_df = pd.read_csv('dataset/test_a.csv')
    test_tfidf = Tfidf.transform(test_df.text)
    test_pre = clf.predict(test_tfidf)
    write_the_result(test_pre, "results/test_result_tfidf_rl.csv")

测试集上的结果可达0.8835

完整代码

点击自取，一起学习。【在这里】

随后如果有更多的解题思路，我也会持续更新。最后再引用一句蔡元培先生的话作为文章的结尾吧。

“今日所与诸君陈说者只此，以后会晤日长，随时再为商榷可也。”

Original: https://blog.csdn.net/qq_42411587/article/details/124339757
Author: DTOFF
Title: 【初学者入门】零基础入门NLP – 新闻文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662631/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言矩阵matrix数据类型、生成示例matrix数据、为矩阵添加行名称和列名称、使用中括号[]索引matrix数据、矩阵matrix实战

以下是一个用 C 语言编写的矩阵_运算 _示例_代码，可以处理三 _行_四 _列_的 double 类型 _数据： `c #include Original: https://b…

人工智能 2023年6月11日
0087
【毕业设计/课程设计】基于opencv的高精度人脸识别考勤系统设计与实现

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月23日
0078
Prompt-Tuning——深度解读一种新的微调范式

Prompt-Tuning——深度解读一种全新的微调范式作者：王嘉宁邮箱：lygwjn@126.com转载请注明出处：https://wjn1996.blog.csdn.net…

人工智能 2023年7月27日
0063
qy2音乐格式转换mp3_怎么转化音频格式？常见的音频格式转换方法

这是一款专业的多功能音频格式转换器，支持普通音频格式转换、多音频合并、音频压缩，也支持音频分段。它可以说是一个非常强大的音频转换器。而且软件还支持文件的批量操作，提高了我们的工作效…

人工智能 2023年5月27日
0056
【手把手教你】利用神经网络构建量化交易策略

0 1 引言神经网络一开始是为了研究人脑图并了解人类如何做出决策，而算法试图从交易方面消除人类情绪的影响。我们有时没有意识到的是，人脑很可能是这个世界上最复杂的机器，并且众所周知…

人工智能 2023年7月14日
0081
OpenPCDet docker镜像分享

文章目录 1. 文件说明 2. 使用 * 2.1 解压代码文件 2.2 加载镜像文件 2.3 运行容器 – 2.3.1 docker在本机运行，在本机显示图形界面 2….

人工智能 2023年7月12日
0086
吴恩达《深度学习》笔记汇总

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月29日
0069
神经网络激活函数与求导

文章目录 * – + 神经网络激活函数求导 + * 1、Sigmoid 激活函数 * 2、Tanh 激活函数 * 3、Softmax 激活函数神经网络激活函数求导 1…

人工智能 2023年7月14日
0068
rknn（rknpu）使用笔记

rknn如何转换模型对于不同的芯片，需要不同的工具： RKNN-Toolkit1 v1.7.1 (for RK3399pro/RK1808/RV1126/RV1109) &amp…

人工智能 2023年7月26日
0074
Pytorch框架–知识图谱可视化展示

文章目录摘要一. Pytorch框架基础学习 * 1.1 Dataset类的实战 1.2 tensorboard的使用 1.3 transforms如何使用 1.4 常见的Tr…

人工智能 2023年6月1日
0082
轻轻松松用16行Python代码实现实时语音识别（附源码）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0099
【python】———merge函数

@爱学习的DUO 目录 * – 1 数据读取（A、B表） – 2 当右表无重复项 – 3 当右表有重复项 – + 3.1 数据读取（…

人工智能 2023年7月4日
0059
使用python读取和保存为excel、csv、txt文件以及对DataFrame文件的基本操作

文章目录一、对excel文件的处理 * 1.读取excel文件并将其内容转化DataFrame和矩阵形式 2.将数据写入xlsx文件 3.将数据保存为xlsx文件 4.使用exc…

人工智能 2023年7月4日
0098
使用车辆座椅上的压电传感器无创检测呼吸和心率

关键词：高级自动碰撞通知；座椅传感器；呼吸频率；心率；心冲击描记术（BCG）；压电传感器这个设计使用专为生产乘用车中的乘员分类而设计的座椅压电传感器在实验室环境中测量乘员的呼吸率…

人工智能 2023年6月2日
0057
影像组学标签（radiomic signature）、影像组学评分运算公式（rad-score）

影像组学标签（radiomic signature）、影像组学评分运算公式（rad-score）在医学领域，影像组学是一种利用数据特征化算法从医学图像中提取大量特征的方法。这些特…

人工智能 2023年6月19日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【初学者入门】零基础入门NLP – 新闻文本分类

“今日所与诸君陈说者只此，以后会晤日长，随时再为商榷可也。”

大家都在看