金融科技之NLP：上市公司新闻标题分类

2023年5月31日上午4:34 • 人工智能 • 阅读 122

本文的目标

本文的目标是训练出上市公司新闻的分类模型，根据新闻标题将上市公司的新闻自动分为利好、利空和模糊中性三类。

本文是创新创业项目第一阶段的技术总结，只给出了设计方法和结果，不提供源码。

实现步骤

1.获取原始数据

使用爬虫调用百度搜索引擎的接口，获取了10000余条沪深300成分股的新闻。

部分结果展示：

; 2.原始数据人工标注

从10000余条原始数据中选取来源于主流媒体的8000条数据，由人工根据新闻标题进行标注，分为利好、利空、模糊中性和数据存在问题4类。每条数据将由两名同学独立标注，拥有两个标签，汇总时只保留两个同学标准结果相同的数据，以提高标注数据的质量。

部分标注数据如下图所示。

将只有一个标注结果的数据筛掉，得到6000余条带标注的数据。其中两个标注相同的数据约4000条，将这4000余条数据作为样本。

3.样本数据分析

3.1 样本类别分布

样本的类别分布如下图所示。

; 3.2 数据清洗

数据清洗阶段的工作：

1.清洗掉上市公司的名称，因为公司的名词会多次出现，但本身并没有偏向性，影响训练结果。

2.只保留汉字。

3.3 词频统计

使用jieba库对标题数据分词，统计每个类别的标题中各词出现的频率。

各类别标题中出现次数前20的词以及词频。
利好类 count 利空类 count 模糊中性类 count

万元610万元412公司86日420净利润245的45月418年225万元30净利润416年度209拟30年368亿元195日29增长312同比193月28同比303亏损181股东28净利298预计165为26一季度282下降155减持25净278约132净25亿元278一季度124亿元25预计228日124股份23买入214月115融资22年度200归母98有限公司19融资184净利97业务19快速169第一季度87目前19第一季度156净亏损76股权18公司148减少73年18约148万66子公司17偿还146业绩64偿还17

4 特征构建

4.1 单词偏向性特征构建

从3.3的结果中可以明显得看出，中性的词在各类别中出现的次数都较多，如万元、公司、年、月、日等，但这些词本身没有太多有价值的信息。

需要构建一个指标，来量化一个词对某一类的偏向性。

假设单词个数为n，类别数量为m

我们采用的算法如下：

step1：对于每一类，将该类新闻标题包含的单词按照出现的频率降序排序，每一个单词在每一类中都有一个排序后的位置序号。index[word_i][cls_j]即为单词word_i在cls_j类中按照出现频率降序排序后的位置。

step2: 对于单词word_i，其对新闻类别cls_j的偏向性分数定义为：

score[word_i][cls_j] = sigma(index[word_j][cls_k],k不等于j)/ (m-1）- index[word_i][cls_j]

即该单词在其他类别中的位置序号的均值减去在该类别中的位置序号。

将单词根据利好偏向性降序排序：

将单词根据利空偏向性降序排序：

可见，构建的单词对类别的偏向性指标可以有效地量化一个单词对一个类别的偏向程度。

; 4.2 标题偏向性特征构建

一个标题对某个类别的偏向性计算步骤：

1、将标题分词

2、计算每一个单词对该类别的偏向性

3、求该标题包含的所有单词对该类别的偏向性的均值，该均值就是标题对该类别的偏向性。

4.3 标题分类模型的特征选取

每一个标题构建3个维度的特征，即该标题对利好、利空、模糊中性三个类别的偏向性。

样本点在三个维度构成的空间中的分布如下图所示。

可以看到，样本点按照类别在三维空间中分布范围特别明显，说明这三个特征对样本的分类很有帮助。

; 5 模型训练与评价

使用SVM训练分类器。

使用5折交叉验证对模型的过拟合情况进行检测,5次训练-测试的模型 f1-score的均值为0.866

具体为

0.852, 0.867, 0.855, 0.866, 0.883

6 优化方向

1.使用专业的金融词典进行分词

2.更多的样本

Original: https://blog.csdn.net/weixin_43915798/article/details/116808904
Author: cjh_hit
Title: 金融科技之NLP：上市公司新闻标题分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548694/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SpringBoot整合MongoDB

1、集成简介 spring-data-mongodb提供了MongoTemplate与MongoRepository两种方式访问mongodb，MongoRepository操作简…

人工智能 2023年6月28日
0072
【TGRS】Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention译读笔记

论文信息 Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention …

人工智能 2023年7月12日
0064
TFN T6300A 网络综合测试仪以太网数据千兆以太网测试仪 OTDR E1 PRI V.35/V.24 光功率计一体机

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
00106
Cox回归+Cox比例风险回归模型

Cox回归+Cox比例风险回归模型 COX回归模型，又称” 比例风险回归模型(proportional hazards model，简称Cox模型)”，是由…

人工智能 2023年6月18日
0098
Educoder 机器学习决策树使用之使用决策树预测隐形眼镜类型

任务描述相关知识如何处理隐形眼镜数据集编程要求测试说明任务描述本关任务：编写一个例子讲解决策树如何预测患者需要佩戴的隐形眼镜类型。使用小数据集，我们就可以利用决策树学到…

人工智能 2023年6月19日
00109
神经网络方法——美国波士顿房价(回归问题)

一、回归问题——线性回归和softmax回归线性回归—指一类为一个或多个自变量之间的关系建立模型的方法。在自然科学领域和社会科学领域，回归经常表示输入和输出的关系。二、美国波…

人工智能 2023年6月18日
0074
深度学习之图像分类（十二）–MobileNetV3网络结构

深度学习之图像分类（十二）MobileNetV3 网络结构目录 * – 深度学习之图像分类（十二）MobileNetV3 网络结构 – + 1. 前言 +…

人工智能 2023年7月23日
0069
【youcans 的 OpenCV 例程200篇】171.SLIC 超像素区域分割

OpenCV 例程200篇总目录-202205更新【youcans 的 OpenCV 例程200篇】171.SLIC 超像素区域分割 5. 区域分割之聚类方法 5.2 基于超像…

人工智能 2023年6月20日
0092
序列标注–词性英文对照表

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0081
【Python】界面设计——GUI编程之【PyQt5】

文章目录一. PyQt5基础 * (一) 窗口显示 (二) PyQt5程序结构分析 – 1. 导入需要的包和模块 2. 创建一个应用程序对象 3. 控件的操作 + 3…

人工智能 2023年7月4日
0085
Python数据分析与机器学习44-Python生成时间序列

文章目录一. Python 生成时间序列二.生成不同间隔的时间序列三. 截断时间段四. 时间戳及时间计算五. 数据重采样六. 移动窗口函数参考：一. Python …

人工智能 2023年7月16日
0074
如何开启你的元宇宙社交之路？元宇宙社交产品推荐 #Bigscreen #元名片

今天元名片刷屏了元名片是一款产品？太卷了。。做个名片都要数字人（个人信息已遮挡）挺有趣的，丰富销售内容，容易拉近客情关系这个让我想起了有的景区里有傻傻的虚拟人向你讲解历史 …

人工智能 2023年6月1日
0092
Gradien

人工智能 2024年1月1日
0052
YOLOX自定义数据集训练（抢先踩坑）

序言昨天被YOLOX刷屏了，各大公众号强推：性能超yolov5！！吊打一切yolo！！看麻了我，标题还能再夸张点嘛？出于对前沿技术的渴望，还是要去学习学习，论文中改进了很多地…

人工智能 2023年7月5日
0098
PyTorch 最新安装教程（2021-07-27）

万事开头难！这句话又一次被我验证。记得前不久刚陷入 Tensorflow2.0的安装困境，这一次又被 PyTorch 搞哭辽。孩子太难了o(╥﹏╥)o，不过还好最终成功安装，…

人工智能 2023年5月24日
0099
OpenGL ES 2.0 和 3.0区别

目录一.嵌入式设备的 OpenGL ES 版本二.兼容性三.着色器脚本 1.OpenGL ES shader 2.0 2.OpenGL ES shader 3.0 3.版本声…

人工智能 2023年6月18日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31