一个基于Bert的情感分类

  1. 问题描述

题目来自于DataFountain上的”疫情期间网民情绪识别”的挑战赛,最终AUC达到了0.734,取得Top5%的成绩。主要内容是分析疫情期间的用户微博极性(分为消极:-1、中性:0、积极:1三种)。本文主要是对数据进行一定分析并做一个以该数据为基础的bert实战记录。

  1. 数据分析

2.1 数据来源

疫情期间网民情绪识别-DataFountain。

1. 训练集:包括微博id等7个列,数据量为10w行。

一个基于Bert的情感分类

2. 测试集:除情感倾向为空外的6个列,数据量为1w行。

2.2 数据预处理

对训练集做了一些分析,首先是用户”情感倾向”,发现存在一些-1、0、1之外的其他 噪声数据,并进行了消除。同时发现用户数据还具有一定的 不平衡性,中性数据较多,如果判别标准是正确率的话,平衡影响并不大,但如果使用F1,就需要一定的trick作为修正,该赛题就是以F1作为评测标准的。

tra

Original: https://blog.csdn.net/MusicDancing/article/details/121344233
Author: MusicDancing
Title: 一个基于Bert的情感分类

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531650/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球