科技报告数据语料处理（关键词、中图分类名称）

2023年10月31日上午8:15 • Python • 阅读 42

科技报告语料处理

接着上次爬取到的科技报告数据进行处理【参考 https://www.cnblogs.com/rainbow-1/p/16725576.html】

为了建立科技报告的分类模型，现将其 关键字和中图分类名称进行汇总，作为原始语料库。

先前爬取的数据，存在数据格式不统一不规范的问题，比如分类名称为【数理科学与化学、数理科学和化学分为了同一类】

经过简单处理后的完整数据（mysql和txt都有，包括本文中提到的原始语料资源）可以关注我的公众号【靠谱杨阅读人生】回复【科技报告】获取。

语料共计 359141 行。

1、标准表

分类字母序号+名称 tech_class.json

{
  "R": "医药、卫生",
  "TB": "一般工业技术",
  "Q": "生物科学",
  "O": "数理科学和化学",
  "S": "农业科学",
  "T": "工业技术",
  "TP": "自动化技术、计算机技术",
  "P": "天文学、地球科学",
  "TN": "无线电电子学、电信技术",
  "TG": "金属学与金属工艺",
  "TH": "机械、仪表工业",
  "TQ": "化学工业",
  "C": "社会科学总论",
  "X": "环境科学、安全科学",
  "TU": "建筑科学",
  "TS": "轻工业、手工业",
  "TK": "能源与动力工程",
  "TM": "电工技术",
  "TD": "矿业工程",
  "F": "经济",
  "G": "文化、科学、教育、体育",
  "TV": "水利工程",
  "U": "交通运输",
  "N": "自然科学总论",
  "TE": "石油、天然气工业",
  "TF": "冶金工业",
  "TJ": "武器工业",
  "V": "航空、航天",
  "B": "哲学、宗教",
  "TL": "原子能技术",
  "K": "历史、地理",
  "D": "政治、法律",
  "J": "艺术",
  "H": "语言、文字",
  "E": "军事",
  "Z": "综合性图书",
  "I": "文学",
  "A": "mks主义、ln主义、mzd思想、dxp理论"
}

仅分类名称 tech_name.txt

医药、卫生
一般工业技术
生物科学
数理科学和化学
农业科学
工业技术
自动化技术、计算机技术
天文学、地球科学
无线电电子学、电信技术
金属学与金属工艺
机械、仪表工业
化学工业
社会科学总论
环境科学、安全科学
建筑科学
轻工业、手工业
能源与动力工程
电工技术
矿业工程
经济
文化、科学、教育、体育
水利工程
交通运输
自然科学总论
石油、天然气工业
冶金工业
武器工业
航空、航天
哲学、宗教
原子能技术
历史、地理
政治、法律
艺术
语言、文字
军事
综合性图书
文学
mks主义、ln主义、mzd思想、dxp理论

分类名称+语料数字序号 tech_order_class.json

{
  "医药、卫生": "0",
  "一般工业技术": "1",
  "生物科学": "2",
  "数理科学和化学": "3",
  "农业科学": "4",
  "工业技术": "5",
  "自动化技术、计算机技术": "6",
  "天文学、地球科学": "7",
  "无线电电子学、电信技术": "8",
  "金属学与金属工艺": "9",
  "机械、仪表工业": "10",
  "化学工业": "11",
  "社会科学总论": "12",
  "环境科学、安全科学": "13",
  "建筑科学": "14",
  "轻工业、手工业": "15",
  "能源与动力工程": "16",
  "电工技术": "17",
  "矿业工程": "18",
  "经济": "19",
  "文化、科学、教育、体育": "20",
  "水利工程": "21",
  "交通运输": "22",
  "自然科学总论": "23",
  "石油、天然气工业": "24",
  "冶金工业": "25",
  "武器工业": "26",
  "航空、航天": "27",
  "哲学、宗教": "28",
  "原子能技术": "29",
  "历史、地理": "30",
  "政治、法律": "31",
  "艺术": "32",
  "语言、文字": "33",
  "军事": "34",
  "综合性图书": "35",
  "文学": "36",
  "mks主义、ln主义、mzd思想、dxp理论": "37"
}

基本思路，提取各个分类报告中的【关键词和中图分类名称】。用 \t 分隔关键词和名称，关键词中间用英文逗号分隔。

实现效果如图：【序号是从0开始的 0 —> 医药、卫生】

2、代码

2.1、data_clean.py

提取关键词和名称，保存到tech_all.txt文件（数据库如文首所示方式关注公众号自行获取）

import json

from nlp_demo.tech_clean.utils_mysql import query

def get_class_json():
    f_class = open ("../tech_data/tech_name.txt", "r", encoding='utf-8')
    res_dict = {}
    while True:
        line = f_class.readline()
        if line:
            # print(line)
            # 按\t分隔 分开名称和序号
            temp_str_list = line.split("\t")
            class_name = str(temp_str_list[0])
            class_num = str(temp_str_list[1].replace("\n",""))
            res_dict[class_name] = class_num
            # print("-------------------------")
        else:
            break
    print(json.dumps(res_dict,ensure_ascii=False))
    class_json = json.dumps(res_dict,ensure_ascii=False)
    with open("../tech_data/tech_order_class.json", "w", encoding='utf-8') as f:
        f.write(class_json)  # 自带文件关闭功能，不需要再写f.close()
    f_class.close()
    return

处理语料
"""
处理训练集数据格式【tech_train.txt】
关键词（使用英文逗号分隔） \t 分类号（从0开始）
"""
def get_conn():
"""
    :return: 连接，游标
"""
    # 创建连接
    conn = pymysql.connect(host="127.0.0.1",
                    user="root",
                    password="reliable",
                    db="tech",
                    charset="utf8")
    # 创建游标
    cursor = conn.cursor()  # 执行完毕返回的结果集默认以元组显示
    return conn, cursor

def close_conn(conn, cursor):
    if cursor:
        cursor.close()
    if conn:
        conn.close()
"""
"""
def query(sql,*args):
"""
    通用封装查询
    :param sql:
    :param args:
    :return:返回查询结果 （（），（））
"""
    conn , cursor= get_conn()
    print(sql)
    cursor.execute(sql)
    res = cursor.fetchall()
    close_conn(conn , cursor)
    return res

Original: https://www.cnblogs.com/rainbow-1/p/16801120.html
Author: 靠谱杨
Title: 科技报告数据语料处理（关键词、中图分类名称）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/808743/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django笔记九之model查询相关介绍

在接下来四五篇笔记中，将介绍 model 查询方法的各个细节，为我们的查询操作提供各种便利。本篇笔记将介绍惰性查找、filter、exclude、annotate等方法，目录如下…

Python 2023年8月5日
0054
C++：C++编译过程：看完还不懂C++编译过程来捶我

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月4日
0039
20212218 实验一《Python程序设计》实验报告

# 20212218 2022-2022-2 《Python程序设计》实验一报告课程：《Python程序设计》班级： 2122 姓名：林思凡学号： 20212218 实验教…

Python 2023年6月10日
0059
pygame与列表元素结合实现有趣的堆栈效果，进来看看咯。

pygame与列表元素结合实现有趣的堆栈效果，进来看看咯。文章目录一、先把pygame的框架搭起来二、来个矩形框吧三、来一箩筐的矩形框吧 * （一）初始化list对象（二…

Python 2023年9月24日
0028
Anaconda环境下换源快速安装pytorch

Anaconda环境下换源快速安装pytorch 换源安装pytorch * 1 更换清华源 2 添加镜像源 3 安装pytorch 换源安装pytorch 1 更换清华源需要在…

Python 2023年9月27日
0032
人到中年，做管理真的需要懂的管理必备知识

课堂三点要求：认真听讲，记笔记 * – 讲义电子版会给补充，不要急于找资料 – 跟着课堂节奏积极参与课堂互动，远程依然有温度 * – 课堂提…

Python 2023年6月3日
0067
Anaconda3环境下安装pyecharts

Anaconda3环境下安装pyecharts 原创 wx62d1485ecb7782022-07-20 10:43:32博主文章分类：Python ©著作权文章标签 pytho…

Python 2023年5月25日
0062
await不要用try-catch了

牙叔教程简单易懂一般人是这样写代码的function test() {return new Promise((resolve, reject) => {throw new…

Python 2023年11月9日
0019
Grafana监控大屏配置参数介绍（一）

Grafana 系列文章，版本：OOS v9.3.1 Grafana 的介绍和安装在上篇文章中，我们已经安装了Grafana，并且看到了它的初步面貌。在这篇文章，我们以一个简单的…

Python 2023年9月30日
0035
【使用Pytorch实现ResNet网络模型：ResNet50、ResNet101和ResNet152】

使用Pytorch实现Resnet网络模型：ResNet50、ResNet101和ResNet152 介绍什么是 ResNet？ ResNet 的架构使用Pytorch构建 R…

Python 2023年10月9日
0038
flask连接数据库——flask-SQLALchemy

SQLALchemy介绍：具体详情：flask连接数据库具体详情2 sqlalchemy是数据库的orm框架，让我们操作数据库的时候不要再用sql语句了，跟直接操作模型一样。 …

Python 2023年8月9日
0062
Vue2之webpack篇（一）

目录前言 1、什么是webpack？ 2、传统开发模式一、传统开发模式 1、场景 2、问题 3、原因 4、解决方案二、ES6模块化 1、ES6的解决方案 3、拓展 4、取别名…

Python 2023年10月27日
0017
JavaScript 入门基础 – 变量 / 数据类型（二）

JavaScript 入门基础 – 变量 / 数据类型（二）文章目录 JavaScript 入门基础 – 变量 / 数据类型（二） 1.变量 * 1.1 …

Python 2023年11月7日
0027
django框架(部分讲解)

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月11日
0041
【django前端循环】前端模块简化技巧详解【IMUSTCTF网站开发】

一，需求这是一个考试中心，下面需要展示很多的试卷。试卷的基本信息：试卷名，试卷分值，准确率，试卷描述，试卷路由… 如果我们按照正常的方法来写的话，我们的考试html就…

Python 2023年8月4日
0066
Python列表解析式到底该怎么用

Original: https://www.cnblogs.com/123456feng/p/16210403.htmlAuthor: 蚂蚁ailingTitle: Python列…

Python 2023年11月2日
0056

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

科技报告数据语料处理（关键词、中图分类名称）

1、标准表

2、代码

2.1、data_clean.py

大家都在看