自然语言处理常用资源分享

2023年5月28日下午2:58 • 大数据 • 阅读 75

自然语言处理常用资源分享

目录
🌟博主介绍
开源Python库
知识图谱相关
语料&数据集
词表
其他可能有帮助的研究

🌟博主介绍

💂 个人主页:苏州凯捷智能科技有限公司;
💂 个人社区:CSDN全国各地程序猿
🤟作者介绍：苏州凯捷智能科技有限公司创始人，主要目前与华为合作5G工业机器人领域开发，2D、3D视觉项目开发，政府项目投标开发，
💬如果文章对你有帮助，欢迎关注、点赞、收藏（一键三连）
🎗️ 承接软件APP、小程序、网站等开发重点行业应用开发（SaaS、PaaS、CRM、HCM、银行核心系统、监管报送平台、系统搭建、人工智能助理）、大数据平台开发、商业智能、App开发、ERP、云平台、智能终端、产品化解决方案。测试软件产品测试、应用软件测试、测试平台及产品、测试解决方案。运维数据库维护（SQL Server 、Oracle、MySQL）、操作系统维护（Windows、Linux、Unix等常用系统）、服务器硬件设备维护、网络设备维护、运维管理平台等。运营服务IT咨询、IT服务、业务流程外包（BPO）、云/基础设施的管理、线上营销、数据采集与标注、内容管理和营销、设计服务、本地化、智能客服、大数据分析等。
💅 有任何问题欢迎私信，看到会及时回复
👤 微信号：stbsl6，微信公众号：苏州程序大白
🎯 想加入技术交流群的可以加我好友，群里会分享学习资料

开源Python库

项目地址简介jieba分词https://github.com/fxsjy/jieba中文分词库中文信息抽取工具https://github.com/fighting41love/cocoNLP从中文文本数据中抽取出结构化的信息，如时间、手机号、运营商、邮箱、地址、人名、身份证LTP（Language Technology Platform）https://github.com/HIT-SCIR/ltp提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作中文地址提取工具https://github.com/shibing624/addressparser支持中国三级区划地址（省、市、区）提取和级联映射，支持地址目的地热力图绘制。适配python2和python3中文公司名称分词工具https://github.com/shibing624/companynameparser支持公司名称中的地名，品牌名（主词），行业词，公司名后缀提取汉字数字(中文数字)-阿拉伯数字转换工具https://github.com/Wall-ee/chinese2digits是一个将中文数字（大写数字）转化为阿拉伯数字的工具HarvestTexthttps://github.com/blmoistawinde/HarvestText是一个专注无（弱）监督方法，能够整合领域知识（如类型，别名）对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务，在小说分析，网络文本，专业文献等领域都有潜在应用价值

知识图谱相关

项目地址简介文档图谱信息可视化https://github.com/liuhuanyong/TextGrapher输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。京东GoodsKGhttps://github.com/liuhuanyong/ProductKnowledgeGraph基于京东网站的商品上下级概念，商品品牌之间关系，商品描述维度等知识库，基于该知识库可以支持商品属性库构建，商品销售问答，品牌物品生产等知识查询服务，也可用于情感分析等下游应用．思知知识图谱https://github.com/ownthink/KnowledgeGraphData史上最大规模1.4亿中文知识图谱开源下载，知识图谱，通用知识图谱，融合了两千五百多万的实体，拥有亿级别的实体属性关系。stock-knowledge-graphhttps://github.com/lemonhu/stock-knowledge-graph（neo4j）利用网络上公开的数据构建一个小型的证券知识图谱/知识库事件三元组抽取https://github.com/liuhuanyong/EventTriplesExtraction基于依存句法与语义角色标注的事件三元组抽取，可用于文本理解如文档主题链，事件线等应用。内置LTP、百度DDParser和规则模版的三种抽取方式中文人物知识图谱构建https://github.com/liuhuanyong/PersonRelationKnowledgeGraph中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用.awesome-knowledge-graphhttps://github.com/husthuke/awesome-knowledge-graph整理知识图谱相关学习资料，提供系统化的知识图谱学习路径。

语料&数据集

项目地址简介ChineseNlpCorpushttps://github.com/SophonPlus/ChineseNlpCorpus搜集、整理、发布中文自然语言处理语料/数据集, 包含情感/观点/评论倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统多个领域的数据集公司名语料库（Company-Names-Corpus）https://github.com/wainshine/Company-Names-Corpus 公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。微信公众号语料库https://github.com/nonamestreet/weixin_public_corpus部分网络抓取的微信公众号的文章，已经去除HTML，只包含了纯文本。百度知道问答语料库https://github.com/liuhuanyong/MiningZhiDaoQACorpus百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。多语言音频数据https://voice.mozilla.org/en/datasets多种语言音频数据，包括来自42,000名贡献者超过1,400小时的语音样本，涵github中文突发事件语料库https://github.com/shijiebei2009/CEC-Corpus中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。dh_msrahttp://www.filediag.com/down/msra.exe_5066.html5 万多条中文命名实体识别标注数据（包括地点、机构、人物）

词表

项目地址简介multistophttps://github.com/hidadeng/multistop停用词表，支持中英法德等15种语言

其他可能有帮助的研究

项目地址简介事理知识抽取研究https://github.com/liuhuanyong/ComplexEventExtraction中文复合事件抽取，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。领域情感词典构建https://github.com/hidadeng/wordexpansion使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典

🎗️ 承接软件APP、小程序、网站等开发重点行业应用开发（SaaS、PaaS、CRM、HCM、银行核心系统、监管报送平台、系统搭建、人工智能助理）、大数据平台开发、商业智能、App开发、ERP、云平台、智能终端、产品化解决方案。测试软件产品测试、应用软件测试、测试平台及产品、测试解决方案。运维数据库维护（SQL Server 、Oracle、MySQL）、操作系统维护（Windows、Linux、Unix等常用系统）、服务器硬件设备维护、网络设备维护、运维管理平台等。运营服务IT咨询、IT服务、业务流程外包（BPO）、云/基础设施的管理、线上营销、数据采集与标注、内容管理和营销、设计服务、本地化、智能客服、大数据分析等。
💅 有任何问题欢迎私信，看到会及时回复
👤 微信号：stbsl6，微信公众号：苏州程序大白
❤️关注苏州程序大白公众号❤️
👇 👇👇

Original: https://blog.csdn.net/weixin_39934361/article/details/121853791
Author: 苏州凯捷智能科技有限公司
Title: 自然语言处理常用资源分享

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532207/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

1124面试复盘总结–hive

文章目录介绍一下hive * 串起来 hive为什么不建议构建索引？非要构建索引怎么构建？ hive和mysql有什么区别建立索引的优缺点数据仓库和数据库的区别 * 数据仓…

大数据 2023年11月12日
0051
中国DevOps平台市场，华为云再次位居领导者位置

摘要：华为云软件开发生产线DevCloud在市场份额和发展战略两大维度均排名第一，再次位居领导者位置。 9月21日，国际权威分析师机构IDC发布《IDC MarketScape:…

大数据 2023年6月2日
0050
spark本地安装教程

大数据 2023年11月17日
00107
hdfs、hive、sqoop、spark环境搭建

大数据 2023年11月14日
0042
MYSQL 获取最近多少天时间列表

1、首先获取一个最近1000天的时间列表，如果不够可以按规则再加 SELECT adddate(CURDATE(),-(t2.i * 100 + t1.i * 10 + t0.i)…

大数据 2023年6月3日
0073
blog13 使用最大边际相关性的核心方法返回排名前N的嵌入候选词（2）

2021SC@SDUSC method.py：通过返回最接近文档嵌入的N个候选短语，嵌入排名只考虑了短语的信息性属性，从而导致了冗余的关键短语。在用户直接看到提取的关键短语的场景…

大数据 2023年5月28日
0079
STC8H开发(十三): I2C驱动DS3231高精度实时时钟芯片

目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装…

大数据 2023年6月3日
00119
SQL 经典50题（题目+解答）（3）

大数据 2023年11月15日
0052
linux下配置sqlite3–所有开源代码环境配置保姆级教程墙裂推荐

linux下配置sqlite–所有开源代码环境配置墙裂推荐关于sqlite3 sqlite是一种轻便型数据库，适用于市面上的所有平台，并且操作简单，关键在于开源免费，就问你白嫖…

大数据 2023年11月12日
0055
Android中SQLite数据库和Room的简单使用

创建数据库升级数据库数据库的CRUD操作添加数据更新数据删除数据查询数据使用事务 Room的使用定义Entity 定义Dao 定义DataBase 建立数据库类，并…

大数据 2023年11月10日
0026
二叉树的Java实现以及前中后序遍历

树的概念及结构树的概念树是一种非线性的数据结构，它是由n（n>=0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根在上，而叶…

大数据 2023年6月3日
0065
Python分析文本长度和句子个数的代码参考

import glob import os import json from SplitIntoSentences import split_into_sentences impo…

大数据 2023年5月28日
0052
训练一个专门捣乱的模型

三位韩国人在EMNLP 2021 Findings上发表了一篇论文，名为Devil’s Advocate: Novel Boosting Ensemble Method…

大数据 2023年5月28日
00126
一起来学自然语言处理—-加工原料文本

加工原料文本从网络和硬盘访问文本 * 1.电子书 2.处理的HTML 3.读取本地文件 4.NLP的流程字符串：字符串的基本操作使用Unicode进行文字处理 * 1. 从文…

大数据 2023年5月28日
00112
使用Sqlite完成mbtiles格式的数据合并拼接

一、为什么要做mbtiles格式的数据合并 1.如果要做数据的整体入库，或者整体查询，文件多了就需要做遍历 2.如果在软件里面显示想整体控制还是单独的图层比较好 3.解决不同层级的…

大数据 2023年11月12日
0047
Kylin配置Spark并构建Cube

HDP版本：2.6.4.0Kylin版本：2.5.1机器：三台 CentOS-7，8G 内存Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以…

大数据 2023年6月3日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自然语言处理常用资源分享

自然语言处理常用资源分享

大家都在看