wikisql 数据集解释_Wiki语料处理

最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。

  1. 中文维基数据下载

zhwiki-latest-pages-articles.xml.bz2

词条正文

zhwiki-latest-redirect.sql

词条重定向(同义词)

zhwiki-latest-pagelinks.sql

词条页面内容外链

zhwiki-latest-page.sql

词条标题及摘要

zhwiki-latest-categorylinks.sql

词条开放分类链接

  1. 数据的抽取

Gensim是一个相当专业的主题模型Python工具包,提供了wiki数据的抽取处理类WikiCorpus,能对下载的数据(*articles.xml.bz2)进行抽取处理,得到纯净的文本语料。

classWikiCorpus(TextCorpus):”””Treat a wikipedia articles dump (*articles.xml.bz2) as a (read-only) corpus.

The documents are extracted on-the-fly, so that the whole (massive) dump

can stay compressed on disk.

wiki = WikiCorpus(‘enwiki-20100622-pages-articles.xml.bz2’) # create word->word_id mapping, takes almost 8h

Mm

Original: https://blog.csdn.net/weixin_42130889/article/details/112812854
Author: 医药魔方
Title: wikisql 数据集解释_Wiki语料处理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/595168/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球