最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。
- 中文维基数据下载
zhwiki-latest-pages-articles.xml.bz2
词条正文
zhwiki-latest-redirect.sql
词条重定向(同义词)
zhwiki-latest-pagelinks.sql
词条页面内容外链
zhwiki-latest-page.sql
词条标题及摘要
zhwiki-latest-categorylinks.sql
词条开放分类链接
- 数据的抽取
Gensim是一个相当专业的主题模型Python工具包,提供了wiki数据的抽取处理类WikiCorpus,能对下载的数据(*articles.xml.bz2)进行抽取处理,得到纯净的文本语料。
classWikiCorpus(TextCorpus):”””Treat a wikipedia articles dump (*articles.xml.bz2) as a (read-only) corpus.
The documents are extracted on-the-fly, so that the whole (massive) dump
can stay compressed on disk.
wiki = WikiCorpus(‘enwiki-20100622-pages-articles.xml.bz2’) # create word->word_id mapping, takes almost 8h
Mm
Original: https://blog.csdn.net/weixin_42130889/article/details/112812854
Author: 医药魔方
Title: wikisql 数据集解释_Wiki语料处理
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/595168/
转载文章受原作者版权保护。转载请注明原作者出处!