提取wiki语料库过程

下载wiki dump

最新打包的中文文档下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

使用wikiextractor处理

wikiextractor可以剔除掉一些无用的信息,并使用汉语繁体转简体的算法

执行命令

通过pip安装wikiextractor或者在Github上下载code进行本地安装,具体流程见Githubhttps://github.com/attardi/wikiextractor
下载并安装后,将wiki dump放在wikiextractor目录下,执行命令

bzcat zhwiki-latest-pages-articles.xml.bz2
python WikiExtractor.py -b 500K -o extracted zhwiki-latest-pages-articles.xml

观察报错问题

出现如下问题:
1.wikiextractor语法问题,查看githubhttps://github.com/attardi/wikiextractor

2.大概是函数需要4个参数却提供了6个参数。查找了很多没有找到适合方法解决,后想到时候是python版本问题。于是将python3.6修改成3.5后顺利运行

运行繁简转换.py