nlp相关资料和数据集总结连载中

  • A+
所属分类:深度学习

python自然语言处理实战核心技术与算法

源码地址:

https://github.com/nlpinaction/learning-nlp

《NLP汉语自然语言处理原理与实践(郑捷著)》PDF+源代码

https://pan.baidu.com/s/1q3S2F33nr7HOR1F1MC4lXg

 

各种语料梳理

1.宾州大学英文语料包
nltk 下载的宾州大学语料包,好像是只有英文的,反正没有找到中文的
2.宾州大学中文语料库LDC2013T21
下载路径      https://wakespace.lib.wfu.edu/handle/10339/39379          中文语料 比较标准的,找了好久才找到
相关文章  http://www.cs.brandeis.edu/~clp/ctb/
http://www.doc88.com/p-3816165585821.html
3、simple-examples
网友提供的一个工程,Penn Tree Bank(PTB)
来源于 Tomas Mikolov 网站上的 PTB 数据集http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz。
该数据集已经预先处理过并且包含了全部的10000 个不同的词语,其中包括语句结束标记符,以及标记稀有词语的特殊符号 () 。
我们在 reader.py 中转换所有的词语,让他们各自有唯一的整型标识符,便于神经网络处理。
4、人民网数据.zip
5、搜狗互联网语料库
http://www.sogou.com/labs/resource/t.php
该语料来源于互联网各种类型的1.3亿个原始网页,压缩前的大小超过5TB,免费下载。提供一下版本
迷你版:61KB,tar.gz 格式
完整版:1TB(硬盘拷贝)
历史版本:130GB 硬盘拷贝
6、国家现代汉语语料库
http://www.cncorpus.org/index.aspx
该语料库第一批是1919-1992年的语料,统计工7000万字,
7、PFR语料
该语料以2700万字的1998年的《人民日报》为语料,手工加工,标注,建立的语料库,用于分词,词性标注,专有名词标注
8、MSR语料库
http://ww.threedweb.cn/thread-1593-1-1.html
MSR语料是微软研究院开发的一套中文分词基础语料库。该语料库只是对词汇做了切分,而没有给出词性标注。有两套一套是中文分词,另外一套是命名实体识别。

获取更多内容,点击右边联系神农君,备注“NLP”,免费领取资料

资料将持续更新....

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: