提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
语料库有的是标记过的(annotated),意味着文本或文档已经标记出监督学习算法的正确响应(例如,用于构建检测垃圾邮件的过滤器),有的则是未标记(unannotated)的,可用于主题建模和文档聚类(例如,探索文本随时间推移潜在主题的变化)。 语料库可分解为文档或单个文档。语料库包含的文档大小各不相同,从推文到书籍都有可能,但它们都包含文本(或者元数据)和一组相关的看法。文件可进一步分成段落和语篇(discourse)单元,每个语篇单元往往表达一个单一的思想。段落可以进一步细分为句子,句子也是句法(syntex)的基本单位;完整的句子是在结构上比较合理的表达。句子由词和标点符号组成,词汇(Lexical)单元用来表达基本的意义,组合使用更为有效。最后,单词本身又由音节、因素、词缀和字符组成,这些单元只有在组成单词时才有意义。 一、浅谈语料库 1、语料和语料库 语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。 语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。其具备三个显著的特点:
2、语料库语言学 语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等方面的应用。
语料库是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。
中文语料库
- 搜狗实验室新闻| 互联网数据: http://www.sogou.com/labs/
- 北京大学语言研究中心:http://ccl.pku.edu.cn/term.asp
- 计算机语言研究所:
- 数据堂: http://www.datatang.com/
- 中央研究院平衡语料库(https://www.sinica.edu.tw/SinicaCorpus):专门针对语言分析而设计的,每个文句都依词断开并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0 版本。
- LIVAC 汉语共时语料库:http://www.livac.org/index.php?lang=tc
- 兰开斯特大学汉语平衡语料库: http://www.lancaster.ac.uk/fass/projects/corpus/
- 兰开斯特——洛杉矶汉语口语语料库 :http://www.lancaster.ac.uk/fass/projects/corpus/
- 语料库语言学在线:https://www.corpus4u.org/ 10.北京森林工作室汉语句义结构标注语料库:http://www.isclab.org.cn/csa/bfs-ctc.htm 11.国家语委现代汉语语料库(http://corpus.zhonghuayuwen.org/index.aspx) 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000 万字,为分词和词性标注语料。 12.古代汉语语料库(http://corpus.zhonghuayuwen.org/):网站现在增加了一亿字的古代 汉语生语料,研究古代汉语的也可以去查询和下载。网站同时还提供了分词、词性标 注软件,词频统计、字频统计软件。基于国家语委语料库的字频词频统计结果和发布 的词表等进行建库,以供学习研究语言文字的同学和老师使用。 13.《人民日报》标注语料库(https://blog.csdn.net/eaglet/article/details/1778995):《人民日报》标注语料库中一半的语料(1998 年上半年)共1300 万字,已经通过《人民日报》新闻信息中心公开并提供许可使用权。其中一个月的语料(1998 年1 月)近200 万字在互联网上公布,可自由下载。
- 古汉语语料库(https://www.sinica.edu.tw/ch):古汉语语料库包含以下五个语料库—— 上古汉语、中古汉语(含大藏经)、近代汉语、出土文献、其他。部分数据取自史语所汉籍全文数据库,故两者间内容略有重叠。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。
- 近代汉语标记语料库(https://www.sinica.edu.tw/Early_Mandarin):为应对汉语史研究需 求而建构的语料库。目前语料库所搜集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。
- 树图数据库(http://treebank.sinica.edu.tw/) 17.搜文解字(http://words.sinica.edu.tw/):包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,以及直接链接到出处并阅读原文。 18.文国寻宝记(https://www.sinica.edu.tw/wen):在搜文解字的基础之上,以华语文学习者 为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合。与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。
- 汉籍电子文献(https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13经、超过2000 万字的台湾史料、1000 万字的大正藏及其他典籍。
- 中国传媒大学文本语料库检索系统(http://ling.cuc.edu.cn/RawPub/)
- 在线分词标注系统(http://ling.cuc.edu.cn/cucseg/)
- 新词语研究资源库(http://ling.cuc.edu.cn/newword/)
- 哈工大信息检索研究室对外共享语料库资源 :http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm