基本概念
1. 语料库
- 语料库(corpus)就是存放语言材料的仓库(语言数据库)。
- 基于语料库进行语言学研究-语料库语言学(corpus linguistics)
2. 语料库语言学
- 根据篇章材料对语言的研究称为语料库语言学。-[Aijmer, 1991]
- 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。-[McEnery, 1996]
- 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。-[Crystal, 1991]
3. 语料库语言学研究的内容:
- 语料库的建设与编纂
- 语料库的加工和管理技术
- 语料库的使用
语料库技术的发展
1. 20世纪50年代中期之前:早期
语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等
2. 1957~20世纪80年代初期:沉寂时期
3. 20世纪80年代以后:复苏与发展时期
4. 语料库技术复苏的原因
(1)计算机的迅速发展; (2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。
国内语料库研究状况
- 武汉大学汉语现代文学作品语料库(1979年,527万字)
- 北航现代汉语语料库(1983年,2000万字)
- 北师大中学语文教材语料库(1983年,106万字)
- 北京语言学院现代汉语词频统计语料库(1983年,182万字)、目前北京语言大学正面向“一带一路”战略开展语料库研究和开发工作
- 1991年中国国家语言文字工作委员会开始建立国家级大型汉语语料库,以推进汉语的词法、句法、语义和语用研究,其计划规模将达7000万汉字
- 清华大学汉语歧义切分语料库(1998年,1亿汉字),后来在汉语树库、篇章语料库建设等方面做了大量研发工作
语料库的类型
1. 按内容构成和目的划分(4种类型)
- 异质的(heterogeneous)-[黄昌宁,2002] 最简单的语料收集方法,没有事先规定和选材原则。
- 同质的(homogeneous) 与“异质”正好相反,比如美国的TIPSTER 项目只收集军事方面的文本。
- 系统的(systematic) 充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
- 专用的(specialized) 如:北美的人文科学语料库。
2. 按语言种类划分
- 单语的
- 双语的或多语的 篇章对齐/ 句子对齐/ 结构对齐
3. 是否标注?(生语料、熟语料)
- 具有词性标注
- 句法结构信息标注(树库)
- 语义信息标注
4. 平衡语料库
- 平衡语料库着重考虑语料的代表性与平衡性。
- 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。
5. 平行语料库
两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库
6. 已有的双语资源
- PDT包含三个层次: 形态层(morphological layer):PDT 的最低层,包含全部的形态信息标注; 分析层(analytic layer):PDT 的中间层,主要是依次关系中的表层句法信息标注,层次概念上接近于Penn Treebank中的句法标注; 深层语法层(tectogrammaticallayer):PDT 的最高层,表达句子的深层语法结构。
10. 中国中文语言资源联盟(Chinese LDC)
每段平均不少于90秒、10个回合(turns),如:词汇知识库
1. WordNet(http://wordnet.princeton.edu/ )
- 普林斯顿大学(Princeton University) 认知科学实验室George A. Miller教授领导开发。
- 开发目的:解决词典中同义信息的组织问题
- 目前规模:95600 英语词条,其中,51500个简单词,44100个搭配词。70100个词义(同义词集合)。
- 五大类词汇:名词、动词、形容词、副词、虚词。(实际上WordNet中仅包含前4类)
- 特色:根据词义(而不是词形)组织词汇信息,从某种意义上讲,它是一部语义词典。
- WordNet 按语义关系组织:语义关系看作是同义词集合之间的一些指针,语义关系是双向的。如果词义和之间有一种语义关系R,则在和 之间也有语义关系。属于这两个同义词集合的单词之间的关系也是。
- 4种语义关系: 同义关系(synonymy) 反义关系(antonymy) 上下位关系(hypernmy/ hyponym)或称从属/上属关系:如:{枫树}是{树}的下位,{树}是{植物}的下位。 部分关系(meronymy)或称部分/整体关系。
- 名词的25个独立起始概念: {动作,行为,行动}、{自然物}、{动物,动物系}、{自然现象}、{人工物}、{人,人类}、{属性,特征}、{植物,植物系}、{身体,躯体}、{所有物}、{认知,知识}、{作用,方法}、{信息,通信}、{量,数量}、{事件}、{关系}、{直觉,情感}、{形状}、{食物}、{状态,情形}、{团体,组织}、{物质}、{场所,位置}、{时间}、{目的}
- 21000个动词词形、约8400个词义,14个文件: 照顾动词,功能动词,变化动词,认知动词,通信动词,竞争动词,消费动词,接触动词,创作动词,感情动词,运动动词,感觉动词,占用动词,社会交往动词,天气变化动词。
- 19500个形容词词形,近10000个词义
- WordNet 的应用 词汇消歧,语义推理,理解等。 描述性形容词,参照修饰形容词,颜色形容词,关系形容词。
2. 知网(HowNet) (http://www.keenage.com)
- 1988年由董振东教授提出,4个基本观点: (1) NLP系统最终需要更强大的知识库的支持。 (2) 知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。 (3) 关于知识库建设,他提出应首先建立一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。 (4) 首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库主要靠专业人员来完成。这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。
- 知网的哲学
- 知网的特色 知网作为一个知识系统,名副其实是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。 同时知网还着力要反映概念之间和概念的属性之间的各种关系。
- 知网描述了下列各种关系: (a)上下位关系(由概念的主要特征体现) (b)同义关系 (c)反义关系 (d)对义关系 (e)部件-整体关系 (f)属性-宿主关系 (g)材料-成品关系 (h) 施事/经验者/关系主体-事件关系(由在事件前标注* 体现,如“医生”,“雇主”等) (i)受事/内容/领属物等-事件关系(由在事件前标注$ 体现,如“患者”,“雇员”等) (j) 工具-事件关系(由在事件前标注* 体现,如“手表”,“计算机”等) (k) 场所-事件关系(由在事件前标注@ 体现,如“银行”,“医院”等) (l) 时间-事件关系(由在事件前标注@ 体现,如"假日","孕期"等) (m) 值-属性关系(直接标注无须借助标识符,如“蓝”,“慢”等) (n) 实体-值关系(直接标注无须借助标识符,如“矮子”,“傻瓜”等) (o) 事件-角色关系(由加角色名体现,如“购物”,“盗墓”等) (p) 相关关系(由在相关概念前标注# 体现,如“谷物”,“煤田”等)
- 词语例子: NO.=000001 W_C=打 G_C=V E_C=~ 酱油,~ 张票,~ 饭,去~ 瓶酒,醋~来了 W_E=buy G_E=V E_E=