相关推荐
《语料库应用教程》读书笔记
2024-11-10 18:41

《语料库应用教程》读书笔记


语料库语言学基本概念

语料库语言学是一门实证性(empirical)学科。

语料库主要类型

  • 通用语料库
    • 英国国家语料库(British National Corpus, BNC)
    • 英语文库(Bank of English, BoE)
    • 美国国家语料库(American National Corpus, ANC)
  • 专用语料库
  • 共时语料库
  • 历时语料库
    • 赫尔辛基英语文本语料库(Helsinki Corpus of English Texts)
  • 口语语料库
  • 笔语语料库
  • 本族语者语料库
  • 学习者语料库
    • 英语学习者国际语料库(International Corpus of Learner English, ICLE)
    • 鲁汶英语中介语国际数据库(Louvain International Database of Spoken English Interlanguage, LINDSEI)
    • 中国学习者英语语料库(Chinese Learner's English Corpus, CLEC)
    • 中国学生口笔语语料库(Spoken and Written Corpus of Chinese Learners, SWECCL)
    • 中国学习者英语口语语料库(College Learners' Spoken English Corpus, COLSEC)
    • 中国大学生英汉汉英口笔译语料库(Parallel Corpus of Chinese EFL Learners, PACCEL)
    • Corpus for English Majors, CEM语料库
  • 单语语料库
  • 平行/双语语料库和多语语料库
    • Europarl Parallel Corpus (European Parliament Proceedings Parallel Corpus)

生文本 vs. 标注文本

  • 词性赋码
  • 句法标注
  • ……

标注

  • 元信息标注
    • 如引用源、出版商、出版年代、作者、作者性别、语境、标题、段落、文献……
  • 词性赋码(part-of-speech tagging, POS tagging)
    • Brill POS tagger
    • CLAWS
    • TreeTagger

词、形符、类符、类符/形符比

  • 形符 token
    • tokenization: It's → it 's can't → ca n't
  • 类符 type (语料文本中有多少独特的词形 word form)
    • Rose is a rose is a rose is a rose. 该句诗中形符有10个,类符有3个:rose is a
  • 类符/形符比(type-token ratio, TTR)
    • TTR = (token number)/(type number) * 100%
    • TTR是衡量文本中词汇密度(lexical density)的常用方法
    • 标准化的TTR:计算每个文本每1000词(数量可调整)的TTR,然后计算这些TTR的平均值

概率和频率

频率(frequency)是标准化了的频数(平均每百万、十万、万或千词中某个单词的频数)

索引、索引工具和索引行

索引(concordance)又称为“语境中的关键词”(key word in context, KWIC)

常见索引工具

  • WordSmith Tools
  • AntConc
  • Concordance
  • BNC配套索引工具Sara和Xaira
  • Bank of English配套的jLookup
  • Hong Kong Virtual Lanugage Centre的在线索引工具
  • 伯明翰城市大学的WebCorp
  • Brigham Young University的Mark Davis的在线索引工具

搭配与类联接

搭配(collocation),类联接(colligation)

多词序列

多词序列(MWE/multiword expression)又称多词单位(MWU/multiword units)、复现词组(recurrent word combination),与此相关的还有词块(lexical chunks)、词簇(word clusters)、预制语块(prefabs或prefabricated chunks)、套语(formulaic sequence)、N元组(n-grams)等。

语义韵

语义韵(semantic prosody):举个例子,就是cause这个词,在concordance中就可以看出来,后面跟的总是不良的意义,这就是语义韵。

正则表达式

推荐EditPad Pro文本编辑器,全面支持正则,并可以对正则进行调试。

语料库应用的基本要素及步骤

语料库应用的基本要素

  1. 提出可回答的研究问题
  2. 拥有合适的语料库
  3. 拥有得力的语料库分析工具
发表评论
0评