引用方式:张博,张茜.从词频符频探测学术汉语的若干语言特征——基于学术论文与报刊词频符频的对比[J].语言教学与研究,2024,(05):1-13.
张博,张茜
提 要 本研究将语体上最接近学术汉语的通用书面语作为参照,采用语料库驱动的研究范式,以自建学术论文库和报刊库显著的词频和符频差异为线索,探测到学术汉语有别于通用书面语的一些语言特征;单音节词占比高,语体风格比通用书面语偏“文”:不少高频词的意义和/或用法不同于通用词;定语繁复;动词的时体特征不凸显;复句多,结构层次复杂,常用有文言色彩的关联词;句子长度长,句法复杂度高;疑问句少,做主宾语的疑问小句多,正反选择问多;括号的标示功能丰富多样。
关键词 学术汉语;通用书面语;词频;符频;语料库驱动
一. 引言
学术汉语泛指学术语境下使用的汉语,从狭义上说,特指中文学术论著使用的语言,是一种专门用途书面语。近年来,汉语教师和研究者普遍认识到,学术汉语水平低下是制约国际学生学术阅读能力和论文写作能力发展的重要因素。有调查显示,本科留学生认为,在专业学习的各个环节中,写论文或者报告是最难的,其次是阅读中文论文。(李海燕等2020)多达61%的硕士留学生受试表示,在整个学位论文写作过程中最困难的阶段是“语言表达”,其困难程度远远超过“选题定题”“搜集资料”“开展调査”和“数据分析”(杨凝卓2016)。为促进国际学生学术论文写作能力发展,张博(2024)建议,学术汉语写作类课程在教学内容的安排上应强化学术汉语教学,由学术汉语的语言知识向学术论文的写作技巧过渡。
学术汉语语言知识包括学术词汇、常用句式、惯用表达、衔接和连贯手段、修辞方式、语篇结构、标点符号及风格特征等。近年来,学界开始关注学术汉语,从不同侧面进行考察分析,涉及词汇特征(张赪等2020;张博2022;唐文菊、汲传波2023)、惯用表达(周启红、王海峰2023)、语法特征(朱宇、胡晓丹2021;金常心、李加攀2023)和语篇结构(李婷、吴勇毅2022)等。从研究视角来看,现有研究多关注不同学科学术汉语的异同,也有个别研究旨在揭示学术汉语与通用汉语、留学生论文与汉语母语者论文的差异;从研究范式来看,多采用基于语料库(corpus-based)的方法,将已初步认识或发现的学术汉语特征放到语料库中进行检索,通过语料库数据及其分布并结合语言实例精细地考察反映该特征的形式、频率和功能等。我们认为,不同学科学术汉语的异同是相对微观的特征,从支持学术汉语教学的角度来说,认识学术汉语的整体性特征是更为紧要的工作;通用汉语、留学生论文都不是学术汉语的理想参照,因为,比较所得或许不是学术汉语的特征而是汉语书面语的特征,甚或是汉语的特征;基于语料库的研究只能对原有发现或预测进行验证、补充或修正,难以呈现学术汉语的整体面貌并探测到新的更多的特征。为此,本文拟采取与以往不同的研究思路和研究范式,即:以中文学术论文和中文报刊分别作为学术汉语和通用汉语书面语的典型语料,将语体上最接近学术汉语的通用书面语作为参照,以使所发掘的语言特征不是汉语书面语的语言特征,而是作为专门用途书面语的学术汉语的特征;采用语料库驱动(corpus-driven)的研究范式,不预先设定学术汉语语言特征的观测层面或观测点,而是从词语频率(下文简称“词频”)和标点符号频率(下文简称“符频”)人手,以两库显著的词频、符频差异为线索,从多个维度自下而上地探讨学术汉语有别于通用书面语的词汇特征、语法特征、语体特征及表达特点,以期为学术汉语教学提供一些更有针对性的参考依据。
二. 语料库构建与词频符频统计方法
本研究自建学术论文语料库和报刊语料库(以下分别简称“论文库"和“报刊库”)。为方便有效计算标准型次比、对比两库词种和词频等指标,两库各收集约1000万字的语料:论文库10153764字,报刊库10152289字,两库库容基本均等。语料时间范围均为2018-2024年间。鉴于语料是否具有代表性关系到研究结果能否推广到更大的语料范围中(Leech 1991),因此两库的语料选取充分考虑到代表性和均衡性。
学术论文语料以期刊论文为来源,论文学科分布依据国务院学位委员会最新颁布的《研究生教育学科专业目录》(2022)。在该目录14个学科大类(哲学、经济学、法学、教育学、文学历史学、理学、工学、农学、医学、军事学、管理学、艺术学、交叉学科)中各选取较具代表性的核心期刊,各学科语料规模控制在71万字左右。
报刊语料兼收日报(以报道时政新闻为主)和晚报(以报道社会新闻为主),力求涉及社会生活各个领域。包括《光明日报》《广州日报》《华西都市报》《环球时报》《经济日报》《南方都市报》《人民日报》《文摘报》《新华每日电讯》《羊城晚报》和《中国青年报》等11种报纸语料,这些报纸均入选国家新闻出版广电总局发布的《百强报纸名单》,受到社会各界的广泛认可,具有代表性。此外,考虑到可能存在通稿情况,避免采集不同报纸同一日期的语料。每种报纸语料规模控制在91万字左右。
两库的语料获取方式和处理程序是:学术论文语料需将下载的PDF格式转为可编辑文本格式,在此过程中,由于转换程序的限制,不可避免地出现一些错误和乱码,为此采取严格的人工控制,删除和使用通配符批量替换错误字符,以最大程度地保留可用正文。报刊语料使用“八爪鱼”网页数据采集器进行网页抓取,在生成文本列表后将文本粘贴至Word文档。语料获取后,统一对语料进行清洗。学术论文语料手动删除中英文摘要、关键词、中图分类号、标题、作者信息、脚注、页眉页脚、参考文献、图表等信息,只保留正文。报刊语料手动删除作者和编辑人员署名、版序、标题、广告和图片说明等,也只保留正文。将所有语料清洗完成后,转成文本文档格式。为确保正文内容的连贯性,转为文本文档后再次将所有语料做人工校对。
使用的分词和词频统计软件是由国家语委开发的Corpus Word Parser和Corpus Word Frequency。Corpus Word Parser是语料库分词和词性标注软件,具有中文分词、词性标注、用户自定义词表等功能。Corpus Word Frequency是语料字词频统计软件,同时还可以统计语料库中的标点符号。利用该软件对两个语料库的语料进行统计,分别得到其所有词语以及标点符号的频次、频率和频序。
三. 从词频探测到的词汇及语体特征
3.1 单音节词占比高,语体风格比通用书面语偏“文”
在论文库和报刊库字数相当的情况下,论文库词语数为7184628,报刊库词语数为6761687,前者多于后者。据此测算,论文语料平均词长1.413字,报刊语料平均词长1.501字,表明学术汉语平均词长短于通用书面语。
进一步分析两库中频序位于前2000的高频词语,可以看到,论文库中常用单音节词的词种、频次及频率都高于报刊库。
论文库中常用单音节词占比相对较高,这是学术汉语词长相对较短的重要原因。
以往多有研究关注到单双音节词在口语和书面语中的分布情况,认为双音节词占优势是书面语的典型特征,“若一对同义词有音节上的差异,则口语倾向于为单音节,书面语倾向于为双音节”(张文贤等2012)。但从书面语内部来看,本研究基于语料库的统计数据却发现,若一对同义词有音节上的差异,单音节词在学术汉语中的常用度往往高于通用书面语,反之,双音节词在通用书面语中的常用度则高于学术汉语,如表2所示:
从语体色彩来看,论文库中频次高于报刊库的单音节词都是具有文言语体色彩的词,如果是口语色彩明显的单音节词,则可能出现报刊库频次高于论文库的情况,例如,“买”在报刊库出现920次,在论文库只出现111次;与表2中文言色彩强的“购”在论文库中频次高而报刊库中频次低的情况(751∶435)正相反。
单双音对立的同义词在学术汉语中还呈现出“以单求单”的组配特点,即,如果一对单双音同义词在特定语境中用单未用双,会压制与之搭配的另一个词也用单音节的,而排斥与该单音节词同义的双音节词,以使两个单音节词组配为一个双音节的“标准韵律词”。例如,“富一丰富”“极一极其"是两对单双音同义词,在“美国国会图书馆收藏极富”中,谓词性成分使用的是单音节形容词“富”,这要求其修饰性成分不能用双音节词“极其”而必用单音节的“极”,从而组成双音节韵律词“极富”。再如:
这类双音节韵律词并不是真正的复合词,仍会被语料库分词软件处理为两个单音词。单双音同义词这种“以单求单”的组配规则进一步提高了学术汉语单音节词的使用频度。
冯胜利等(2021)指出,“语体上,单音兼有‘庄典与口语’两级功能。”论文库中词频高于报刊库的单音节词通常体现的正是学术汉语的庄典风格,使学术汉语比通用书面语的庄典度更高,在语体风格上更为偏“文”。
3.2 不少高频词的意义和/或用法不同于通用词
对比两库词频表,可以看到有些词语在论文库中的频次显著高于报刊库,以此为线索,发现其在两库中的主要意义和/或用法往往存在明显差异,如下页表3所示。
表3中论文库频次远高于报刊库的词语,通常是在通用义之外另有出现频率较高的学术义及特殊用法。例如,“较”在报刊库和论文库中都主要用作副词,表示具有一定程度;但在论文库中,“较”还常作介词,用于比较性状、程度,常出现于“较……更/为/更为……”“相较(于)……(更/更加/更为)……”“较之(于)……更/更为/更加……”等固定结构中:
有些学术汉语高频词的学术义在通用汉语中鲜少出现,以至于《现汉》没有收录。例如,“区域”在《现汉》中是单义词,只有“地区范围”一个义项;而在学术汉语中,“区域”常用来表示“物体或图像的一部分”(例13、14)和“活动或变化的范围”(例15、16)。
上例中的“响应”都表示一个系统或一些相互联系的要素受到刺激或外力作用时所产生的反应。这个意义不是通用义,故《现汉》也未收录。
英语第二语言阅读研究发现,在影响阅读的四种主要词汇知识缺陷中,最严重的缺陷是“对一词多义意识薄弱,对多义词在具体语境中的词义判断出现错误”,错误频次(824)明显高于“词性与词义关系”(594)“固定短语”(588)和“词与词之间的意义关系”(390)等方面的缺陷。(魏峥2003)鉴于此,学术汉语中意义和/或用法不同于通用词语的高频词不仅应当收入学术词汇表,还应在教学中予以适当处理,以使学习者注意其特殊意义及用法,避免在文献阅读时用通用汉语中的常用义理解学术词语而导致误解文意。从学术写作的角度说,只有准确把握学术词语的词义,才谈得上贴切地使用学术词语。
四. 从词频探测到的语法特征
4.1 定语繁复
助词“的”的频序在论文库和报刊库中都位列第一,但频次和频率却有显著差异。
从频次来看,论文库中的“的”比报刊库多出现115000余次;从频率来看,论文库每百字中出现的“的”多于5个,报刊库则出现不到4个。这表明“的”在学术汉语中的常用度远高于通用书面语。
助词“的”并不属于具有文言语体色彩或庄典风格的单音节词,相反,它是中古时期口语系统中产生的语言成分。那么,在语体偏文的学术汉语中“的”的常用度为何反而更高?考察论文库中“的”的句法功能,发现其多用于构成充当定语的“的”字短语,由此我们探测到学术汉语一个突出的句法特征——定语繁复。
从“的”字短语来看,学术汉语中定语的繁复性主要体现在两个方面:其一,一个名词常被多个“的”字短语修饰,形成多重定语。其二,多重定语内部多个“的”字短语之间的关系复杂。或为并列关系,即多个“的”字短语地位平等,可以分别修饰中心语,如例(19)中三个“的”字短语分别修饰“智能”,表示的是“拓展的智能”“模拟的智能”“人造的智能”;或为偏正关系,指“的”字定语(或其中的名词)递相受其前面“的”字定语的修饰,如例(20)中,“的”字短语“位置的”中的“位置”受“那些点的”修饰,“那些点”又受“电子最可能的”修饰。
学术语言讲求严谨精准,信息密度大,定语繁复当是其普遍特征。Biber et al.(1999:578)发现,在学术论文中,绝大多数名词短语(约60%)会被修饰语(modifier)所修饰,相比之下,日常口语交流中仅有较少的名词短语(约15%)带有修饰语。本研究论文库和报刊库“的”字的频度差异使我们观察到,学术论文中的名词不仅会比口语性会话中的名词更常使用修饰语,即便在汉语书面语系统内部,学术汉语名词修饰语的使用频度也显著高于通用书面语。在面向第二语言学习者的学术汉语教学中,定语与中心语的关系、多项定语之间的关系、多项定语的顺序、定语后“的”的隐现等有关定语的语法知识应当列为教学重点之一。
4.2 动词的时体特征不凸显
现代汉语中最能反映动词时体语义特征的是体助词“了”“着”“过”,其在论文库和报刊库中的数量分布有明显差异。从总体上看,三者在论文库中的使用频率都明显低于报刊库,尤以“着”为甚,其使用频率不及报刊库的一半。
学术论文较少使用体助词,首先当与语体有关。刘林、陈振宇(2012)考察发现,“‘了、着、过'在文本中依操作、说明和叙事语体的顺序呈现逐步递增的趋向。”报刊的新闻报道和人物专访类文章中叙事语体的比重比学术论文高,较多涉及事件的动态性和持续性,因而较常使用体助词;而学术论文在语体上更倾向操作和说明,叙事语体少,因而较少使用体助词。例如,“学带表示动作完成的体助词“了”、“开”带表示动作正在进行或状态持续的体助词“着”,在论文库和报刊库中的出现频次非常悬殊,分别为2:23和3:38。
然而,我们发现,语体特征并不是影响学术汉语较少使用体助词的唯一因素,因为,在动词时体一致的情况下,常有报刊用体助词而论文未用的情况。例如:
对两库双音节动词加体助词“了”“着”的情况做抽样调查,发现论文库中只有表示数量变化的“增加”“降低”等加“了”的情况多于报刊,其他动词加“了”“着”的比重多低于报刊。具体数据见下页表6。
我们分析,学术论文较少使用体助词“了”“着”“过”,动词的时体语义特征不凸显,除了与语体有关外,还可能与三个因素有关:其一,研究过程复杂而曲折,时常会经历多次实验和否定之否定的过程,研究行为具有一定的恒常性,这使得研究过程的时间性较为模糊。例如,例(25)“采用1:1近邻匹配的方法”中,很难说“采用”这个动作是在哪个时间点上完成的,或许贯穿整个研究,因此“采用”未加表示动作完成的“了”。其二,作为科学研究总结性文件的学术论文,重在论述研究发现或创新性见解,阐明科学原理,揭示普遍现象或规律,不太关注动作是否完成或动作状态是否持续。例如,尽管家伦理迄今一直承载着世人的价值依托,但在例(27)中,“承载”之后并未加表示状态持续的“着”。其三,学术汉语偏“文”的语体特征,决定了其比通用书面语更为简洁精炼,对于不表示概念意义的体助词“了”“着”“过”能省则省。
4.3 复句多,结构层次复杂,常用有文言色彩的关联词
粗略观察词频数据,可以看到论文库中复句所用的关联词语普遍比报刊库中的高频。为了深人探查学术汉语复句使用情况和特点,我们采用AntConc和“汉语助研”两款软件进行复句关联词检索。对于单用关联词,使用AntConc的“KWIC(关键词)”工具直接检索;对于有跨距的关联词,利用“汉语助研”的“双词检索”功能检索,该功能允许用户自定义双词的跨距。鉴于学术论文中关联词之间可能存在较大的距离,为避免遗漏,我们将跨距设定为100,以确保提取语料中所有目标复句。由于单用的关联词很容易出现非连词用法混入或切分失误的情况(例如,查找“另外”时,还可能出现其代词和副词用法;查找“以致”时,可能出现“学[以致]用”“施[以致]命打击”等非词成分),因此,我们对检索出的目标词条进行人工筛别,以确保检索结果的可靠性。
对比两库复句使用情况,发现学术汉语中的复句有四个特点:
1)各类复句的使用频度皆高于通用书面语。
2)更常使用因果复句和转折复句。两库中最常用的复句都是因果复句和转折复句,而且这两类复句在两库中的频次比也最高,表明学术汉语比通用书面语更常使用因果复句和转折复句。
3)复句的结构层次复杂,存在大量多层复句。例如:
4)更倾向使用有文言色彩的关联词。两库中同类复句同功能关联词频次比有大小之分,例如,因果复句关联词“因为……所以……”在论文库和报刊库中的频次分别为149和102,者频次比只有1.46,而“由于……因此……”的频次比却高达15.1(589:39);假设复句关联词“若”“即使”在两库中的频次比分别为2.07(1631:787)、2.22(637:287),也远高于“如果”在两库中的频次比1.29(2444:1898)。当然也有个别关联词在论文库中的频次反而低于报刊库,如假设复句中的“哪怕”(32:127)和“就算”(8:76)。从总体上看,论文库常用度远高于报刊库的复句关联词“由于……因此……”“若”“即使”等,通常是有文言色彩的词语。
五. 从符频探测到的语法特征和表达特点
5.1 句子长度长,句法复杂度高
句号、问号和感叹号都是句末点号,逗号是表示句子或语段内部一般性停顿的点号,从符频统计数据来看,学术论文库中这些点号的频次和频率明显比报刊库少。
例(30)长在宾语复杂,充当宾语的是动宾短语,其动词“探讨”前有介宾短语构成的长状语,后有疑问小句充当的宾语;例(31)状语宾语都长而复杂,状语是由介词“通过”加两个并列的动词短语构成的介宾短语,宾语中心词“思考”前有复杂的多重定语。这类复杂长句提示我们,在学术汉语教学中应当注重培养来华留学生的长句分析能力,帮助他们掌握简化句子结构、识别句子主干和核心成分的方法。
5.2 疑问句少,做主宾语的疑问小句多,正反选择问多
前文表8中点号的统计数据显示,学术汉语中问号和叹号远远少于通用书面语。叹号少很好理解,因为叹号主要用于感叹句和语气强烈的祈使句及反问句,而学术论文通常客观描述事实和阐述理论,不带明显的主观情感,因而极少使用带有强烈感情的感叹句和反问句;也不涉及人际会话,不会使用祈使句。然而论文库中作为疑问句标记的问号显著少于报刊库,频次不到报刊库的一半,却有些出人意料:因为,学术论文是针对特定问题的研究成果,“问题”在论文库中出现9832次,频次显著高于报刊库的6913次,那么,学术论文为什么“问题”多而提出问题的疑问句少呢?以论文库中疑问代词、疑问语气副词为线索,我们发现其主要用于充当主宾语的疑问小句中。例如:
上列句中加下划线的部分如果独立成句,则是疑问句,句末需使用标记疑问语气的问号;而作为陈述句中的句法成分,这些疑问句降格为疑问小句,不再携带疑问语气。尽管疑问小句有时位于句末,整个句子仍然携带的是陈述语气,通常不能在充任宾语的句末疑问小句后使用问号。由此推测,疑问小句做主宾语的情况较多当是学术汉语较少使用问号的重要原因。
在考察疑问代词和疑问语气副词的使用情况时,我们还发现学术汉语疑问表达的另一显著特点,即用“X否"类词语的正反选择问小句远多于通用书面语。首先引起我们注意的是两库中的常用疑问代词和疑问语气副词在频次上大多没有显著差异,有的是论文库频次略高于报刊库,如“如何(2295:2177)、究竞(214:150)、何以(171:67)”,有的是论文库频次略低于报刊库,如“什么(1072:1719)、怎样(308:453)、哪些(223:445)、为何(187:274)”,而疑问语气副词“是否”在论文库和报刊库中的频次则十分悬殊(2124:824)。“是否”是用于正反选择问的语气副词,进一步考察“能否”“可否”“应否”“与否”等其他用于正反选择问的词语,发现其在论文库中的频次均高于报刊库,频次之比分别为“能否”302:224、“可否”15:9、“应否”4:0、“与否”94:22。“是否”是判断词“是”加“否"语法化而来的疑问语气副词;“能否”“可否”“应否”是由助动词与“否”构成的凝固性结构,“与否”是连词“与”与“否”构成的跨层序列,其中的“否”是称代性的否定词(吕叔湘1942/2014:338-340)。这些“X否"类词语用于疑问小句有相通之处,都是对正反两种情况进行选择性提问或存疑。例如,例(36)“应否在家事诉讼法中增设行为保全制度”指“应当在家事诉讼法中增设行为保全制度”还是“不应当在家事诉讼法中增设行为保全制度”;例(37)“虚假陈述纠纷中的因果关系存在与否"指“虚假陈述纠纷中的因果关系存在还是不存在”。
学术文本借助“X否”类词语提问,兼及结论或观点主张的两种可能性或不确定性,有助于体现作者的客观立场,淡化作者先人为主的主观倾向,以期经过分析论证令人信服地引出或正或反的答案。此外,借助“X否”类词语可将正问反问合并在一个疑问小句中,也符合学术汉语结构紧凑、言简义丰的表达风格。
5.3 括号的标示功能丰富多样
论文库中频次最高的标号是圆括号(以下简称“括号”),报刊库频次最高的标号则是引号(“”),而括号的使用量仅为论文库的21.7%。
学术论文中的括号多用来标示引文出处,这是受到西方学术引用方式的影响。我国传统引用方式较为笼统简单,通常是将作者或文献名置于所引内容之前,如“子曰”“《书》云”等,这种引用方式强调的是所引内容出自先贤或经典,从而强化引述的权威性;西方学术引用要求详细呈现作者、论著发表/出版时间、引文所在页码或章节等,通常需以括注形式将其置于引文之后,从而突出所引内容,减少出处信息对上下文连贯性的影响。目前中文学术论文也已通用引文后括注出处的征引规范,这是论文库中圆括号频次远高于报刊的重要原因。
括号除了用以标示引文出处外,还有多种标示功能,包括标示说明、补充、确指、强调、举例、交、存、简称、注音、次、外语原词/原文、汉语译词/译文以及提示参看等。例如:
这种情况之所以少见,是因为小句、句子或句段的注释通常较长,插在文中会阻隔上下文,因此小句、句子或句段的注释在学术论文中通常采用脚注或尾注的形式处理;而词语注释数量较大,注释较短,出于阅读友好的考虑,多采用随词括注的形式,避免影响阅读的连贯性。
六. 结语
以往学术汉语词频统计及与通用汉语词频对比的目的比较单一,主要是为了提取学术词语,编制学术词汇表(Coxhead 2000;Gardner&.Davies 2014;李加