中共中央办公厅2022年4月印发的《国家“十四五”时期哲学社会科学发展规划》强调,要推动大数据、云计算、人工智能等在哲学社会科学领域的应用,促进社会科学与自然科学的交叉渗透和融合创新,进一步拓展学科内涵,创新研究方法和技术手段。对于一个国家来说,语言是重要的历史资源、文化资源、语言现实生活资源。语料库则是由大量在真实情况下使用的语言信息集成的专供研究使用的资料库,承载着民族语言文化的基础信息,记录着语言文化发展的历史。
目前,语料库已被广泛应用于语文教学、语言研究、语言文字规范标准制定、辞书编纂、语言信息处理等诸多方面。在语文教学方面,语料库可以为语文教学大纲的制定提供依据,为语文教学提供丰富的教学材料,提高语文教学的科学性。在语言研究方面,语料库可以为语言本体研究提供真实的语言素材,助推理论观点的发现和总结,同时也为语言理论的验证提供了数据支持。在语言文字规范标准制定方面,语料库既可以直接服务于对语言文字真实使用状况的调查,也可以对制定的规范标准进行分析和验证。在辞书编纂方面,语料库可以提供候选词目,提供自然使用的例句,为归纳释义提供真实语言材料等,避免辞书编纂过于依赖编纂人员的个人直觉和经验,从而提高辞书内容质量。在语言信息处理方面,自然语言处理技术已成为新一代人工智能的关键共性技术,自然语言处理技术的突破除新算法的研制外,高质量、深度加工、反映最新语言学理论的语料库也必不可少。可以说,语料库在多个领域发挥着越发重要的作用。
许多国家都将语料库建设视为重要的基础工程,并建设了国家语料库。比如,英国国家语料库(BNC)于1991年开始建设,1994年完成第一版,此后在2001年和2017年相继发布了第二版、第三版,规模为1亿词。美国国家语料库(ANC)于1998年开始筹划,2003年发布第一版(规模为1110万词),2005年发布了第二版(规模为2200万词),2006年以后开始专注于开放的语料库(OANC)和人工标注子库(MASC)的建设。美国国家语料库的建设直接对标英国国家语料库,语料的共时部分也设计为1亿词,目前还在建设中。韩国政府于1998年启动了“21世纪世宗计划”项目,建设2亿词单元(eojul)的韩国国家语料库(KNC),如今已经完成。此外,俄罗斯、匈牙利、泰国、爱沙尼亚等国家也都建设并发布了各自的国家语料库。这些国家语料库均是平衡语料库,都对语料库进行了切分、标注等加工,为促进本国语言研究发挥了积极作用。
由此可见,国家语料库是由国家级机构或国家指定机构建设与把关、具有国家级水准、以国家通用语为对象的重大文化工程。国家语料库应具备规模大、平衡性好、综合性强、动态更新、标注丰富、用途多样、开放共享、使用便利等特点,能够真实反映国家通用语使用与发展的全貌。建设我国的国家语料库已成为迫在眉睫的任务。我国语料库的建设在20世纪70年代开始起步,目前已建成了多个汉语语料库,如几所高校和科研院所独立建设的规模不等的语料库,这些语料库对国家通用语教育与研究发挥了积极作用。但是,由于这些语料库在建设之初或多或少存在临时性、局部性、短期性、功能单一性等限制,缺乏长远考虑和全局性设计,未能全面反映国家通用语使用的现状。需要指出的问题主要有以下几点。
其一,语料库采样不平衡,多为书面语语料,缺少口语语料。比如,目前在汉语学界使用率很高的某语料库,其当代语料中报刊语料的占比高达70%以上,而口语语料占比不足0.3%。有的语料库仅将某一年度的微博文本作为口语语料,有的很大规模的语料库甚至没有收录口语语料。其实,从学术价值上说,口语语料是反映语言使用真实状况不可或缺的种类,是语言个性的直接体现。在一些语言研究成熟国家的语料库里,也是口语语料有不少占比,这切合学理。比如,英国国家语料库90%为书面语语料,10%为口语语料;美国国家语料库第一版的1100万词的语料中,书面语语料有800万词,口语语料有300万词。
其二,样本大小未加以控制,同等规模的语料库文本覆盖面较窄。有的语料库未对样本大小进行控制,同样影响了语料库的平衡性与代表性。比如,有的语料库对现当代作家作品全文收录,而标准的平衡语料库应避免同一作者的文学作品过多、过长、比重过大,否则会影响语料库的平衡性。在这方面,如英国国家语料库最多只从单一作者作品的不同部分中抽取45000词的样本。
其三,语料库没有或缺少定期更新计划,难以进行基于历时平衡语料的研究。历时语料库的建设需要及早设计和规划,并长期跟进。目前运行中的多数语料库尚对此缺乏足够的重视。国家语料库应制定长远的定期更新计划,如美国国家语料库除1亿词的共时语料外,还计划每5年再动态增加10%的规模。
其四,语料媒体形式较为单一。国内现有大型语料库中的语料多为文本形式,多媒体形式的语料库规模均比较小,取材受限,无法反映汉语使用的全貌,尤其是鲜活口语使用的面貌。处于国际研究前沿的基于“多媒体、多模态”语料库的研究越来越多,但国家通用语的多媒体、多模态语料库的建设仍相对滞后。
其五,语料库应用系统功能不足。如果语料库应用系统缺乏丰富的功能,将无法为使用者提供应有的服务,语料库的应用价值和建设意义也将大打折扣。在语料库应用方面,许多国外语料库都有功能强大的应用平台,提供了丰富的应用功能,如用例检索、频次统计、搭配发现、对比分析等。CQPweb、Sketch Engine等互联网语料库应用平台是未来发展的主流方向,可以使用计算机阵列进行复杂运算,提供丰富的语料库应用功能。与上述软件和平台相比,国内语料库大多只提供用例检索功能,仅少数语料库提供简单统计词表功能,离语言学的深入研究需求相去甚远。尤其是在多媒体、多模态语料库数据集成查询和分析研究方面,从理论探索到实际应用软件开发都还有较长的路要走。
从长远看,如果语料库不能满足语言调查与研究的实际需求,则会成为学科发展、科学研究、交流合作的阻碍。国家语料建设的价值和意义主要体现在以下三个方面:其一,国家语料库可以更全面地反映国家通用语使用与发展全貌,是国家软实力的体现,也是亟待建设的重要资源;其二,国家语料库建设有助于填补学界缺少大型国家通用语动态平衡语料库的空白,从而更好地为语言研究服务;其三,国家语料库建设将推动一批研究工作的开展,除语言学领域的大型国家通用语描写语法研究、语言生活的多视角调查、多方面语言发展演变研究、语言本体与语言信息处理的互动研究以外,也可以服务于文史哲及社会科学领域的数字人文、舆情观察等。
在上述背景下,中国社会科学院语言研究所启动了国家语料库的建设。时机成熟、积累丰厚、掌握获取和加工处理的新技术,是这个项目的优势所在。但我们也清楚地意识到,这个起步于新时代新发展阶段的新型语料库,具有新的使命,也面临新的挑战。我们面对的是具有5000多年文明史的伟大中华文化遗产的语言文字宝库。如何在借鉴国际上成熟语料库建设经验的同时,更好地立足于我国语言文化的主体性,建立基于中华语言文字特点的语料分类体系,全面融通现代语言学成果和我国文化特点,是一个重大挑战。在此前提下,我们将面临系统研究建库原则的理论任务,在新原则新标准下重新整合现有资源、重新采集整理适用资源等艰巨的操作性任务,以及培养交叉型、复合型人才的任务。作为一个“动态”语料库,需要支持多单位、多用户协作建设,支持语料的采编流程管理和内容的动态更新,能够实现复合条件下各种词表、统计分析数据的高并发、低延时响应。这样的目标对语料库索引和查询技术、语料库应用平台建设提出了要求。因此,为保证国家通用语教学和研究的高效推进,我们有信心建设好规模大、平衡性好、综合性强、动态更新、标注丰富、用途多样、开放共享、使用便利的中国国家语料库,为国家通用语的教育和研究提供更好的保障与支持。
(作者系中国社会科学院语言研究所所长、研究员;中国社会科学院语言研究所副研究员)
文章转载自“中国社会科学网”