语料库

科学取样加工的大规模电子文本库
语料库是指通过科学取样和加工而形成的大规模电子文本库,其内容来源于实际使用的语言材料。语料库作为基础资源,可用于语言理论及应用研究,包括词典编纂、语言教学、传统语言研究等领域。语料库的发展经历了多个阶段,其中第三代语料库是一种动态流通的语料库,它不仅记录了语言的历史演变,还反映了当前语言的使用情况[1][2][3]

基本概念

名称由来

语料库(corpus,复数corpora)一词源于拉丁语,指的是大规模的电子文本集合,这些文本经过科学取样和加工,可供研究人员利用计算机工具进行语言研究。

库内资料