《表1 CONTEC语料库选材结构》

《表1 CONTEC语料库选材结构》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《“第三码”再解析——基于自建语料库CONTEC的汉译英简化共性量化研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本研究原计划选取fiction,non-fiction,news和academic四种语类创建语料库,但在创建过程中,由于语料获取困难,最终建成的CONTECT语料库由小说和新闻组成,具有“一定的可比性[17]。”CONT-EC语料库的语料均是公开发表、由中国人直接用英文创作(NNW),以及由中国专家从中文翻译成英文的语料(TR),另外还包括与这两种语类相对应的英语母语参照语料(NS),总容量近680万词(见表1)。语料样本的出版日期基本上在1991-2001年之间,文本从网上爱问共享资料下载或由纸质出版物扫描,用文字识别软件ABBYY FineReader转换成纯文本后,用CLAWS4完成词性标注工作。