《表1 CONTEC语料库选材结构》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《“第三码”再解析——基于自建语料库CONTEC的汉译英简化共性量化研究》
本研究原计划选取fiction,non-fiction,news和academic四种语类创建语料库,但在创建过程中,由于语料获取困难,最终建成的CONTECT语料库由小说和新闻组成,具有“一定的可比性[17]。”CONT-EC语料库的语料均是公开发表、由中国人直接用英文创作(NNW),以及由中国专家从中文翻译成英文的语料(TR),另外还包括与这两种语类相对应的英语母语参照语料(NS),总容量近680万词(见表1)。语料样本的出版日期基本上在1991-2001年之间,文本从网上爱问共享资料下载或由纸质出版物扫描,用文字识别软件ABBYY FineReader转换成纯文本后,用CLAWS4完成词性标注工作。
图表编号 | XD0084160100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.08.25 |
作者 | 凌征华、林泽欣 |
绘制单位 | 江西理工大学外语外贸学院、江西理工大学外语外贸学院 |
更多格式 | 高清、无水印(增值服务) |