《表5 排名前20的新词词频》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向活动的网络媒体监测与建模分析:IVFC案例解析》
为了有效获取领域词汇,本文基于分词结果使用N-Gram算法进行识别。早期,中文领域的新词发现主要基于概率统计技术和关联规则等方法[18-19],近年采用基于条件随机场、信息熵、信息传播特性以及融合规则等方法[20-22]取得了不错的效果。相关实验证明了在基于词和基于字符的新词识别试验中,基于词的N-Gram识别效率更高[19]。识别出的新词及词频见表5。
图表编号 | XD00128228200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 孙星恺、王晓、陆浩 |
绘制单位 | 中国科学院自动化研究所复杂系统管理与控制国家重点实验室、中国科学院大学、中国科学院自动化研究所复杂系统管理与控制国家重点实验室、青岛智能产业技术研究院、中国科学院自动化研究所复杂系统管理与控制国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |