《大规模中文文本处理》求取 ⇩

第一章概论1

1.1自然语言处理1

1.1.1 中文信息处理与自然语言处理1

1.1.2 自然语言处理的基本问题2

1.2自然语言处理中的新趋势7

1.2.1 新趋势的特征7

1.2.2 美国的情况8

1.2.3 日本和欧洲的情况14

1.2.4 在中国14

1.2.5 一个并未解决的问题14

1.3 本书内容15

参考文献15

第二章自动分词16

2.1自动分词概述16

2.1.1 分词规范16

2.1.2 自动分词的原则17

2.2词典体系17

2.2.1 词典体系简介17

2.2.2 分析词典18

2.2.3 概念词典20

2.2.4 动态词典22

2.3机械分词方法23

2.3.1 机械分词方法简介23

2.3.2 机械分词方法的局限性24

2.4歧义字段的处理25

2.4.1 歧义处理知识25

2.4.2 一体化分词25

2.4.3 分词规则26

2.4.4 复旦分词系统27

2.5未登录词的处理30

2.5.1 未登录词识别方法综述31

2.5.2 中文姓名的自动辨识31

2.5.3 统计词汇获取33

参考文献36

第三章自动标注38

3.1词性标注与概念标注38

3.1.1 词性标注与概念标注38

3.1.2 歧义的消除39

3.1.3 模型的训练42

3.1.4 词典43

3.2隐马尔可夫模型43

3.2.1 离散马尔可夫过程44

3.2.2 隐马尔可夫模型46

3.2.3 HMM的三个基本问题47

3.2.4 问题1的解法48

3.2.5 问题2的解法49

3.2.6 问题3的解法51

3.3稀疏事件的概率估计53

3.3.1 计数等价类和交叉检验53

3.3.2 留一估计与Turing—Good公式55

3.3.3 空等价类56

3.3.4 有序概率问题57

3.3.5 受约束模型和折扣模型57

3.3.6 联合概率与条件概率59

3.3.7 其他的一些小概率估计算法61

3.4标注算法的一个具体例子62

3.4.1 词类分类标准62

3.4.2 模型选择63

3.4.3 词典的管理64

3.4.4 面向文本解释的标注65

3.4.5 熟语料的增加66

参考文献66

第四章句法分析68

4.1语法分析概要介绍68

4.1.1 句子的几种数据结构表示69

4.1.2 语法表示70

4.1.3 语法分析过程概要71

4.1.4 自然语言语法分析中的歧义性72

4.2语法分析的知识库72

4.2.1 分析词典72

4.2.2 语法分析规则74

4.3传统分析器74

4.3.1 传统LR语法分析器74

4.3.2 传统图算法分析器76

4.4扩展LR算法78

4.4.1 语法分析表的构造79

4.4.2 扩展LR算法过程81

4.4.3 例子84

4.4.4 扩展LR算法的优点和特征89

4.5双向图算法分析器89

4.5.1 传统图算法分析器的不足之处89

4.5.2 规则的触发类90

4.6基于双向图算法的快速部分语法分析91

4.6.1 FIRST分析表和LAST分析表91

4.6.2 弧的竞争机制92

4.6.3 数据结构93

4.6.4 算法94

4.6.5 例子96

4.7处理汉语真实文本中的一些现象97

4.7.1 处理语法错误、文字错误97

4.7.2 句间关系分析98

参考文献100

第五章VSM模型和篇章分析102

5.1 向量空间模型102

5.2项的自动选取及权重评价103

5.2.1 一般考虑103

5.2.2 反比文档频数权重评价104

5.2.3 信噪比104

5.2.4 项的区分度105

5.2.5 一个实用的项的权重评价函数106

5.3文档特征项106

5.3.1 词汇特征与字特征106

5.3.2 短语特征108

5.3.3 项的分类和分类词典109

5.4篇章结构关系图的建立与应用111

5.4.1 篇章结构关系图111

5.4.2 主题分析和聚类112

5.4.3 主题浏览与跳段阅读114

5.5 基于语言学知识的分析方法116

参考文献117

第六章应用技术119

6.1自动索引119

6.1.1 从手工索引到自动索引119

6.1.2 索引词典120

6.1.3 自动索引的过程121

6.2信息检索122

6.2.1 简介122

6.2.2 严格匹配模型124

6.2.3 概率模型125

6.2.4 向量检索模型136

6.3文档分类144

6.3.1 文档分类简述144

6.3.2 有指导的分类145

6.3.3 无指导的分类149

6.4自动文摘153

6.4.1 自动文摘研究概况153

6.4.2 自动文摘的信息处理过程155

6.4.3 自动文摘的评估158

6.4.4 实例:FDASCT文摘系统简介159

参考文献163

附录:术语表167

1997《大规模中文文本处理》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件(由吴立德等著 1997 上海:复旦大学出版社 出版的版本) 。对合法合规的求助,我会当即受理并将下载地址发送给你。