《大规模中文文本处理》

第一章概论1

1.1自然语言处理1

1.1.1 中文信息处理与自然语言处理1

1.1.2 自然语言处理的基本问题2

1.2自然语言处理中的新趋势7

1.2.1 新趋势的特征7

1.2.2 美国的情况8

1.2.3 日本和欧洲的情况14

1.2.4 在中国14

1.2.5 一个并未解决的问题14

1.3 本书内容15

参考文献15

第二章自动分词16

2.1自动分词概述16

2.1.1 分词规范16

2.1.2 自动分词的原则17

2.2词典体系17

2.2.1 词典体系简介17

2.2.2 分析词典18

2.2.3 概念词典20

2.2.4 动态词典22

2.3机械分词方法23

2.3.1 机械分词方法简介23

2.3.2 机械分词方法的局限性24

2.4歧义字段的处理25

2.4.1 歧义处理知识25

2.4.2 一体化分词25

2.4.3 分词规则26

2.4.4 复旦分词系统27

2.5未登录词的处理30

2.5.1 未登录词识别方法综述31

2.5.2 中文姓名的自动辨识31

2.5.3 统计词汇获取33

参考文献36

第三章自动标注38

3.1词性标注与概念标注38

3.1.1 词性标注与概念标注38

3.1.2 歧义的消除39

3.1.3 模型的训练42

3.1.4 词典43

3.2隐马尔可夫模型43

3.2.1 离散马尔可夫过程44

3.2.2 隐马尔可夫模型46

3.2.3 HMM的三个基本问题47

3.2.4 问题1的解法48

3.2.5 问题2的解法49

3.2.6 问题3的解法51

3.3稀疏事件的概率估计53

3.3.1 计数等价类和交叉检验53

3.3.2 留一估计与Turing—Good公式55

3.3.3 空等价类56

3.3.4 有序概率问题57

3.3.5 受约束模型和折扣模型57

3.3.6 联合概率与条件概率59

3.3.7 其他的一些小概率估计算法61

3.4标注算法的一个具体例子62

3.4.1 词类分类标准62

3.4.2 模型选择63

3.4.3 词典的管理64

3.4.4 面向文本解释的标注65

3.4.5 熟语料的增加66

参考文献66

第四章句法分析68

4.1语法分析概要介绍68

4.1.1 句子的几种数据结构表示69

4.1.2 语法表示70

4.1.3 语法分析过程概要71

4.1.4 自然语言语法分析中的歧义性72

4.2语法分析的知识库72

4.2.1 分析词典72

4.2.2 语法分析规则74

4.3传统分析器74

4.3.1 传统LR语法分析器74

4.3.2 传统图算法分析器76

4.4扩展LR算法78

4.4.1 语法分析表的构造79

4.4.2 扩展LR算法过程81

4.4.3 例子84

4.4.4 扩展LR算法的优点和特征89

4.5双向图算法分析器89

4.5.1 传统图算法分析器的不足之处89

4.5.2 规则的触发类90

4.6基于双向图算法的快速部分语法分析91

4.6.1 FIRST分析表和LAST分析表91

4.6.2 弧的竞争机制92

4.6.3 数据结构93

4.6.4 算法94

4.6.5 例子96

4.7处理汉语真实文本中的一些现象97

4.7.1 处理语法错误、文字错误97

4.7.2 句间关系分析98

参考文献100

第五章VSM模型和篇章分析102

5.1 向量空间模型102

5.2项的自动选取及权重评价103

5.2.1 一般考虑103

5.2.2 反比文档频数权重评价104

5.2.3 信噪比104

5.2.4 项的区分度105

5.2.5 一个实用的项的权重评价函数106

5.3文档特征项106

5.3.1 词汇特征与字特征106

5.3.2 短语特征108

5.3.3 项的分类和分类词典109

5.4篇章结构关系图的建立与应用111

5.4.1 篇章结构关系图111

5.4.2 主题分析和聚类112

5.4.3 主题浏览与跳段阅读114

5.5 基于语言学知识的分析方法116

参考文献117

第六章应用技术119

6.1自动索引119

6.1.1 从手工索引到自动索引119

6.1.2 索引词典120

6.1.3 自动索引的过程121

6.2信息检索122

6.2.1 简介122

6.2.2 严格匹配模型124

6.2.3 概率模型125

6.2.4 向量检索模型136

6.3文档分类144

6.3.1 文档分类简述144

6.3.2 有指导的分类145

6.3.3 无指导的分类149

6.4自动文摘153

6.4.1 自动文摘研究概况153

6.4.2 自动文摘的信息处理过程155

6.4.3 自动文摘的评估158

6.4.4 实例:FDASCT文摘系统简介159

参考文献163

附录:术语表167

1997《大规模中文文本处理》由于是年代较久的资料都绝版了,几乎不可能购买到实物。如果大家为了学习确实需要,可向博主求助其电子版PDF文件(由吴立德等著 1997 上海:复旦大学出版社 出版的版本) 。对合法合规的求助,我会当即受理并将下载地址发送给你。

高度相关资料

中文Windows 95图文处理例集(1997 PDF版)
中文Windows 95图文处理例集
1997 南京:东南大学出版社
公文处理规范( PDF版)
公文处理规范
Vim 8文本处理实战(2020 PDF版)
Vim 8文本处理实战
2020
公文处理(1941.12 PDF版)
公文处理
1941.12 中央训练委员会
模具材料及其热处理译文集( PDF版)
模具材料及其热处理译文集
中文/英文文书处理  下( PDF版)
中文/英文文书处理 下
莹圃电脑出版社
WORDSTAR 文书处理处门( PDF版)
WORDSTAR 文书处理处门
上海电子计算机厂
符号处理语言FCY文本(1977 PDF版)
符号处理语言FCY文本
1977 中国科学院数学研究所计算站
中文Windows图文处理教程(1996 PDF版)
中文Windows图文处理教程
1996 北京:人民邮电出版社
文书处理与中文Word(1996 PDF版)
文书处理与中文Word
1996 上海:上海交通大学出版社
计算机中文信息处理技术(1992 PDF版)
计算机中文信息处理技术
1992 成都:电子科技大学出版社
模具热处理(1981 PDF版)
模具热处理
1981 长沙:湖南科学技术出版社
文化中国之旅全集  第2册  历史人物之旅(1987 PDF版)
文化中国之旅全集 第2册 历史人物之旅
1987 华严出版社
模具热处理  2(1966 PDF版)
模具热处理 2
1966 上海市科学技术编译馆
文函处理大师 Word 97中文版(1997 PDF版)
文函处理大师 Word 97中文版
1997 北京:人民邮电出版社