图书介绍
多语自然语言处理 从原理到实践PDF|Epub|txt|kindle电子书版本网盘下载
- (美)DanielM.Bikel,(美)ImedZitouni编 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111484912
- 出版时间:2015
- 标注页数:448页
- 文件大小:91MB
- 文件页数:471页
- 主题词:自然语言处理-研究
PDF下载
下载说明
多语自然语言处理 从原理到实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 理论2
第1章 找出词的结构2
1.1 词及其部件2
1.1.1 词元2
1.1.2 词形3
1.1.3 词素4
1.1.4 类型学5
1.2 问题和挑战6
1.2.1 不规则性6
1.2.2 歧义性7
1.2.3 能产性9
1.3 形态模型10
1.3.1 查词典11
1.3.2 有限状态形态11
1.3.3 基于合一的形态13
1.3.4 函数式形态13
1.3.5 形态归纳14
1.4 总结15
第2章 找出文档的结构21
2.1 概述21
2.1.1 句子边界检测22
2.1.2 主题边界检测23
2.2 方法24
2.2.1 生成序列分类方法25
2.2.2 判别性局部分类方法26
2.2.3 判别性序列分类方法28
2.2.4 混合方法28
2.2.5 句子分割的全局建模扩展29
2.3 方法的复杂度29
2.4 方法的性能30
2.5 特征30
2.5.1 同时用于文本与语音的特征30
2.5.2 只用于文本的特征32
2.5.3 语音特征33
2.6 处理阶段35
2.7 讨论35
2.8 总结36
第3章 句法42
3.1 自然语言分析42
3.2 树库:句法分析的数据驱动方法43
3.3 句法结构的表示46
3.3.1 使用依存图的句法分析46
3.3.2 使用短语结构树的句法分析49
3.4 分析算法52
3.4.1 移进归约分析53
3.4.2 超图和线图分析53
3.4.3 最小生成树和依存分析58
3.5 分析中的歧义消解模型59
3.5.1 概率上下文无关文法59
3.5.2 句法分析的生成模型61
3.5.3 句法分析的判别模型62
3.6 多语言问题:什么是词元65
3.6.1 词元切分、实例和编码65
3.6.2 分词66
3.6.3 形态学67
3.7 总结68
第4章 语义分析71
4.1 概述71
4.2 语义解释72
4.2.1 结构歧义72
4.2.2 词义72
4.2.3 实体与事件消解73
4.2.4 谓词-论元结构73
4.2.5 意义表示73
4.3 系统范式74
4.4 词义74
4.4.1 资源76
4.4.2 系统77
4.4.3 软件85
4.5 谓词-论元结构85
4.5.1 资源86
4.5.2 系统89
4.5.3 软件106
4.6 意义表示106
4.6.1 资源107
4.6.2 系统108
4.6.3 软件109
4.7 总结109
4.7.1 词义消歧110
4.7.2 谓词-论元结构110
4.7.3 意义表示111
第5章 语言模型122
5.1 概述122
5.2 n元模型122
5.3 语言模型评价123
5.4 参数估计123
5.4.1 最大似然估计和平滑123
5.4.2 贝叶斯参数估计125
5.4.3 大规模语言模型126
5.5 语言模型适应127
5.6 语言模型的类型128
5.6.1 基于类的语言模型128
5.6.2 变长语言模型129
5.6.3 判别式语言模型129
5.6.4 基于句法的语言模型130
5.6.5 最大熵语言模型131
5.6.6 因子化语言模型132
5.6.7 其他基于树的语言模型133
5.6.8 基于主题的贝叶斯语言模型134
5.6.9 神经网络语言模型135
5.7 特定语言建模问题136
5.7.1 形态丰富语言的建模136
5.7.2 亚词单元的选择138
5.7.3 形态类别建模139
5.7.4 无分词语言140
5.7.5 口语与书面语言140
5.8 多语言和跨语言建模141
5.8.1 多语言建模141
5.8.2 跨语言建模141
5.9 总结143
第6章 文本蕴涵识别151
6.1 概述151
6.2 文本识别蕴涵任务151
6.2.1 问题定义152
6.2.2 RTE的挑战153
6.2.3 评估文本蕴涵系统性能154
6.2.4 文本蕴涵解决方案的应用155
6.2.5 其他语言中的RTE研究157
6.3 文本蕴涵识别的框架158
6.3.1 要求158
6.3.2 分析159
6.3.3 有用的组件159
6.3.4 通用模型162
6.3.5 实现164
6.3.6 对齐168
6.3.7 推理171
6.3.8 训练172
6.4 案例分析172
6.4.1 抽取语篇约束172
6.4.2 基于编辑距离的RTE173
6.4.3 基于转换的方法174
6.4.4 逻辑表示及推理176
6.4.5 独立于蕴涵学习对齐176
6.4.6 在RTE中利用多对齐177
6.4.7 自然逻辑177
6.4.8 句法树核178
6.4.9 使用有限依存上下文的全局相似度178
6.4.10 RTE的潜在对齐推理179
6.5 RTE的进一步研究179
6.5.1 改进分析器179
6.5.2 发明或解决新问题180
6.5.3 开发知识库180
6.5.4 更好的RTE评价181
6.6 有用资源182
6.6.1 文献182
6.6.2 知识库182
6.6.3 自然语言处理包182
6.7 总结183
第7章 多语情感与主观性分析188
7.1 概述188
7.2 定义188
7.3 英语中的情感及主观性分析190
7.3.1 词典190
7.3.2 语料库191
7.3.3 工具191
7.4 词级和短语级标注192
7.4.1 基于字典的方法192
7.4.2 基于语料库的方法194
7.5 句子级标注196
7.5.1 基于字典196
7.5.2 基于语料库197
7.6 文档级标注198
7.6.1 基于字典198
7.6.2 基于语料库199
7.7 什么有效,什么无效200
7.7.1 最佳情况:已有人工标注的语料库200
7.7.2 次优情形:基于语料库的跨语言映射200
7.7.3 第三优情形:孳衍词典201
7.7.4 第四优情形:翻译词典201
7.7.5 各种可行方法的比较201
7.8 总结202
第二部分 实践208
第8章 实体检测和追踪208
8.1 概述208
8.2 提及检测209
8.2.1 数据驱动的分类210
8.2.2 搜索提及211
8.2.3 提及检测特征213
8.2.4 提及检测实验215
8.3 共指消解216
8.3.1 Bell树的构建217
8.3.2 共指模型:链接和引入模型218
8.3.3 最大熵链接模型219
8.3.4 共指消解实验220
8.4 总结221
第9章 关系和事件225
9.1 概述225
9.2 关系与事件225
9.3 关系类别226
9.4 将关系抽取视为分类227
9.4.1 算法227
9.4.2 特征228
9.4.3 分类器230
9.5 关系抽取的其他方法231
9.5.1 无监督和半监督方法231
9.5.2 核方法232
9.5.3 实体和关系检测的联合方法233
9.6 事件233
9.7 事件抽取方法234
9.8 超句235
9.9 事件匹配235
9.10 事件抽取的未来方向237
9.11 总结237
第10章 机器翻译241
10.1 机器翻译现状241
10.2 机器翻译评测241
10.2.1 人工评测242
10.2.2 自动评测243
10.2.3 WER、BLEU、METEOR等244
10.3 词对齐246
10.3.1 共现246
10.3.2 IBM模型1247
10.3.3 期望最大化247
10.3.4 对齐模型248
10.3.5 对称化248
10.3.6 作为机器学习问题的词对齐250
10.4 基于短语的翻译模型250
10.4.1 模型251
10.4.2 训练251
10.4.3 解码252
10.4.4 立方剪枝254
10.4.5 对数线性模型和参数调节254
10.4.6 控制模型的大小255
10.5 基于树的翻译模型256
10.5.1 层次短语翻译模型256
10.5.2 线图解码257
10.5.3 基于句法的模型258
10.6 语言学挑战259
10.6.1 译词选择259
10.6.2 形态学260
10.6.3 词序260
10.7 工具和数据资源261
10.7.1 基本工具261
10.7.2 机器翻译系统262
10.7.3 平行语料262
10.8 未来的方向262
10.9 总结263
第11章 跨语言信息检索267
11.1 概述267
11.2 文档预处理268
11.2.1 文档句法和编码268
11.2.2 词元化270
11.2.3 规范化271
11.2.4 预处理最佳实践272
11.3 单语信息检索272
11.3.1 文档表示272
11.3.2 索引结构273
11.3.3 检索模型274
11.3.4 查询扩展275
11.3.5 文档先验模型276
11.3.6 模型选择的最佳实践276
11.4 CLIR277
11.4.1 基于翻译的方法277
11.4.2 机器翻译278
11.4.3 中间语言文档表示279
11.4.4 最佳实践280
11.5 多语言信息检索280
11.5.1 语言识别280
11.5.2 MLIR的索引建立281
11.5.3 翻译查询串281
11.5.4 聚合模型282
11.5.5 最佳实践282
11.6 信息检索的评价283
11.6.1 建立实验环境283
11.6.2 相关性评估284
11.6.3 评价指标284
11.6.4 已有数据集285
11.6.5 最佳实践286
11.7 工具、软件和资源287
11.8 总结288
第12章 多语自动文摘291
12.1 概述291
12.2 自动文摘方法293
12.2.1 传统方法293
12.2.2 基于图的方法294
12.2.3 学习如何做摘要297
12.2.4 多语自动摘要300
12.3 评测302
12.3.1 人工评价302
12.3.2 自动评价304
12.3.3 自动文摘评测系统的近期发展306
12.3.4 多语自动文摘的自动评测方法307
12.4 如何搭建自动文摘系统307
12.4.1 材料309
12.4.2 工具309
12.4.3 说明310
12.5 评测竞赛和数据集311
12.5.1 评测竞赛311
12.5.2 数据集311
12.6 总结312
第13章 问答系统317
13.1 概述和历史317
13.2 架构318
13.3 源获取和预处理320
13.4 问题分析322
13.5 搜索及候选抽取324
13.5.1 非结构化资源搜索324
13.5.2 非结构化源文本的候选抽取326
13.5.3 结构化源文本的候选抽取329
13.6 回答评分330
13.6.1 方法概述330
13.6.2 证据结合331
13.6.3 扩展到列表型问题332
13.7 跨语言问答332
13.8 案例研究334
13.9 评测337
13.9.1 评测任务337
13.9.2 判断答案正确性338
13.9.3 性能度量339
13.10 当前和未来的挑战340
13.11 总结和进一步阅读341
第14章 提炼348
14.1 概述348
14.2 示例349
14.3 相关性和冗余性349
14.4 Rosetta Consortium提炼系统351
14.4.1 文档和语料库准备351
14.4.2 索引354
14.4.3 查询回答354
14.5 其他提炼方法357
14.5.1 系统架构357
14.5.2 相关度357
14.5.3 冗余358
14.5.4 多模态提炼358
14.5.5 跨语言提炼359
14.6 评测和指标360
14.7 总结362
第15章 口语对话系统364
15.1 概述364
15.2 口语对话系统364
15.2.1 语音识别和理解365
15.2.2 语音生成367
15.2.3 对话管理器367
15.2.4 语音用户接口369
15.3 对话形式371
15.4 自然语言呼叫路由选择372
15.5 三代对话应用372
15.6 持续的改进循环373
15.7 口语句子的转录和标注374
15.8 口语对话系统的本地化374
15.8.1 呼叫流程本地化375
15.8.2 提示本地化375
15.8.3 文法的本地化376
15.8.4 源端数据376
15.8.5 训练377
15.8.6 测试377
15.9 总结379
第16章 聚合自然语言处理引擎381
16.1 概述381
16.2 聚合语音和NLP引擎架构的期望属性382
16.2.1 灵活的分布式组件化382
16.2.2 计算效率382
16.2.3 数据操作功能383
16.2.4 鲁棒性处理383
16.3 聚合的架构383
16.3.1 UIMA384
16.3.2 GATE385
16.3.3 InfoSphere Streams386
16.4 案例研究386
16.4.1 GALE互操作性演示系统387
16.4.2 跨语言自动语言开发系统391
16.4.3 实时翻译服务393
16.5 经验教训393
16.5.1 分割涉及延迟和精度之间的权衡393
16.5.2 联合优化与互操作性393
16.5.3 数据模型需要使用约定394
16.5.4 性能评估的挑战394
16.5.5 引擎的前向波训练394
16.6 总结394
16.7 UIMA样本代码395
索引401