图书介绍

Lucene IN ACTION 中文版 Java搜索引擎指南PDF|Epub|txt|kindle电子书版本网盘下载

（美）Otis Gospodnetic，（美）Erik Hatcher著；谭鸿等译著
出版社：北京：电子工业出版社
ISBN：7121032171
出版时间：2007
标注页数：393页
文件大小：28MB
文件页数：425页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：7403c05f2e30b025644086ee9ba0291a

下载说明

Lucene IN ACTION 中文版 Java搜索引擎指南PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1部分 Lucene的核心2

第1章初识Lucene2

推荐序3

1.1 信息组织和访问的发展历程3

译者序5

1.2 理解Lucene5

1.2.1 Lucene是什么5

1.2.2 Lucene能做些什么6

1.2.3 Lucene的历史7

1.2.5 Lucene移植：Perl、Python、C＋＋、.NET及Ruby版本8

1.3 索引和搜索8

1.2.4 使用Lucene的组织8

1.3.2 什么是搜索9

1.3.1 什么是索引，为什么如此重要？9

1.4 Lucene实践：一个应用实例9

1.4.1 创建一个索引10

前言113

1.4.2 搜索一个索引13

前言215

1.5 理解索引过程的核心类16

1.5.1 IndexWriter16

1.5.2 Directory17

1.5.3 Analyzer17

致谢18

1.5.4 Document18

1.5.5 Field18

1.6 理解搜索过程的核心类20

1.6.1 IndexSearcher20

1.6.2 Term20

1.6.5 Hits21

1.7 可选择的同类产品21

关于此书21

1.6.4 TermQuery21

1.6.3 Query21

1.7.1 信息检索工具库22

1.7.2 索引与搜索应用程序23

1.7.3 在线资源24

1.8 小结24

第2章索引26

2.1 理解索引过程27

2.1.1 转换成文本28

2.1.2 分析28

2.1.3 将分析过后的数据写入索引29

2.2 基本索引操作29

2.2.1 向索引添加文档29

2.2.2 删除索引中的文档31

2.2.3 恢复被删除的文档33

2.2.4 更新索引中的文档34

2.3 增强Document和Field对象35

2.4 索引日期37

2.5 索引数字38

2.6 索引Field对象用于排序39

2.7 控制索引过程39

2.7.1 调整索引性能39

2.7.2 内存中的索引：RAMDirectory45

2.7.3 限制域的大小：maxFieldLength50

2.8 优化索引51

2.9 并发性、线程安全性以及锁机制54

2.9.1 并发访问的规则55

2.9.2 线程安全性55

2.9.3 索引锁机制57

2.9.4 禁用索引锁61

2.10 调试索引过程61

2.11 小结62

第3章为应用程序添加搜索功能63

3.1 实现一个简单的搜索程序64

3.1.1 对特定项（specific term）的搜索65

3.1.2 解析用户输入的查询表达式：QueryParser66

3.2 使用IndexSearcher69

3.2.1 使用Hits70

3.2.2 通过Hits分页显示搜索结果71

3.2.3 将索引读入内存72

3.3 理解Lucene的评分机制72

3.3.1 关于Lucene，还有更多的解释74

3.4 在程序代码中创建Query对象75

3.4.1 通过项进行搜索：TermQuery76

3.4.2 在指定范围内搜索：RangeQuery77

3.4.3 通过字符串进行搜索：PrefixQuery78

3.4.4 组合查询：BooleanQuery79

3.4.5 通过短语搜索：PhraseQuery81

3.4.6 使用通配符搜索：WildcardQuery84

3.4.7 搜索类似项：FuzzyQuery85

3.5 解析查询表达式：QueryParser87

3.5.1 Query类的toString（）方法87

3.5.2 布尔操作符88

3.5.5 在指定范围搜索89

3.5.4 域的选择89

3.5.3 查询组合89

3.5.6 短语查询91

3.5.7 通配符和前缀查询92

3.5.8 模糊查询93

3.5.9 对查询进行加权操作93

3.5.10 需不需要使用QueryParse？93

3.6 小结94

第4章分析95

4.1 使用分析器97

4.1.1 索引过程中的分析98

4.1.2 QueryParser分析99

4.1.3 解析vs分析：分析器何时不适用100

4.2 剖析分析器100

4.2.1 语汇单元的组成101

4.2.2 TokenStream揭密102

4.2.3 观察分析器104

4.2.4 过滤顺序的重要性108

4.3 使用内置的分析器111

4.3.1 StopAnalyzer111

4.3.2 StandardAnalyzer112

4.4 处理关键词域113

4.4.1 更换关键字分析器116

4.5 近音词查询117

4.6 同义词、别名以及其他表示相同意义的词120

4.6.1 显示语汇单元的位置126

4.7 词干分析127

4.7.1 保留空位128

4.7.2 PositionalPorterStopAnalyzer129

4.7.3 为保留停用词空位所带来的问题129

4.8 语言分析131

4.8.1 Unicode及字符编码132

4.8.2 非英语语种分析132

4.8.3 亚洲语种分析133

4.8.4 非英语语种分析引起的其他一些问题136

4.9 Nutch分析136

4.10 小结138

第5章高级搜索技术139

5.1 对搜索结果进行排序140

5.1.1 使用排序方法140

5.1.2 通过相关性进行排序142

5.1.3 按照索引顺序排序143

5.1.4 通过某个域进行排序144

5.1.5 以相反顺序排序145

5.1.6 根据多个域进行排序145

5.1.7 为排序域选择一个类型147

5.1.8 使用非默认的locale方式排序147

5.1.9 排序对性能的影响147

5.2 使用PhrasePrefixQuery148

5.3 一次实现在多个域上的查询150

5.4 跨度查询：Lucene新的隐藏法宝152

5.4.1 跨度查询的构件模块——SpanTermQuery154

5.4.2 在一个域的起点查找跨度156

5.4.3 彼此相邻的跨度156

5.4.4 在匹配结果中排除相互交迭的跨度158

5.4.5 全局跨度查询159

5.4.6 SpanQuery类和QueryParser类161

5.5 搜索过滤161

5.5.1 DateFilter的使用162

5.5.2 使用Queryfilter164

5.5.3 安全过滤器165

5.5.4 QueryFilter的过滤器的替代方案166

5.5.5 缓存过滤器的结果167

5.5.6 更多非内置的的过滤器168

5.6 对多个索引的搜索168

5.6.1 使用MultiSearcher168

5.6.2 使用ParallelMultiSearcher进行多线程搜索170

5.7 使用项向量175

5.7.1 查找相似书籍176

5.7.2 它属于哪个类别？180

5.8 小结183

第6章扩展搜索184

6.1 使用自定义的排序方法185

6.1.1 访问用于自定义排序的值190

6.2 编写自定义的HitCollector191

6.2.1 关于BookLinkCollector192

6.2.2 使用BookLinkCollector192

6.3 扩展QueryParser193

6.3.1 自定义QueryParser的行为193

6.3.2 禁用模糊查询和通配符查询194

6.3.3 对数值域的范围查询的处理195

6.3.4 对已排序短语进行查询198

6.4 使用自定义过滤器199

6.4.1 使用过滤后的查询202

6.5 性能测试203

6.5.1 对搜索速度进行测试204

6.5.2 负载测试207

6.5.3 再议QueryParser！209

6.6 小结210

6.5.4 性能测试的本意210

第2部分 Lucene的应用212

第7章对常用格式的文档进行解析212

7.1 对富文本文档进行处理213

7.1.1 建立一个通用的DocumentHandler接口214

7.2 索引XML文档215

7.2.1 用SAX API进行解析并索引216

7.2.2 使用Digester来分析和索引219

7.3.1 使用PDFBox提取文本和索引224

7.3 索引PDF文档224

7.3.2 PDFBox内置的支持Lucene特性228

7.4 索引HTML文档230

7.4.1 获取HTML源数据230

7.4.2 使用JTidy231

7.4.3 使用NekoHTML234

7.5 索引Microsoft Word文档237

7.5.1 使用POI237

7.5.2 使用TextMining.org包的API238

7.6 索引RTF文档240

7.7 索引纯文本文档241

7.8 创建文档处理框架242

7.8.1 FileHandler接口244

7.8.2 ExtensionFileHandler类244

7.8.3 应用程序FileIndexer247

7.8.4 FileIndexer的使用250

7.8.5 FileIndexer的缺陷，以及如何扩展这个框架250

7.9 其他文本提取工具251

7.9.1 文档管理系统及相关服务252

7.10 小结253

第8章 Lucene的相关工具及其扩展254

8.1 Lucene的Sandbox工具包的使用255

8.2 与索引的交互256

8.2.1 lucli：一个命令行接口程序256

8.2.2 Luke:Lucene索引的工具箱258

8.2.3 LIMO:Lucene索引监视器265

8.3 Analyzers、tokenizers和TokenFilters268

8.3.1 SnowballAnalyzer269

8.4.1 使用〈index〉task270

8.4 使用Ant和Lucene进行Java开发270

8.3.2 如何获得Sandbox分析器270

8.4.2 创建自定义的文档处理器272

8.4.3 安装275

8.5 JavaScirpt浏览器工具276

8.5.1 JavaScript查询的构造与验证276

8.5.2 特殊字符的转义操作277

8.5.3 使用JavaScript支持277

8.6 WordNet中的同义词278

8.6.1 构建同义词索引279

8.6.2 将WordNet中的同义词连接到分析器中281

8.6.3 手机上的Lucene282

8.7 高亮显示查询项284

8.7.1 用CSS进行高亮显示286

8.7.2 高亮显示命中结果集288

8.8 链式过滤器289

8.9 在Berkeley DB中存储索引292

8.9.1 将索引存入DbDirectory292

8.9.2 安装DbDirectory293

8.10.1 Check out294

8.10.2 Sandbox中的Ant294

8.10 构建Sandbox294

8.11 小结295

第9章 Lucene的移植296

9.1 移植版本与Lucene的关系297

9.2 CLucene298

9.2.1 支持的平台298

9.2.2 API的兼容性299

9.2.3 对Unicode编码的支持300

9.3 dotLucene301

9.2.4 性能301

9.2.5 用户群301

9.3.1 API的兼容性302

9.3.2 索引的兼容性302

9.3.3 性能302

9.3.4 用户群302

9.4 Plucene303

9.4.1 API的兼容性303

9.4.3 性能304

9.4.4 用户304

9.4.2 索引的兼容性304

9.5 Lupy305

9.5.1 API的兼容性305

9.5.2 索引的兼容性306

9.5.3 性能306

9.5.4 用户群307

9.6 PyLucene307

9.6.1 API的兼容性307

9.6.4 用户群308

9.7 小结308

9.6.3 性能308

9.6.2 索引的兼容性308

第10章案例分析309

10.1 Nutch：“搜索引擎的NPR”310

10.1.1 深入探索Nutch311

10.1.2 Nutch的其他一些特性312

10.2 在jGuru上使用Lucene313

10.2.1 主题的专有名词和文档分类314

10.2.2 搜索数据库的结构315

10.2.3 索引域316

10.2.4 索引操作和预处理内容317

10.2.5 查询319

10.2.6 JGuruMultiSearcher322

10.2.7 其他一些内容324

10.3 在SearchBlox中使用Lucene324

10.3.1 为什么选择Lucene324

10.3.2 SearchBlox的体系结构325

10.3.3 搜索结果326

10.3.4 语言支持326

10.4 Xtra Mind公司使用Lucene开发的XM-InformationMinderTM327

10.3.6 概要327

10.3.5 报表引擎327

10.4.1 系统架构330

10.4.2 Lucene是如何帮助我们完成系统的332

10.5 Alias-i:Lucene中的拼写变体333

10.5.1 Alias-i应用程序体系架构334

10.5.2 拼写变种336

10.5.3 拼写修正的噪声信道模型337

10.5.4 拼写变体的向量比较模型338

10.5.5 一个subword（子串）Lucene分析器339

10.5.8 参考文献342

10.5.6 精确度、效率及其他应用342

10.5.7 语境中的混用342

10.6 Michaels.com上设计精巧的搜索功能343

10.6.1 对网站内容进行索引344

10.6.2 对内容进行搜索349

10.6.3 搜索统计数据352

10.6.4 小结352

10.7 我喜欢Lucene:TheServerSide352

10.7.1 建立更好的搜索功能352

10.7.2 高层基础架构354

10.7.3 建立索引355

10.7.4 对索引进行搜索359

10.7.5 配置：中央控制中心361

10.7.6 Web层：TheSeeeeeeeeeeeerverSide？364

10.7.7 小结366

10.8 结论367

附录A 安装Lucene368

附录B Lucene索引文件格式374

附录C 资源388