成功加入购物车
吴众欣 、 沈家立 著 / 机械工业出版社 / 2008-09 / 平装
售价 ¥ 39.10
品相 九品
优惠 满包邮
延迟发货说明
上书时间2023-07-27
卖家超过10天未登录
Lucene分析与应用
本书对Lucene搜索引擎的源代码进行分析讲解,并用一些具体实例把所有源代码进行组织与剖析,完整地展示Lucene从建立索引到查询的过程。本书通过介绍Lucene的应用,分析Lucene具体项目开发的应用环境。最后简单地介绍了Nutch和Hadoop。
本书适用于开发搜索引擎的技术人员、Lucene爱好者等读者。
吴众欣,西安交通大学在读博士,主攻搜索引擎与服务组合。喜欢研读,头脑虽慢,滴水石穿。好奇心重,兴趣广泛。沈家立,2003年开始使用Java开发项目,主要从事电子商务和电子支付领域。喜欢研究开源项目,是bbs.wnetw.net的创建者之一,并担任BEA天津UserGroupLeader。
前言第1章搜索引擎与Lucene1.1搜索引擎与Lucene简介1.1.1搜索引擎分类1.1.2Lucene项目简介1.1.3其他搜索引擎开发包介绍1.2Lucene的系统架构1.2.1Lucene最简示例1.2.2Lueene采用的索引结构1.2.3Lucene软件包架构1.3本书的章节导航第2章文档逻辑视图与文本分析2.1文档逻辑视图2.2Lucene的文本分析过程简介2.3空格解析器(WhitespaceAnalyzer)2.3.1空格分词器(WhitespaceTokenizer)2.3.2Token(标志)2.4标准解析器(StandardAnalyzer)2.4.1标准分词器(StandardTokenizer)2.4.2标准过滤器2.5打造自己的解析器2.5.1常用的中文分词法2.5.2对CJKAnalyzer的分析2.5.3构造自己的解析器第3章Lucene创建索引之一(段索引方式与倒排索引结构)3.1倒排结构与段索引方式3.2索引写入过程概述第4章Lucene创建索引之二(在内存中创建索引)4.1创建Document层面索引4.2写入field信息4.3文件倒排过程4.4填写postin,able4.5postingTable的排序过程4.6写入field名字文件(.fnm文件)4.7写入field信息文件(.fdt,.fdx文件)4.8写入频率与位置文件(.frq与.prx文件)4.9TermVector方式写入索引(.tvf,.tvd与.tvx文件)4.10字典文件(.tis与.tii文件)4.11写入规格化文件第5章Lucene创建索引之三(索引合并过程)5.1document层面的合并过程5.2field与term的合并过程5.2.1field信息合并过程5.2.2term信息合并过程5.2.3合并norm信息5.3Lunece索引采用的压缩算法5.3.1frontcoding(端部编码)5.3.2variable-bytecoding(变长字节编码)5.3.3delta-coding或deha-encoding5.4小结第6章Lucene查询过程之一(查询模型与引擎预热)6.1查询模型6.1.1向量模型6.1.2布尔模型6.1.3Lucene的评分(score)方式6.2查询简单示例6.3引擎预热6.3.1获得并打开索引文件6.3.2获得segment信息6.3.3FSDirectory打开索引过程6.3.4获得field信息6.3.5获得term信息第7章Lucene查询过程之二(查询解析与语法)7.1构建查询解析器(QueryParser)7.2Lucene的查询语法7.2.1项(Tcrm)查询7.2.2域(Field)7.2.3词条查询(TermModifiers)7.2.4布尔操作符(BooleanOperator)7.2.5组合查询(Grouping)7.2.6针对field的组合查询(FieldGroupingField)7.2.7EscapingSpecialCharacter(转义字符)7.3Lucene查询语法树的构建过程7.3.1过程分析7.3.2语法树分析实例第8章Lucene查询过程之三(相似度匹配与算法分析)8.1查询与相似度计算8.1.1查询器(Searcher)的查询过程8.1.2查询语句的权重计算8.1.3获得topK个document8.2Lncene查询算法分析8.2.1相似度计算简单实例8.2.2线性相似度计算8.2.3基于倒排索引的相似度计算8.2.4Lucene的相似度计算第9章Lucene标引与查询全程示例9.1实例描述9.2 建立索引过程9.2.1选择文档中建立索引的.field9.2.2选择field录入方式9.2.3生成segment文件9.2.4生成fields文件9.2.5posting文件9.2.6合并segmentindex生成index文件9.2.7合并后的文件关系9.3查询过程第10章Lucene的常用应用场景分析10.1对大型XML文档集合的检索10.1.1都柏林文件介绍10.1.2XML分析器介绍10.1.3Lucene在大型XML文件中的应用10.2MuhiSearcher的应用10.2.1MultiSearcher的应用10.2.2ParallelMuhiSearcher的应用第11章利用Lucene构建分布式搜索引擎11.1分布式文件系统和Hadoop11.1.1Hadoop文件系统体系结构11.1.2系统交互过程:单一NameNode方式11.1.3系统组件描述11.2Nutch简单剖析11.3体验Nutch附录ATestIndexWriterMerging附录BTestDocumentWriter与DocHelper
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30