成功加入购物车
图书条目标准图
正版现货,品相完好,套书默认发一本,若是多种封面版本的书,请咨询客服再下单
王亮 著 / 清华大学出版社 / 2009-06 / 平装
售价 ¥ 18.65 4.7折
定价 ¥39.80
品相 九品
优惠 满包邮
延迟发货说明
上书时间2024-03-28
卖家超过10天未登录
搜索引擎零距离
《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》的内容中,既有教科书式的理论阐述,也有“七天入门”式的实例解析,还有《Linux内核情景分析》风格的细致的代码分析,甚至还有一些英语文献翻译,从初学者到有一定经验的搜索引擎开发人员,各个层次的读者都能找到一些适合自己阅读的章节。随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》首先提出了一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系统,通过理论与实际的完整呈现,使读者能够对“网络数据挖掘”有一个比较具体的认识,然后介绍了一个专用程序语言IRS,并给出了这个语言的编译器以及虚拟机的实现方法。《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》还通过对多个开源搜索引擎项目抽丝剥茧的细致分析,引出搜索引擎的一些基本原理与开发方法,并介绍了一个商业化搜索引擎的实例。《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》的最后还结合一个Java框架介绍了一些软件设计思想。
《搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现》涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以扩展视野。
王亮,主持或参与过多个大中型索引擎开发与运营,具有丰富的搜索引擎算法理论知识与实际开发运营经验。曾任职于爱立信、Smarter.com、上海网村、上海迈众,2009年创立上海睿驿信息技术有限公司并任CEO,致力于提供搜索引擎相关的产品和服务。
第1章网页数据挖掘.11.1网页数据挖掘定义11.2Web数据挖掘面临的问题11.3Web数据挖掘的分类11.4网页数据的结构与特点31.4.1HTML超文本标记语言31.4.2WML无线标记语言41.5网页数据挖掘的基本方法61.5.1预备知识71.5.2变量模板匹配方法81.5.3树节点直接标识方法101.5.4语义规则识别方法13第2章智能网络爬虫142.1智能网络爬虫的定义与特点142.2抓取入口定义142.3次级页面自动发现142.4次级页面地址拼接162.5已爬地址处理172.6信息采集强度控制192.7模拟用户登录192.8验证码识别202.9代理服务器设置202.10JavaScript解析控制21第3章网页信息挖掘专用程序设计语言IRS233.1IRS语言的简介与设计原则233.2IRS脚本语法结构233.2.1页面配置块233.2.2页面名语句233.2.3爬虫配置声明语句243.2.4入口声明语句243.2.5编码配置263.2.6步长配置263.2.7重试次数配置273.2.8正则模式匹配语句273.2.9匹配名声明283.2.10IEE表达式283.2.11模式匹配修饰符293.2.12节点模式匹配语句323.2.13次级页面入口语句..333.2.14保存语句353.2.15Ruby控制语句353.2.16爬虫配置语句373.2.17系统配置语句373.2.18外部配置文件383.2.19执行语句块393.2.20IRQL存储语句403.2.21IRQL语言中的数据表443.2.22IRQL内部函数493.2.23实例解析55第4章IRS虚拟机及编译器实现原理694.1Ruby基本语法704.1.1字句构造和表达式704.1.2字面值714.1.3控制结构744.1.4类和方法的定义804.1.5运算符表达式844.1.6变量和常量894.1.7方法调用914.2Java与JRuby的整合934.2.1Java中的Ruby运行库环境934.2.2IRSReflectionCallback类实现944.2.3在Java中编译执行Ruby脚本994.2.4Java内嵌Ruby方法总结1004.3词法分析和语法分析1014.3.1定义与简介1014.3.2SableCC1034.4IRS语言的语义分析1374.5IRVM虚拟机主类1464.5.1generateEntrance()1474.5.2getContent()1494.5.3match()1604.5.4Save()1744.5.5compileAndRun()198第5章搜索引擎设计原理2005.1概述2005.2Lucene搜索引擎的原理2055.2.1工作方式2055.2.2基本概念2065.2.3包结构2075.2.4索引操作2085.2.5搜索2105.2.6分析器2145.2.7性能优化2155.2.8并行集群2165.3Hadoop搜索引擎的原理2205.3.1组成结构2205.3.2开发与使用2225.4Nutch搜索引擎的原理2265.4.1简介2265.4.2插件体系2265.4.3数据获取与分析2285.5Compass搜索引擎的原理2645.5.1功能增强2645.5.2API简化2655.5.3编程方式2655.6Solr搜索引擎的原理2665.6.1概述2665.6.2使用Solr269第6章搜索引擎的商业化实现2756.1索引2756.1.1Solr实现2756.1.2MySE实现2796.1.3总结3176.2查询3176.2.1Solr实现3176.2.2MySE实现3186.2.3总结358第7章Hivemind3597.1模块(Modules)3597.2子模块与依赖性(SubModules&Dependency)3607.3服务点(ServicePoints)3617.4拦截器(Interceptor)3627.5配置点(ConfigurationPoints)3637.6符号资源(SymbolSources)3647.7转换器(Translators)3657.8对象提供器(ObjectProviders)3687.9服务模型(ServiceModels)3707.10启动&预加载(Startup&EagerLoad)3737.11服务构造器376后记与感谢393
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30