成功加入购物车
图书条目标准图
罗刚 著 / 清华大学出版社 / 2012-02 / 平装
售价 ¥ 39.00 8.0折
定价 ¥49.00
品相 九品
优惠 满包邮
延迟发货说明
上书时间2023-06-25
卖家超过10天未登录
使用C#开发搜索引擎
从c#基础开始,逐渐深入,是学习搜索引擎开发的首选。应众多公司的实际需求,《使用C#开发搜索引擎》介绍如何以c#作为工具开发搜索引擎。全书以完成一个网站搜索\垂直搜索作为目标,从网络爬虫抓取数据开始,然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。本书是市面上介绍业界热门的lucene.net、使用webbrowser做爬虫以及结合solr开发asp.net搜索的第一书。
本书适合专业软件开发人员,也适合于希望学习搜索引擎工作原理的读者学习使用。本书对于在校学生学习复杂数据结构和应用动态规划等常用算法也有参考价值。
罗刚,猎兔搜索创始人。创建包括旅游搜索和舆情监测在内的多个技术开发团队。有多年软件培训经验,相关赏已经在京东商城、UCWeb、MadeInChina等多家公司从事技术开发。出版过的相关书籍包括《自己动手写搜索引擎》、《自己动手写网编爬虫》、《解密搜索引擎技术实践》以及视频教程《Lucene构建网站搜索系统》。愿意能官能民同行一起为发展相关产业尽力。
第1章使用c#开发搜索引擎快速入门1.1各种搜索引擎1.1.1通用搜索1.1.2垂直搜索1.1.3站内搜索1.2搜索引擎整体结构1.3搜索引擎基本技术1.3.1网络爬虫1.3.2文本挖掘1.3.3全文索引1.3.4搜索语法介绍1.3.5搜索用户界面1.4c#开发快速入门1.4.1准备开发环境1.4.2基本语法1.4.3多维数组1.4.4位运算1.4.5枚举类型1.4.6面向对象1.4.7集合类1.4.8泛型1.4.9委托和事件1.4.10类库1.5本章小结1.6术语表第2章使用c#开发网络爬虫2.1网络爬虫抓取原理2.2爬虫架构2.2.1基本架构2.2.2分布式爬虫架构2.2.3垂直爬虫架构2.3下载网页2.3.1http协议2.3.2下载静态网页2.3.3下载动态网页2.4网络爬虫遍历与实现2.5网站地图2.6连接池2.7url地址查新2.7.1嵌入式数据库2.7.2布隆过滤器2.8抓取rss2.9解析相对地址2.10网页更新2.11信息过滤2.12垂直行业抓取2.13抓取限制应对方法2.13.1更换ip地址2.13.2抓取需要登录的网页2.13.3抓取asp.net网页2.14保存信息2.14.1存入数据库2.14.2存成图像2.15日志2.16本章小结2.17术语表第3章索引各种格式文档3.1从html文件中提取信息3.1.1识别网页的编码3.1.2正则表达式3.1.3htmlagilitypack介绍3.1.4网页正文提取3.1.5结构化信息提取3.1.6查看网页的dom结构3.1.7网页结构相似度计算3.2从非html文件中提取文本3.2.1text文件3.2.2pdf文件3.2.3office文件3.2.4rtf文件3.3本章小结3.4术语表第4章自然语言处理4.1统计机器学习4.2文档排重4.3中文关键词提取4.3.1关键词提取的基本方法4.3.2从网页中提取关键词4.4相关搜索4.5拼写检查4.5.1拼写检查的概率模型4.5.2模糊匹配问题4.5.3英文拼写检查4.5.4中文拼写检查4.6文本摘要4.6.1文本摘要的设计4.6.2实现文本摘要技术4.6.3lucene.net中的动态摘要4.7文本分类4.7.1自动分类的接口定义4.7.2自动分类的实现4.8自动聚类4.8.1文档相似度4.8.2k均值聚类方法4.8.3k均值实现4.9拼音转换4.10句法分析树4.11信息提取4.12本章小结4.13术语表第5章用c#实现中文分词5.1汉语中的词5.2文本切分的基本方法5.3有限状态机5.4查找词典算法5.4.1标准trie树5.4.2三叉trie树5.5中文分词的原理5.6中文分词流程与结构5.7切分词图5.7.1保存切分词图5.7.2生成全切分词图5.8概率语言模型的分词方法5.8.1一元模型5.8.2n元模型5.9最大熵5.10未登录词识别5.11词性标注5.12地名切分5.12.1地址类性标注5.12.2未登录词识别5.13本章小结5.14术语表第6章lucene.net原理与应用6.1lucene.net快速入门6.1.1索引文档6.1.2搜索文档6.1.3lucene.net结构6.2lucene.net深入介绍6.2.1索引原理6.2.2分析文本6.2.3遍历索引库6.2.4检索模型6.2.5收集最相关的文档6.3索引中的压缩算法6.3.1变长压缩6.3.2差分编码6.4创建和维护索引库6.4.1设计一个简单的索引库6.4.2创建索引库6.4.3向索引库中添加索引文档6.4.4删除索引库中的索引文档6.4.5更新索引库中的索引文档6.4.6索引的优化与合并6.5查找索引库6.5.1布尔查询6.5.2同时查询多列6.5.3跨度查询6.5.4通配符查询6.5.5过滤6.5.6按指定列排序6.5.7查询大容量索引6.5.8函数查询6.5.9定制相似性6.5.10评价搜索结果6.6中文信息检索6.6.1lucene.net中的中文处理6.6.2lietu中文分词的使用6.6.3定制tokenizer6.6.4解析查询串6.6.5实现字词混合索引6.7抓取数据库中的内容6.7.1读取数据6.7.2数据同步6.8概念搜索6.9本章小结6.10术语表第7章实现搜索用户界面7.1搜索页面设计7.1.1用于显示搜索结果的asp.net7.1.2搜索结果分页7.1.3设计一个简单的搜索页面7.2实现搜索接口7.2.1lucene.net搜索接口7.2.2指定范围搜索7.2.3搜索页面的索引缓存与更新7.3实现关键词高亮显示7.4实现分类统计视图7.4.1搜索结果分类统计与导航7.4.2层次树7.5相关搜索词7.6实现ajax自动完成7.6.1总体结构7.6.2服务器端处理7.6.3浏览器端处理7.7集成其他功能7.7.1拼写检查7.7.2再次查找7.7.3黑名单7.7.4搜索日志7.8本章小结第8章使用solr开发网站搜索8.1搜索服务器端8.8.1solr结构8.1.2启动solr服务器8.1.3配置支持中文的solr8.1.4索引数据8.1.5查询功能8.1.6高亮8.2solr的.net客户端8.2.1使用solrnet8.2.2实现多分类8.2.3分类统计8.3查询语法8.3.1对空格的支持8.3.2日期加权8.4索引分布8.5本章小结
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30