成功加入购物车
图书条目标准图
[美] 刘兵 (Liu B.) 著; 俞勇 译 / 清华大学出版社 / 2009-04 / 平装
售价 ¥ 25.00 5.1折
定价 ¥49.00
品相 九品
优惠 满包邮
延迟发货说明
上书时间2023-04-01
卖家超过10天未登录
Web数据挖掘
《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是《Web数据挖掘》的特色,这些内容在已有书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。
《Web数据挖掘》尽管题为“Web数据挖掘”,却依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大最重要的数据挖掘任务,以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。
刘兵(BingLiu),伊利诺伊大学芝加哥分校(tnc)教授,他在爱丁堡大学获得人工智能博士学位。刘兵教授是Web挖掘研究领域的国际知名专家,在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣,他先后在国际著名学术期刊与重要国际学术会议(如KDD、www、AAAl、SIGIR、ICML、TKDE等)上发布关于数据挖掘、Web挖掘和文本挖掘论文一百多篇。刘兵教授担任过多个国际期刊的编辑,也是多个国际学术会议(如www、KDD与AAAl等)的程序委员会委员。
第一部分数据挖掘基础第1章概述31.1什么是万维网31.2万维网和互联网的历史简述41.3Web数据挖掘51.3.1什么是数据挖掘61.3.2什么是Web数据挖掘71.4各章概要81.5如何阅读本书10文献评注10第2章关联规则和序列模式122.1关联规则的基本概念122.2Apriori算法142.2.1频繁项目集生成142.2.2关联规则生成172.3关联规则挖掘的数据格式192.4多最小支持度的关联规则挖掘202.4.1扩展模型212.4.2挖掘算法222.4.3规则生成262.5分类关联规则挖掘272.5.1问题描述272.5.2挖掘算法282.5.3多最小支持度分类关联规则挖掘312.6序列模式的基本概念312.7基于GSP挖掘序列模式322.7.1GSP算法332.7.2多最小支持度挖掘342.8基于PrefixSpan算法的序列模式挖掘372.8.1PrefixSpan算法382.8.2多最小支持度挖掘392.9从序列模式中产生规则412.9.1序列规则412.9.2标签序列规则412.9.3分类序列规则42文献评注42目录目录第3章监督学习453.1基本概念453.2决策树推理483.2.1学习算法493.2.2混杂度函数503.2.3处理连续属性533.2.4其他一些问题543.3评估分类器563.3.1评估方法563.3.2查准率、查全率、F-score和平衡点(BreakevenPoint)573.4规则推理593.4.1序列化覆盖593.4.2规则学习:Learn-One-Rule函数613.4.3讨论633.5基于关联规则的分类633.5.1使用类关联规则进行分类643.5.2使用类关联规则作为分类属性663.5.3使用古典的关联规则分类663.6朴素贝叶斯分类673.7朴素贝叶斯文本分类703.7.1概率框架703.7.2朴素贝叶斯模型713.7.3讨论733.8支持向量机733.8.1线性支持向量机:可分的情况743.8.2线性支持向量机:数据不可分的情况783.8.3非线性支持向量机:核方法803.9k-近邻学习823.10分类器的集成833.10.1Bagging833.10.2Boosting84文献评注84第4章无监督学习874.1基本概念874.2k-均值聚类894.2.1k-均值算法894.2.2k-均值算法的硬盘版本914.2.3优势和劣势924.3聚类的表示954.3.1聚类的一般表示方法954.3.2任意形状的聚类954.4层次聚类964.4.1单链接方法974.4.2全链接方法984.4.3平均链接方法984.4.4优势和劣势984.5距离函数994.5.1数值的属性(NumericAttributes)994.5.2布尔属性和符号属性(BinaryandNominalAttributes)994.5.3文本文档1014.6数据标准化1014.7混合属性的处理1034.8采用哪种聚类算法1044.9聚类的评估1044.10发现数据区域和数据空洞106文献评注108第5章部分监督学习1105.1从已标注数据和无标注数据中学习1105.1.1使用朴素贝叶斯分类器的EM算法1115.1.2Co-Training1145.1.3自学习1155.1.4直推式支持向量机1165.1.5基于图的方法1175.1.6讨论1195.2从正例和无标注数据中学习1195.2.1PU学习的应用1205.2.2理论基础1215.2.3建立分类器:两步方法1225.2.4建立分类器:直接方法1275.2.5讨论128附录:朴素贝叶斯EM算法的推导129文献评注131第二部分Web挖掘第6章信息检索与Web搜索1356.1信息检索中的基本概念1366.2信息检索模型1386.2.1布尔模型1386.2.2向量空间模型1396.2.3统计语言模型1416.3关联性反馈1426.4评估标准1436.5文本和网页的预处理1476.5.1停用词移除1476.5.2词干提取1476.5.3其他文本预处理步骤1486.5.4网页预处理步骤1486.5.5副本探测1496.6倒排索引及其压缩1506.6.1倒排索引1506.6.2使用倒排索引搜索1516.6.3索引的建立1526.6.4索引的压缩1536.7隐式语义索引1576.7.1奇异值分解1586.7.2查询和检索1596.7.3实例1606.7.4讨论1636.8Web搜索1636.9元搜索引擎和组合多种排序1656.9.1使用相似度分数的合并1666.9.2使用排名位置的合并1666.10网络作弊1686.10.1内容作弊1696.10.2链接作弊1696.10.3隐藏技术1706.10.4抵制作弊171文献评注172第7章链接分析1747.1社会关系网分析1757.1.1中心性1757.1.2权威1777.2同引分析和引文耦合1787.2.1同引分析1787.2.2引文耦合1797.3PageRank1797.3.1PageRank算法1807.3.2PageRank算法的优点和缺点1857.3.3TimedPageRank1857.4HITS1867.4.1HITS算法1877.4.2寻找其他的特征向量1897.4.3同引分析和引文耦合的关系1897.4.4HITS算法的优点和缺点1897.5社区发现1917.5.1问题定义1917.5.2二分核心社区1927.5.3最大流社区1937.5.4基于中介性的电子邮件社区1957.5.5命名实体的重叠社区196文献评注197第8章Web爬取1998.1一个简单爬虫算法1998.1.1宽度优先爬虫2018.1.2带偏好的爬虫2018.2实现议题2028.2.1网页获取2028.2.2网页解析2028.2.3删除无用词并提取词干2048.2.4链接提取和规范化2048.2.5爬虫陷阱2068.2.6网页库2068.2.7并发性2078.3通用爬虫2088.3.1可扩展性2088.3.2覆盖度、新鲜度和重要度2098.4限定爬虫2108.5主题爬虫2128.5.1主题本地性和线索2138.5.2最优优先变种2178.5.3自适应2198.6评价标准2238.7爬虫道德和冲突2268.8最新进展228文献评注230第9章结构化数据抽取:包装器生成2319.1预备知识2319.1.1两种富含数据的网页2329.1.2数据模型2339.1.3数据实例的HTML标记编码2359.2包装器归纳2369.2.1从一张网页抽取2379.2.2学习抽取规则2389.2.3识别提供信息的样例2429.2.4包装器维护2429.3基于实例的包装器学习2439.4自动包装器生成中的一些问题2459.4.1两个抽取问题2469.4.2作为正则表达式的模式2469.5字符串匹配和树匹配2479.5.1字符串编辑距离2479.5.2树匹配2499.6多重对齐2529.6.1中星方法2529.6.2部分树对齐2539.7构建DOM树2579.8基于列表页的抽取:平坦数据记录2589.8.1有关数据记录的两个观察结果2589.8.2挖掘数据区域2599.8.3从数据区域中识别数据记录2639.8.4数据项对齐与抽取2639.8.5利用视觉信息2649.8.6一些其他技术2649.9基于列表页的抽取:嵌套数据记录2659.10基于多张网页的抽取2699.10.1采用前几节中的技术2709.10.2RoadRunner算法2709.11一些其他问题2719.11.1从其他网页中抽取2719.11.2析取还是可选2729.11.3一个集合类型还是一个元组类型2739.11.4标注与整合2739.11.5领域相关的抽取2739.12讨论274文献评注274第10章信息集成27610.1什么是样式表匹配27710.2样式表匹配的预处理工作27810.3样式表层次的匹配27910.3.1基于语言学的算法27910.3.2基于样式表中限制的算法28010.4基于领域和实例层次的匹配28010.5不同相似度的联合28210.61:m匹配28310.7其他问题28410.7.1重用以前的匹配结果28410.7.2大量样式表的匹配28510.7.3样式表匹配的结果28510.7.4用户交互28510.8Web搜索界面的集成28510.8.1基于聚类的算法28710.8.2基于互关系的方法28910.8.3基于实例的方法29010.9构建一个全局的搜索界面29210.9.1结构上的正确性和合并算法29310.9.2词汇的正确性29410.9.3实例的正确性295文献评注295第11章观点挖掘29611.1意见分类29711.1.1基于意见短语的分类29711.1.2采用文本分类方法进行意见分类29911.1.3基于评分函数进行分类29911.2基于特征的观点挖掘和摘要30011.2.1问题定义30111.2.2对象特征抽取30511.2.3格式1中正面和负面评价部分的特征抽取30611.2.4符合格式2和3的评审上的特征抽取30811.2.5观点倾向分类30911.3比较性句子和比较关系挖掘31011.3.1问题定义31111.3.2等级比较性语句的识别31211.3.3比较关系的抽取31411.4观点搜索31511.5观点欺诈31611.5.1观点欺诈的目标和行为31711.5.2欺诈和欺诈者的种类31711.5.3隐藏技巧31811.5.4欺诈检测318文献评注320第12章Web使用挖掘32212.1数据收集和预处理32312.1.1数据的来源和类型32312.1.2Web使用记录数据预处理的关键元素32612.2Web使用记录挖掘的数据建模33112.3Web用法模式的发现和分析33412.3.1会话和访问者分析33412.3.2聚类分析和访问者分割33412.3.3关联及相关度分析33712.3.4序列和导航模式分析34012.3.5基于Web用户事务的分类和预测34212.4讨论和展望343文献评注344参考文献345
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30