成功加入购物车

去购物车结算 X
弘文图书专营书城
  • 数据挖掘(原理与实践基础篇)/计算机科学丛书

数据挖掘(原理与实践基础篇)/计算机科学丛书

举报

正版保证 新华库房直发 可开电子发票 七天无理由退货让您购物无忧

  • 作者: 
  • 出版社:    机械工业
  • ISBN:    9787111670292
  • 出版时间: 
  • 装帧:    平装
  • 开本:    其他
  • 作者: 
  • 出版社:  机械工业
  • ISBN:  9787111670292
  • 出版时间: 
  • 装帧:  平装
  • 开本:  其他

售价 78.60 5.7折

定价 ¥139.00 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-04-06

    数量
    库存2
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 货号:
      31055601
      商品描述:
      作者简介
      查鲁·C.阿加沃尔(CharuC.Aggarwal)是IBMT.J.Watson研究中心的杰出研究人员,于1996年获麻省理工学院博士学位。他对数据挖掘领域有着广泛的研究,在国际会议和期刊上发表了250多篇论文,拥有80多项专利。他曾三次被评为IBM的“杰出发明人”,并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖。他还获得了IEEEICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两个*高奖项之一。<br>他曾多次担任ACM/IEEE知名国际学术会议的主席或程序委员会主席,并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。

      目录
      出版者的话<br/>译者序<br/>前言<br/>第1章 数据挖掘导论1<br/>1.1 引言1<br/>1.2 数据挖掘过程2<br/>1.2.1 数据预处理阶段4<br/>1.2.2 分析阶段5<br/>1.3 基本数据类型5<br/>1.3.1 非依赖型数据5<br/>1.3.2 依赖型数据7<br/>1.4 主要数据挖掘模块总览11<br/>1.4.1 关联模式挖掘12<br/>1.4.2 数据聚类13<br/>1.4.3 异常检测13<br/>1.4.4 数据分类14<br/>1.4.5 复杂数据类型对问题定义的影响15<br/>1.5 可扩展性问题和数据流场景17<br/>1.6 应用案例浅述17<br/>1.6.1 商店商品布局17<br/>1.6.2 客户推荐18<br/>1.6.3 医疗诊断18<br/>1.6.4 Web日志异常检测19<br/>1.7 小结19<br/>1.8 文献注释19<br/>1.9 练习题20<br/>第2章 数据准备21<br/>2.1 引言21<br/>2.2 特征提取和类型转换22<br/>2.2.1 特征提取22<br/>2.2.2 数据类型转换23<br/>2.3 数据清洗26<br/>2.3.1 缺失项的处理27<br/>2.3.2 错误项和不一致项的处理28<br/>2.3.3 缩放与标准化29<br/>2.4 数据约简和转换29<br/>2.4.1 采样30<br/>2.4.2 特征子集选取32<br/>2.4.3 基于坐标轴旋转的维度约简32<br/>2.4.4 基于类型转换的降维39<br/>2.5 小结47<br/>2.6 文献注释48<br/>2.7 练习题48<br/>第3章 相似度和距离50<br/>3.1 引言50<br/>3.2 多维数据50<br/>3.2.1 定量型数据51<br/>3.2.2 类别型数据58<br/>3.2.3 定量型和类别型的混合数据59<br/>3.3 文本相似性度量60<br/>3.4 时态的相似性度量61<br/>3.4.1 时间序列相似性度量61<br/>3.4.2 离散序列相似性度量65<br/>3.5 图的相似性度量67<br/>3.5.1 单个图中两个节点之间的相似度67<br/>3.5.2 两个图之间的相似度68<br/>3.6 有监督的相似度函数69<br/>3.7 小结70<br/>3.8 文献注释70<br/>3.9 练习题71<br/>第4章 关联模式挖掘73<br/>4.1 引言73<br/>4.2 频繁模式挖掘模型74<br/>4.3 关联规则的生成框架76<br/>4.4 频繁项集挖掘算法77<br/>4.4.1 暴力算法78<br/>4.4.2 Apriori算法78<br/>4.4.3 枚举树算法81<br/>4.4.4 递归的基于后缀的模式生长方法89<br/>4.5 替代模型:有趣模式96<br/>4.5.1 统计相关系数97<br/>4.5.2 χ2度量97<br/>4.5.3 兴趣比率98<br/>4.5.4 对称置信度98<br/>4.5.5 列的余弦系数98<br/>4.5.6 Jaccard系数和min-hash技巧98<br/>4.5.7 集体强度100<br/>4.5.8 与负模式挖掘的关系100<br/>4.6 有用的元算法100<br/>4.6.1 采样方法101<br/>4.6.2 数据划分集成法101<br/>4.6.3 推广到其他数据类型101<br/>4.7 小结102<br/>4.8 文献注释102<br/>4.9 练习题104<br/>第5章 关联模式挖掘:高级概念106<br/>5.1 引言106<br/>5.2 模式汇总106<br/>5.2.1 最大模式107<br/>5.2.2 闭包模式108<br/>5.2.3 近似频繁模式109<br/>5.3 模式查询110<br/>5.3.1 一次预处理多次查询111<br/>5.3.2 把限制条件放入模式挖掘115<br/>5.4 关联模式挖掘的应用115<br/>5.4.1 与其他数据挖掘问题的关系115<br/>5.4.2 购物篮分析116<br/>5.4.3 用户信息分析116<br/>5.4.4 推荐和协同过滤116<br/>5.4.5 Web日志分析117<br/>5.4.6 生物信息学117<br/>5.4.7 应用于其他复杂数据类型117<br/>5.5 小结118<br/>5.6 文献注释118<br/>5.7 练习题119<br/>第6章 聚类分析120<br/>6.1 引言120<br/>6.2 聚类的特征选取121<br/>6.2.1 过滤模型121<br/>6.2.2 包装模型124<br/>6.3 基于代表点的算法124<br/>6.3.1 k-means算法127<br/>6.3.2 k-means内核算法128<br/>6.3.3 k-medians算法128<br/>6.3.4 k-medoids算法129<br/>6.4 层次聚类算法130<br/>6.4.1 自底向上凝聚的方法131<br/>6.4.2 自顶向下分裂的方法135<br/>6.5 基于概率模型的算法135<br/>6.6 基于网格和基于密度的算法139<br/>6.6.1 基于网格的算法139<br/>6.6.2 DBSCAN141<br/>6.6.3 DENCLUE143<br/>6.7 基于图的算法147<br/>6.8 非负矩阵分解149<br/>6.9 聚类验证153<br/>6.9.1 内部验证度量153<br/>6.9.2 外部验证度量155<br/>6.9.3 评价158<br/>6.10 小结158<br/>6.11 文献注释158<br/>6.12 练习题159<br/>第7章 聚类分析:高级概念161<br/>7.1 引言161<br/>7.2 类别型数据的聚类162<br/>7.2.1 基于代表点的算法162<br/>7.2.2 层次算法164<br/>7.2.3 概率算法165<br/>7.2.4 基于图的算法166<br/>7.3 可扩展的数据聚类167<br/>7.3.1 CLARANS167<br/>7.3.2 BIRCH168<br/>7.3.3 CURE169<br/>7.4 高维数据聚类170<br/>7.4.1 CLIQUE172<br/>7.4.2 PROCLUS172<br/>7.4.3 ORCLUS174<br/>7.5 半监督聚类176<br/>7.5.1 单点监督177<br/>7.5.2 成对监督177<br/>7.6 用户监督聚类与可视化监督聚类178<br/>7.6.1 现有聚类算法的变体178<br/>7.6.2 可视化聚类179<br/>7.7 集成聚类181<br/>7.7.1 选择不同的集成组件181<br/>7.7.2 组合不同的集成组件182<br/>7.8 聚类应用183<br/>7.8.1 应用到其他数据挖掘问题183<br/>7.8.2 客户分类与协同过滤183<br/>7.8.3 文本应用184<br/>7.8.4 多媒体应用184<br/>7.8.5 时态与序列应用184<br/>7.8.6 社交网络分析184<br/>7.9 小结184<br/>7.10 文献注释184<br/>7.11 练习题185<br/>第8章 异常分析186<br/>8.1 引言186<br/>8.2 极值分析187<br/>8.2.1 单变量极值分析188<br/>8.2.2 多变量极值190<br/>8.2.3 基于深度的方法191<br/>8.3 概率模型192<br/>8.4 异常检测的聚类方法193<br/>8.5 基于距离的异常检测195<br/>8.5.1 剪枝方法195<br/>8.5.2 局部距离修正方法197<br/>8.6 基于密度的方法200<br/>8.6.1 基于统计直方图和网格的技术200<br/>8.6.2 核密度估计201<br/>8.7 信息论模型201<br/>8.8 异常点正确性203<br/>8.8.1 方法论上的挑战203<br/>8.8.2 接收者工作特征(ROC)曲线203<br/>8.8.3 常见错误205<br/>8.9 小结205<br/>8.10 文献注释205<br/>8.11 练习题206<br/>第9章 异常分析:高级概念208<br/>9.1 引言208<br/>9.2 类别型数据上的异常检测208<br/>9.2.1 概率模型209<br/>9.2.2 聚类和基于距离的方法210<br/>9.2.3 二元和集合取值的数据210<br/>9.3 高维异常检测210<br/>9.3.1 基于网格的罕见子空间探索212<br/>9.3.2 随机子空间采样214<br/>9.4 异常点集成分析215<br/>9.4.1 根据成员独立性的分类216<br/>9.4.2 根据构成成员的分类217<br/>9.4.3 归一化与合并218<br/>9.5 异常分析的应用219<br/>9.5.1 质量控制和故障检测219<br/>9.5.2 金融诈骗和异常事件219<br/>9.5.3 网站日志分析219<br/>9.5.4 入侵检测应用219<br/>9.5.5 生物学和医学应用220<br/>9.5.6 地球科学应用220<br/>9.6 小结220<br/>9.7 文献注释220<br/>9.8 练习题221<br/>第10章 数据分类222<br/>10.1 引言222<br/>10.2 分类的特征选择224<br/>10.2.1 过滤模型224<br/>10.2.2 包装模型227<br/>10.2.3 嵌入式模型228<br/>10.3 决策树228<br/>10.3.1 划分准则231<br/>10.3.2 停止准则与剪枝232<br/>10.4 基于规则的分类器233<br/>10.4.1 决策树规则生成234<br/>10.4.2 顺序覆盖算法235<br/>10.4.3 规则剪枝238<br/>10.4.4 关联分类器238<br/>10.5 概率分类器239<br/>10.5.1 朴素贝叶斯分类器239<br/>10.5.2 逻辑回归242<br/>10.6 SVM245<br/>10.6.1 线性可分数据的SVM245<br/>10.6.2 不可分数据的SVM软间隔实现250<br/>10.6.3 非线性SVM252<br/>10.6.4 内核技巧253<br/>10.7 神经网络256<br/>10.7.1 单层神经网络:感知器257<br/>10.7.2 多层神经网络258<br/>10.7.3 不同线性模型的比较260<br/>10.8 基于实例的学习261<br/>10.8.1 最近邻分类器的设计差异261<br/>10.9 分类器评估263<br/>10.9.1 方法论问题263<br/>10.9.2 量化问题265<br/>10.10 小结269<br/>10.11 文献注释269<br/>10.12 练习题270<br/>第11章 数据分类:高级概念272<br/>11.1 引言272<br/>11.2 多类别学习273<br/>11.3 稀有类别学习274<br/>11.3.1 样例重加权275<br/>11.3.2 样例重采样275<br/>11.4 可扩展分类276<br/>11.4.1 可扩展的决策树276<br/>11.4.2 可扩展的SVM277<br/>11.5 数值型类别的回归模型278<br/>11.5.1 线性回归278<br/>11.5.2 主成分回归281<br/>11.5.3 广义线性模型282<br/>11.5.4 非线性和多项式回归283<br/>11.5.5 由决策树至回归树284<br/>11.5.6 模型有效性评估285<br/>11.6 半监督学习285<br/>11.6.1 通用元算法287<br/>11.6.2 分类算法的具体变种288<br/>11.6.3 基于图的半监督学习290<br/>11.6.4 对半监督学习的讨论291<br/>11.7 主动学习291<br/>11.7.1 基于异构性的模型293<br/>11.7.2 基于性能的模型294<br/>11.7.3 基于代表性的模型295<br/>11.8 集成方法296<br/>11.8.1 为什么集成分析有效297<br/>11.8.2 偏差-方差折中的正式表述299<br/>11.8.3 集成学习的具体实例化301<br/>11.9 小结305<br/>11.10 文献注释305<br/>11.11 练习题306<br/>第12章 数据流挖掘308<br/>12.1 引言308<br/>12.2 流中的概要数据结构309<br/>12.2.1 蓄水池采样309<br/>12.2.2 海量域场景的概述结构315<br/>12.3 数据流中的频繁模式挖掘325<br/>12.3.1 利用概要结构325<br/>12.3.2 有损计数算法325<br/>12.4 数据流聚类326<br/>12.4.1 STREAM算法326<br/>12.4.2 CluStream算法328<br/>12.4.3 海量域场景的流聚类331<br/>12.5 流的异常检测332<br/>12.5.1 单个数据点作为异常点332<br/>12.5.2 聚集变化点作为异常点333<br/>12.6 流分类335<br/>12.6.1 VFDT家族335<br/>12.6.2 有监督的微簇方法337<br/>12.6.3 集成方法337<br/>12.6.4 海量域流的分类337<br/>12.7 小结338<br/>12.8 文献注释338<br/>12.9 练习题338<br/>第13章 文本数据挖掘340<br/>13.1 引言340<br/>13.2 文档准备和相似度计算341<br/>13.2.1 文档归一化和相似度计算342<br/>13.2.2 专用于Web文档的预处理343<br/>13.3 专用于文本的聚类方法344<br/>13.3.1 基于代表点的算法344<br/>13.3.2 概率算法346<br/>13.3.3 同步发现文档簇和词簇347<br/>13.4 主题建模349<br/>13.4.1 维度约简中的使用以及与潜在语义分析的对比351<br/>13.4.2 聚类中的使用以及与概率聚类的对比353<br/>13.4.3 PLSA的局限性354<br/>13.5 专用于文本的分类方法354<br/>13.5.1 基于实例的分类器354<br/>13.5.2 贝叶斯分类器356<br/>13.5.3 高维稀疏数据的SVM分类器358<br/>13.6 新事物和首发故事检测360<br/>13.7 小结360<br/>13.8 文献注释361<br/>13.9 练习题361<br/>参考文献362

      内容摘要
      全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了高

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看