第1章数据分析绪论
1.1理解数据中字段的类型是数据分析的重要前提
1.2进行数据分析时数据的表示形式
1.3数据分类——数据类别的自动识别
1.4数据分类问题与回归问题的区别与联系
1.5数据分析算法简介
1.6交叉验证
1.7一个最简单的分类器-K近邻分类器
1.8后续章节组织
第2章SVM算法
2.1算法原理
2.2工具包简介
2.3实例详解
第3章决策树算法
3.1信息熵值
3.2决策树的构建目标
3.3 ID3决策树算法
3.4 C45决策树算法
3.5 CART决策树算法
3.6 ID3、C45、CART算法的终止条件
3.7C45算法的参数介绍
3.8实例详解
第4章随机森林算法
4.1算法原理
4.2工具包介绍
4.3实例详解
第5章梯度提升决策树算法
5.1算法原理
5.2工具包介绍
5.3实例详解
第6章AdaBoost算法
6.1算法原理
6.2工具包介绍
6.3实例详解
第7章朴素贝叶斯分类器
7.1朴素贝叶斯分类的问题定义
7.2朴素贝叶斯算法原理
7.3一种常见的朴素贝叶斯模型的错误计算方法
7.4朴素贝叶斯算法对连续型属性的处理
第8章极限学习机器算法
8.1算法原理
8.2算法参数介绍
8.3实例详解
第9章逻辑回归算法
9.1 Logistic Regression算法流程
9.2 Logistic Regression算法原理推导
第10章稀疏表示分类算法
10.1算法原理
10.2 SRC工具包及算法参数介绍
10.3 SRC算法实例详解
第11章不同数据分类算法性能的大规模实验对比分析
11.1为什么要比较不同数据分类算法的性能?
11.2不同数据分类算法性能比较的相关工作
11.3最新数据分类算法性能的大规模实验对比分析结果
11.4结论
第12章从二分类到多分类——OVA
12.1 OVA 聚合规则的核心思想
12.2 MAX聚合规则
12.3 DOO聚合规则
12.4调用示例
第13章从二分类到多分类——OVO
13.1 OVO 聚合规则的核心思想
13.2 WV聚合规则
13.3 VOTE聚合规则
13.4 PC聚合规则
13.5 PE聚合规则
13.6 LVPC聚合规则
13.7调用示例
第14章从二分类到多分类——ECOC
14.1 ECOC的核心思想
14.2 ECOC 编码
14.3 ECOC 译码
14.4 ECOC多类分类调用示例
第15章三种从二分类到多分类聚合策略的实验对比分析
15.1 OVA策略的实验结果
15.2 OVO策略的实验结果
15.3 ECOC策略的实验结果
第16章多个分类算法的集成方法研究
16.1差异性(Diversity)的原理与技术
16.2集成学习方法
16.3本章小结
第17章属性选择算法
17.1 fspackage和LibSVM的使用
17.2信息增益算法
17.3卡方分布算法
17.4基于Fisher Score的属性选择算法
17.5基于基厄系数的属性选择算法
17.6基于T检验的属性选择算法
第18章高级属性选择算法
18.1线性前向选择算法
18.2顺序前向选择算法
18.3基于稀疏多项式逻辑回归的属性选择算法
18.4 Our——多个属性选择算法的集成策略
18.5属性选择算法的大规模实验对比分析
第19章数据选择算法
19.1衡量不均衡数据分类质量的常用方法
19.2 RUS算法
19.3 CNN算法
19.4 SMOTE算法
19.5 ADASYN算法
19.6 OSS算法
19.7本章小结
第20章不均衡数据分类算法及大规模实验分析
20.1 C4.5 CS算法
20.2使用Random Forests和GBDT进行不均衡数据分类
20.3BalanceCascade不均衡数据分类算法
20.4其他不均衡数据分类算法及不均衡分类器的集成算法
20.5结合属性选择和数据选择的不均衡数据分类实验
第21章大数据分析
21.1 Spark平台简介
21.2基于Ambari的Spark及Spark集群的安装与配置
21.3 Ambari集群扩展
21.4基于Spark平台的分布式编程示例
21.5 MLlib——Spark平台上的机器学习库