【正版全新】（慧远）大话数据科学大数据与机器学习实战(基于R语言)陈文贤9787302551300清华大学出版社2020-07-01

本店图书均是正版，书友可放心拍支持七天无理由退换

作者: 陈文贤
出版社: 清华大学出版社
ISBN: 9787302551300

出版时间: 2020-07
装帧: 平装
开本: 16开

作者: 陈文贤
出版社: 清华大学出版社

ISBN: 9787302551300
出版时间: 2020-07

装帧: 平装
开本: 16开

售价 60.89 4.8折

定价￥128.00

品相全新

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2024-03-26

数量: 库存5件

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

教材教辅考试 > 教材 > 大学教材 > 计算机与互联网

货号：

9787302551300

商品描述：

作者简介
" 本书以独特的方式讲解数据科学，不仅让读者可以轻松学习数据科学理论，又可以动手（手算和机算）进行数据科学实战。本书特色：全彩印刷，图形、表格、思维导图丰富；避免深奥的数学证明，采用简单的数学说明；用各种学习图将本书内容贯穿起来；实战计算，包含小型数据的演算和大型数据的实战程序。本书共13章，内容涵盖丰富的数据科学模型，包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤，同时用R语言验证计算结果。另外，也有大数据的案例数据，例如：推荐系统、支持向量机、集成学习等。另外，本书只有大数据的案例数据用R语言计算。本书适合各个专业领域（包含金融、电商、保险、互联网等行业）想掌握数据科学的读者，也可以作为高校、社会培训机构教材。由于内容比较多，教师可自行选择教学内容。 "

目录
篇基础篇

章大数据概述3

1.1大数据与相关学科的定义4

1.1.1大数据的定义4

1.1.2数据挖掘6

1.1.3数据挖掘标准过程7

1.1.4机器学习9

1.1.5知识管理12

1.1.6数据科学14

1.1.7商业智能15

1.1.8人工智能17

1.1.9统计学与大数据比较19

1.1.10数据名词的定义21

1.2系统与模型概念22

1.2.1系统定义与成分22

1.2.2输入，处理，输出与黑箱23

1.2.3环境24

1.2.4反馈25

1.2.5效率与效果25

1.2.6模型与建模26

1.2.7模型的假定与参数27

1.2.8敏感，稳健或鲁棒28

1.2.9模型的过拟合28

1.3大数据分析模型的分类30

1.3.1后设模型30

1.3.2关系与因果31

1.3.3基于因果关系的统计学分类32

1.3.4基于因果关系的大数据分类32

1.3.5基于数据类型的分类34

1.3.6基于测量的分类35

1.3.7数据科学模型的其他分类36

1.4大数据的江湖传奇36

1.5R语言“词云图”代码40

1.6本章思维导图42

第2章大数据与R语言43

2.1大数据进位44

2.2R语言介绍45

2.2.1安装R语言软件45

2.2.2下载R语言程序包45

2.3R数据对象的属性与结构46

2.3.1数值47

2.3.2整数47

2.3.3字符串47

2.3.4逻辑47

2.3.5向量48

2.3.6因子49

2.3.7矩阵50

2.3.8数据框52

2.3.9数组52

2.3.10列表53

2.3.11时间序列54

2.3.12访问数据类型和结构54

2.3.13遗失值55

2.3.14读入ExcelCSV数据55

2.3.15编辑数据55

2.3.16保存ExcelCSV数据55

2.3.17数据输入窗口56

2.3.18R的数据结构和函数表56

2.4R的函数包56

2.5R的数据绘图59

2.6本章思维导图64

第二篇非监督式学习

第3章关联分析67

3.1关联分析介绍68

3.1.1事务与项目的定义68

3.1.2项集的关联规则69

3.2关联规则数据格式71

3.3关联规则的算法72

3.3.1Apriori算法73

3.3.2关联规则其他测度值74

3.3.3负关联规则75

3.4关联规则的优点和缺点76

3.4.1Apriori算法的优点76

3.4.2Apriori算法的缺点76

3.4.3关联规则的评估76

3.5关联规则的实例计算77

3.5.1尿布与啤酒77

3.5.2豆浆、烧饼与饭团79

3.5.3评估与应用82

3.6R语言实战82

3.6.1泰坦尼克号82

3.6.2商店数据86

3.6.3食品杂货数据90

3.6.4人口收入数据92

3.6.5鸢尾花数据93

3.7本章思维导图96

第4章聚类分析97

4.1聚类分析介绍98

4.2距离与相似度衡量99

4.2.1数值数据距离99

4.2.2标准化与归一化100

4.2.30-1数据距离和相似度100

4.2.4混合数据的距离102

4.2.5顾客数据的距离102

4.2.6距离和相似度的转换104

4.2.7计算距离的R函数104

4.3层次聚类分析106

4.3.1两类连接106

4.3.2顾客数据的聚类107

4.3.3层次聚类的优点和缺点110

4.4非层次聚类分析110

4.4.1K-mean聚类110

4.4.2PAM聚类112

4.4.3K-mean聚类的优点和缺点113

4.5聚类分析的评价113

4.6R语言实战115

4.6.1欧洲语言的聚类115

4.6.2美国电力公司数据118

4.6.3欧州人蛋白质数据120

4.6.4红酒数据124

4.6.5汽车数据126

4.7本章思维导图128

第5章降维分析129

5.1降维分析介绍130

5.2主成分分析131

5.2.1主成分分析的计算理论132

5.2.2主成分分析的计算步骤134

5.2.3主成分分析的优点和缺点134

5.3R语言程序135

5.4R语言实战138

5.4.1鸢尾花数据138

5.4.2美国罪犯数据138

5.4.3美国法官数据145

5.4.4国家冰球联盟资料146

5.4.5美国职业棒球数据149

5.4.6早餐麦片数据151

5.4.7红酒数据151

5.4.8心理学数据152

5.5本章思维导图154

第三篇监督式学习

第6章模型选择与评价157

6.1模型选择与评价步骤158

6.2大数据的抽样方法159

6.2.1保留方法抽样160

6.2.2自助抽样法162

6.2.3632自助法163

6.2.4过采样164

6.3交叉验证165

6.3.1k-折交叉验证165

6.3.2留一交叉验证166

6.4模型选择167

6.4.1参数和非参数学习168

6.4.2偏差和方差169

6.4.3模型的复杂度170

6.4.4正则化171

6.4.5认真学习和懒惰学习171

6.5模型评价172

6.5.1二元0-1分类器的评价——混淆矩阵172

6.5.2混淆矩阵的举例说明174

6.5.3二元分类器的成本计算176

6.5.4二元分类器例题数据R语言176

6.5.5多标签分类器的评价179

6.5.6多标签分类器评价R语言181

6.5.7交叉验证分类的评价183

6.5.8分类学习的ROC曲线183

6.5.9连续型目标变量回归模型的评价187

6.6R语言实战189

6.6.1R语言自动调模与调参189

6.6.2汽车数据190

6.6.3乳腺癌诊断数据190

6.7本章思维导图192

第7章回归分析193

7.1多元线性回归194

7.1.1多元线性回归模型194

7.1.2参数估计195

7.1.3适合性检验196

7.1.4实例计算197

7.1.5R语言的实例计算199

7.2变量（特征）选择200

7.2.1偏相关系数200

7.2.2逐步回归203

7.2.3部分子集回归204

7.2.4压缩方法205

7.3Logistic逻辑回归207

7.4R语言实战209

7.4.1股票数据209

7.4.2乳腺癌病理数据210

7.4.3医疗保险数据213

7.4.4棒球数据215

7.4.5波士顿房价数据218

7.4.6皮玛数据221

7.5本章思维导图224

第8章近邻法225

8.1学习器226

8.1.1认真学习器和懒惰学习器226

8.1.2基于实例学习器227

8.1.3参数学习器和非参数学习器228

8.2近邻法介绍229

8.2.1k-近邻法算法步骤229

8.2.2k-近邻法分类器230

8.2.3k-近邻法回归231

8.2.4自变量是分类变量232

8.3近邻法的优点和缺点232

8.4R语言实战233

8.4.1食材数据233

8.4.2鸢尾花数据234

8.4.3乳癌检查数据236

8.4.4美国总统候选人数据238

8.4.5玻璃数据240

8.4.6波士顿房价数据241

8.4.7皮玛数据242

8.5本章思维导图244

第9章贝叶斯分类245

9.1贝叶斯公式246

9.2贝叶斯分类247

9.2.1朴素贝叶斯分类247

9.2.2特征值是连续变量248

9.2.3朴素贝叶斯分类的优点和缺点249

9.3贝叶斯分类的实例计算249

9.3.1天气和打网球249

9.3.2验前概率与似然概率251

9.3.3拉普拉斯校准251

9.3.4R语言实例计算252

9.4R语言实战255

9.4.1泰坦尼克号数据255

9.4.2鸢尾花数据256

9.4.3垃圾邮件数据258

9.4.4皮玛数据261

9.5本章思维导图262

0章决策树263

10.1决策树概述264

10.1.1图形表示264

10.1.2逻辑表示265

10.1.3规则表示265

10.1.4数学公式表示265

10.2决策树的信息计算266

10.2.1信息计算266

10.2.2熵与信息267

10.2.3信息增益267

10.2.4信息增益比268

10.2.5基尼系数与基尼增益268

10.2.6卡方统计量269

10.2.7分枝法则的选择269

10.2.8回归树269

10.3决策树的实例计算270

10.4决策树的剪枝277

10.4.1贪婪算法277

10.4.2决策树剪枝278

10.5决策树的优点和缺点279

10.6R语言实战280

10.6.1决策树R语言包280

10.6.2打网球数据280

10.6.3泰坦尼克号数据283

10.6.4鸢尾花数据284

10.6.5皮玛数据289

10.6.6汽车座椅销售数据292

10.6.7波士顿房价数据295

10.6.8猫数据297

10.6.9驼背数据300

10.6.10美国总统选举投票数据301

10.6.11员工离职数据302

10.7本章思维导图306

1章支持向量机307

11.1支持向量机概述308

11.2优选间隔分类（硬间隔）310

11.3支持向量分类（软间隔）311

11.4支持向量机（核函数）313

11.4.1支持向量机的核函数313

11.4.2多元分类支持向量机315

11.5支持向量机的优点和缺点315

11.6支持向量机R语言应用316

11.6.1随机正态分布数据线性核函数317

11.6.2随机正态分布数据径向基核函数318

11.6.3三分类数据径向基核函数321

11.7R语言实战322

11.7.1基因表达数据322

11.7.2鸢尾花数据322

11.7.3猫数据323

11.7.4皮玛数据325

11.7.5字符数据328

11.7.6玻璃数据329

11.8本章思维导图332

2章集成学习333

12.1集成学习介绍334

12.2个别分类方法评价335

12.3Bagging学习337

12.4随机森林338

12.4.1随机森林介绍338

12.4.2随机森林算法步骤339

12.4.3R语言339

12.4.4随机森林的优点和缺点340

12.4.5非监督式学习-鸢尾花数据340

12.4.6美国大学数据341

12.5Boosting学习342

12.6Stacking学习343

12.6.1皮玛数据343

12.6.2员工离职数据344

12.7R语言实战345

12.7.1红酒数据345

12.7.2信用数据347

12.7.3皮玛数据348

12.7.4波士顿房价数据349

12.7.5汽车座椅数据352

12.7.6顾客流失数据353

12.8本章思维导图356

3章推荐系统357

13.1推荐系统概述358

13.2过滤推荐359

13.2.1相似度360

13.2.2基于用户的协同过滤360

13.2.3基于项目的协同过滤361

13.2.4协同过滤的评价362

13.2.5协同过滤的优点和缺点363

13.2.6混合的推荐机制364

13.3R语言应用365

13.3.1推荐系统R语言包365

13.3.2recommenderlab函数程序366

13.3.3模拟数据367

13.4R语言实战369

13.4.1电影数据369

13.4.2笑话数据373

13.5本章思维导图378

结语379

参考文献381

内容摘要
本书以独特的方式讲解数据科学，不仅让读者可以轻松学习数据科学理论，又可以动手（手算和机算）进行数据科学实战。本书特色：全彩印刷，图形、表格、思维导图丰富；避免深奥的数学证明，采用简单的数学说明；用各种学习图将本书内容贯穿起来；实战计算，包含小型数据的演算和大型数据的实战程序。本书共13章，内容涵盖丰富的数据科学模型，包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤，同时用R语言验证计算结果。另外，也有大数据的案例数据，例如：推荐系统、支持向量机、集成学习等。另外，本书只有大数据的案例数据用R语言计算。本书适合各个专业领域（包含金融、电商、保险、互联网等行业）想掌握数据科学的读者，也可以作为高校、社会培训机构教材。由于内容比较多，教师可自行选择教学内容。

主编推荐
"数据科学作为一门新兴的学科，正在高速发展并落地应用。当前的各行各业都充满了数据，这些数据的类型多种多样，不仅包括传统的结构化数据，也包括网页、文本、图像、视频、语音等非结构化数据。
数据科学涵盖的体系甚广，对某一领域进行数据科学研究，首先要研究该领域（比如生物信息学、天体信息学、数字地球等）的特性，然后通过包括统计学、机器学习、数据挖掘、数据库等技术从中分析出需要的结果。这些学科都是数据科学的重要组成部分，只有把它们有机地整合在一起，才能形成整个数据科学的全貌。
陈文贤老师作为数据科学的早期探索者，积累了大量科研经验，更为难得的是，陈老师擅用与科班教材截然不同的方式把包罗万象的数据科学细节逐步分解，娓娓道来，再用多年积累的实际案例把理论串联起来，从中再佐以大家耳熟能详的案例（如武侠场景、生活场景），把艰深晦涩、逻辑复杂的问题剖析地如水银泻地般流畅。
由于数据科学的特性，我们在策划阶段便确认彩色印刷，以便可以更精准地讲解和分析各种图表和代码。另外，陈老师针对全书脉络，每章都提供了学习地图，确保读者学习过程中不会迷失。
"
配送说明

...
相似商品
为你推荐

孔网分类

图书

图书

【正版全新】（慧远）大话数据科学 大数据与机器学习实战(基于R语言)陈文贤9787302551300清华大学出版社2020-07-01

孔网啦啦啦啦啦纺织女工火锅店第三课

【正版全新】（慧远）大话数据科学大数据与机器学习实战(基于R语言)陈文贤9787302551300清华大学出版社2020-07-01