图文详情

数据整理实践指南

正版书籍实物拍摄现货当天发货【内页干净】

[美] 麦卡伦（Q. Ethan McCallum）著；魏秀丽、李妹芳译 / 人民邮电出版社 / 2016-03 / 平装

售价 2.00

品相九品品相描述

优惠

发货

承诺48小时内发货

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2026-06-25

数量: 仅1件在售，欲购从速

立即购买加入购物车收藏

卖家超过10天未登录

十年老店

京8书店

店铺等级

拍卖等级

资质认证

90天平均

成功完成

94.48% (1348笔)

好评率

100%

发货时间

6.51小时

店主

北京好运8888

联系

在线交谈离线留言

地址

北京市朝阳区

进店逛逛收藏店铺

商品详情
店铺评价

立即购买加入购物车收藏

手机购买

微信扫码访问

图书条目信息
图书 > 计算机与互联网
数据整理实践指南
作者: [美] 麦卡伦（Q. Ethan McCallum）著；魏秀丽译；李妹芳译

出版社: 人民邮电出版社

出版时间: 2016-03

版次: 1

ISBN: 9787115411020

定价: 49.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 209页

字数: 261千字

正文语种: 简体中文

原版书名: Bad Data Handbook
内容简介：

　　随着数据科学的热门，数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据，进行数据清理的案例，向读者展示了处理数据的方法。
　　本书共有19章，从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南，它向读者介绍了驾驭、提取数据的方法，如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据，它向读者介绍了数据也会“撒谎”。第3部分是方法，它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施，它向读者介绍了如何存储数据。第5部分是数据的商业化，它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略，它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。
　　本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。

作者简介：

　　Q．Ethan McCallum，是一位顾问、作家，也是一名科技爱好者。他帮助很多公司在数据和技术方面做出明智的决策，他为The O’Relly Network 和Java.net撰写文章，并且为《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。

目录：

第1章从头说起：什么是噪音数据 1
第2章是我的问题还是数据的问题 4
2．1理解数据结构 5
2．2校验 8
2．2．1字段校验 8
2．2．2值校验 9
2．2．3简单统计的物理解释 10
2．3可视化 11
2．3．1关键词竞价排名示例 13
2．3．2搜索来源示例 18
2．3．3推荐分析 19
2．3．4时间序列数据 22
2．4小结 27
第3章数据是给人看的不是给机器看的 28
3．1数据 28
3．1．1问题：数据是给人看的 29
3．1．2对数据的安排 29
3．1．3数据分散在多个文件中 32
3．2解决方案：编写代码 34
3．2．1从糟糕的数据格式中读取数据 34
3．2．2从多个文件中读取数据 36
3．3附言 42
3．4其他格式 43
3．5小结 45
第4章纯文本中潜在的噪音数据 46
4．1使用哪种纯文本编码？ 46
4．2猜测文本编码格式 50
4．3对文本规范化处理 53
4．4问题：在纯文本中掺入了特定应用字符 55
4．5通过Python处理文本 59
4．6实践练习题 60
第5章重组Web数据 62
5．1你能获得数据吗 63
5．1．1一般工作流程示例 64
5．1．2Robots协议 65
5．1．3识别数据组织模式 66
5．1．4存储离线版本 68
5．1．5网页抓取信息 69
5．2真正的困难 73
5．2．1下载原始内容 73
5．2．2表单、对话框和新建窗口 73
5．2．3Flash 74
5．3不利情况的解决办法 75
5．4小结 75
第6章检测撒谎者以及相互矛盾网上评论的困惑 76
6．1Weotta公司 76
6．2获得评论 77
6．3情感分类 77
6．4极化语言 78
6．5创建语料库 80
6．6训练分类器 81
6．7分类器验证 82
6．8用数据设计 84
6．9经验教训 84
6．10小结 85
6．11信息资源 86
第7章请噪音数据站出来 87
7．1实例1：在制造业中减少缺陷 87
7．2实例2：谁打来的电话 90
7．3实例3：当“典型的”不等于“平均的” 92
7．4经验总结 95
7．5到工厂参观能成为试验的一部分吗 96
第8章血、汗和尿 97
8．1书呆子戏剧性工作交换 97
8．2化学家如何整理数字 98
8．3数据库都是我们的 99
8．4仔细检查 102
8．5生命短暂的漂亮代码库 103
8．6改变化学家（和其他电子表单滥用者） 104
8．7传递线（tl）和数据记录器（dr） 105
第9章当数据与现实不匹配 107
9．1到底是谁的报价机 108
9．2股票分割、股利和调整 110
9．3糟糕的现实 112
9．4小结 114
第10章偏差和误差的来源 115
10．1估算上的偏差：一般性的问题 117
10．2报告上的误差：一般性的问题 118
10．3其他偏差来源 121
10．3．1顶层编码/底部编码 121
10．3．2Seam偏差 122
10．3．3代理报告 123
10．3．4样本选择 123
10．4结论 124
参考文献 124
第11章不要把完美和正确对立起来：噪音数据真是噪音吗 128
11．1回忆学校生活 128
11．2向着专业领域前进 129
11．2．1政府工作 130
11．2．2政府数据非常真实 131
11．3应用实例—服务电话 132
11．4继续前进 133
11．5经验与未来展望 134
第12章数据库攻击：什么时候使用文件 135
12．1历史 135
12．2建立我的工具箱 136
12．3数据存储—我的路障 136
12．4将文件作为数据存储器 137
12．4．1简单的文件 138
12．4．2文件处理一切 138
12．4．3文件可包含任何数据形式 138
12．4．4局部数据破坏 139
12．4．5文件拥有很棒的工具 139
12．4．6没有安装税 139
12．5文件的概念 140
12．5．1编码 140
12．5．2文本文件 140
12．5．3二进制数据 140
12．5．4内存映射文件 140
12．5．5文件格式 140
12．5．6分隔符 142
12．6文件支持的网络框架 143
12．6．1动机 143
12．6．2实现 145
12．7反馈 145
第13章卧库表，隐网络 146
13．1成本分配模型 147
13．2组合展开微妙的作用 150
13．3隐藏网络的浮现 151
13．4存储图表 151
13．5利用Gremlin遍历图表 152
13．6在网络属性里寻找价值 154
13．7从多重数据模型角度考虑并使用正确的工具 155
13．8致谢 155
第14章云计算神话 156
14．1关于云的介绍 156
14．2何谓“云” 156
14．3云和大数据 157
14．4Fred的故事 157
14．4．1起初一切都好 157
14．4．2基础结构全部放在云端 158
14．4．3随着规模增长，最初的扩展很轻松 158
14．4．4麻烦出现了 158
14．4．5需要提高性能 158
14．4．6关键要提高RAID10性能 158
14．4．7重要的局部运行中断引发长期停机 159
14．4．8有代价的RAID10 159
14．4．9数据规模增大 160
14．4．10地理冗余成为首选 160
14．4．11水平扩展并不像想像得那么简单 160
14．4．12成本显著增长 160
14．5Fred的荒唐事 161
14．5．1神话1：云是所有基础设施组件的解决方案 161
该神话与Fred故事的联系 161
14．5．2神话2：云可以节约成本 161
该神话与Fred的故事的联系 162
14．5．3神话3：通过RAID可以将cloud10的性能提高至可接受的水平 163
该神话与Fred故事的联系 163
14．5．4神话4：云计算使水平扩展轻松 163
该神话与Fred故事的联系 164
14．6结论和推荐 164
第15章数据科学的阴暗面 165
15．1避开这些陷阱 165
15．1．1对数据一无所知 166
15．1．2应该只为数据科学家提供一种工具来解决所有问题 167
15．1．3应该为了分析而分析 169
15．1．4应该学会分享 169
15．1．5应该期望数据科学家无所不能 170
15．2数据学家在机构中的位置 170
15．3最后的想法 171
第16章如何雇佣机器学习专家 172
16．1确定问题 172
16．2模型测试 173
16．3创建训练集 174
16．4选择特征 175
16．5数据编码 176
16．6训练集、测试集和解决方案集 176
16．7问题描述 177
16．8回答问题 178
16．9整合解决方案 178
16．10小结 179
第17章数据的可追踪性 180
17．1原因 180
17．2个人经验 181
17．2．1快照 181
17．2．2保存数据源 181
17．2．3衡量数据源 182
17．2．4逆向恢复数据 182
17．2．5分阶段处理数据并保持各阶段的独立性 182
17．2．6识别根源 183
17．2．7寻找要完善的区域 183
17．3不变性：从函数程序设计借来的理念 183
17．4案例 184
17．4．1网络爬虫 184
17．4．2改变 185
17．4．3聚类 185
17．4．4普及度 185
17．5小结 186
第18章社交媒体：是可抹去的印记吗 187
18．1社交媒体：到底是谁的数据 188
18．2管控 188
18．3商业重组 190
18．4对沟通和表达的期望 190
18．5新的最终用户期望的技术含义 192
18．6这个行业是做什么的 194
18．6．1验证API 195
18．6．2更新通知API 195
18．7最终用户做什么 195
18．8我们怎样一起工作 196
第19章揭秘数据质量分析：了解什么时候数据足够优质 197
19．1框架介绍：数据质量分析的4个C 198
19．1．1完整性 199
19．1．2一致性 201
19．1．3准确性 203
19．1．4可解释性 205
19．2结论 208

展开全部
货号：

33-1-6+

品相描述：九品

正版书籍实物拍摄现货当天发货【内页干净】
- 图2
- 图3
配送说明

...
相似商品
为你推荐

孔网分类

孔网特色

图书

艺术品收藏

文创与周边

笔墨(1)

特色

图书

艺术品藏品

文创与周边

数据整理实践指南

孔网啦啦啦啦啦纺织女工火锅店第三课