敏捷数据科学:用Hadoop创建数据分析

朱尔尼著书籍

《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘，以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中，你将学到：一整套实用工具及其方法论，可快速实现在Hadoop 上构建数据分析应用；用Python、Apache Pig及D3.js等轻量级工具创建用于探索数据的敏捷环境；一种可根据数据中信息快速切换，进行不同类型数据分析的迭代式开发方法。《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者，同时也适合有志成为数据科学工作者的广大读者作为入门读物。

基本信息

书名
敏捷数据科学:用Hadoop创建数据分析
外文名
Agile Data Science
作者
朱尔尼(Russell Jurney)
译者
冯文中
类型
科技

基本介绍

内容简介

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型？通过这本实践指南，你可以学到一套灵活的工具和方法论，在Hadoop上构建数据分析应用。使用诸如Python、Apache Pig和D3.js等轻量级工具，你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序，挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法，使得你能根据数据中的信息快速切换，进行不同类型的数据分析。书中所有的代码样例都可以在 Heroku 中以 App 形式运行。 ■ 用敏捷式大数据开发方法论创建分析应用 ■ 用数据－价值栈，在一系列敏捷周期中创建价值 ■ 用多种数据结构从单个数据集中提取特征，获取洞察 ■ 用图表可视化数据，通过交互性报表从不同角度展示数据 ■ 用历史数据进行预测，将预测转化为行动 ■ 在每个迭代周期过后获取用户反馈，确保项目方向正确

作者简介

作者介绍：Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后，他到了硅谷，在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。译者介绍：朱洪波阿里巴巴数据挖掘专家，机器学习团队负责人，司职于解决商业客户对数据的深层需求。纸质书爱好者，相信理性与逻辑的力量。

图书目录

第1部分起步1 第1章理论3 敏捷大数据3 BigWords定义4 敏捷大数据团队5 认识机遇和问题6 敏捷大数据流程11 代码检查和结对编程12 敏捷的场所：开发的效率13 协作空间14 私人空间14 个人空间14 用大幅打印件明确表达想法15 第2章数据17 电子邮件17 处理原始数据18 原始的电子邮件18 结构化与半结构化数据18 SQL20 NoSQL24 序列化24 从演变的模式中抽取和展示特征25 数据流水线26 数据透视27 社交网络28 时间序列30 自然语言31 概率33 小结35 第3章敏捷开发工具37 可扩展性=简洁37 敏捷大数据处理38 设置运行Python的虚拟环境39 使用Avro对事件进行序列化40 在Python中使用Avro40 收集数据42 使用Pig处理数据44 安装Pig45 使用MongoDB发布数据49 安装MongoDB49 安装MongoDB的Java驱动程序50 安装mongo—hadoop50 用Pig向MongoDB推送数据50 使用ElasticSearch搜索数据52 安装52 使用Wonderdog整合ElasticSearch和Pig53 对工作流程的反思55 轻量级的Web应用56 Python和Flask56 展示数据58 安装Bootstrap58 启用Bootstrap59 使用d3.js和nvd3.js可视化数据63 小结64 第4章在云端65 引言65 GitHub67 dotCloud67 dotCloudEcho服务68 Python工作者服务71 AmazonWebServices71 SimpleStorageService71 ElasticMapReduce72 MongoDB即服务79 辅助工具（Instrumentation）81 GoogleAnalytics81 MortarData82 第2部分登上金字塔85 第5章收集和展示数据89 整合软件栈90 收集并序列化收件箱90 处理和发布邮件数据91 在浏览器中显示邮件93 用Flask和pymongo处理邮件数据94 使用Jinja2渲染HTML5页面94 敏捷检查点98 生成电子邮件清单99 用MongoDB显示邮件99 对数据展示的分析101 搜索邮件106 使用Pig，ElasticSearch和Wonderdog构建索引106 在网页中搜索邮件数据107 结论108 第6章使用图表可视化数据111 优秀的图表112 抽取实体：邮件地址112 抽取邮件112 对时间进行可视化116 结论122 第7章利用报表探索数据123 为数据添加联系126 用TF—IDF从邮件中提取关键字133 小结138 第8章预测141 预测电子邮件的回复率142 个性化147 小结148 第9章驱动行动149 好邮件的属性150 使用朴素贝叶斯方法进行更好的预测150 P（Reply|From∩To）150 P（Reply|Token）151 实时预测153 记录事件日志157 小结157 索引159

序言

我写这本书是为了帮助大家避免重复我犯过的错误，进而防止失败项目的产生。在这本书里面，描述、反映了我在两个不同的Hadoop 服务上构建数据分析应用的经验。《敏捷数据科学》这本书有三个目标：提供一个用Hadoop 构建数据分析应用的操作指南；帮助团队在大数据项目中以敏捷的形式进行更好的协作；提出一个进行敏捷式大数据分析的先进结构。读者是谁《敏捷数据科学》是一门帮助大数据的入门者以及萌芽中的数据科学家，成为数据科学与数据分析团队中更有生产力的成员的课程。它的目标是帮助工程师，分析师和数据科学家以敏捷的形式在Hadoop 上处理大数据。它介绍了一种非常适合大数据的敏捷开发方式。这本书同样针对需要处理数据并开发软件的程序员。设计师和项目经理可能会特别喜欢本书第一、二、五章，这些章节主要介绍一些敏捷的流程，而没有把关注点放在具体的代码上。本书假设读者在一个*nix 环境中工作，对于Windows 用户，我们没有提供相应的例子，但他们可以使用Cygwin。一个由用户贡献而且包含所有前置依赖的Linux 镜像，可以从这获取。读者可以通过这个工具在VirtualBox 里面快速启动一台Linux 机器。本书如何组织这本书包含两部分。第一部分介绍数据以及将在本书第二部分用到的工具集。我特意将第一部分写得比较简短，只用了较少的篇幅来介绍这些工具。假如感觉第一部分内容太过简略，也不要担心，本书第二部分将会深入地探索这些工具的用法。下面的章节组成了本书的第一部分：第一章理论介绍敏捷大数据的工作方法。第二章数据介绍本书中将要使用的数据，以及简单的预测方法。第三章敏捷开发工具介绍工具集，并帮助读者将它们在机器上安装好。第四章在云端带领读者将第三章中介绍的工具集扩展到云端，以支持PB 级的数据规模。本书第二部分是一个利用敏捷大数据的方式来构建数据分析应用的教程。这是一个笔记本形式的指南。在数据- 价值金字塔的每一次上升都遵循着敏捷的原则。我会阐述如何在小的敏捷开发周期里面逐步创造价值。第二部分包含如下的章节：第五章收集和展示数据帮助读者下载电子邮件收件箱数据并将邮件连接到一个web 程序上。第六章使用图表可视化数据让读者逐步在web 程序中创建简单的图表来操纵数据。第七章利用报表探索数据展示如何从数据里面提取实体，并将它们连接在一起，创建可交互的数据报告。第八章预测帮助读者利用之前的成果预测邮件收到回复的概率。第九章驱动行动介绍如何将已有的预测功能扩展成一个完整的实时分类器，来帮助用户写出会被回复的邮件。本书所使用的约定以下是本书所使用的排版约定：斜体（Italic）表示新的条目、网址、电子邮件地址、文件名和文件扩展名。等宽字体（Constant width）在程序代码中使用，同时也会出现在段落内的那些引用程序元素如函数名、数据库、数据类型、环境变量、声明和关键字等，还会在API、组件及模块名里遇到。等宽粗字体（Constant with bold）表示命令或由用户输入的文本。等宽斜体字（Constant with italic）表示应该由用户提供的值来代替上下文决定的值的那些文本。这个图标标志是提示、建议或一般说明。这个图标表示警告或告示。使用代码实例补充材料( 代码示例, 练习等) 请登录自行下载。本书就是要帮读者完成工作的。通常，如果本书包含了代码示例，你可以在你的程序和文档中使用本书中的代码。除非你复制了大段的代码，否则你无须联系我们来取得许可。举个例子，在编写程序时使用了本书中的数块代码是不需要经过许可的。出售或分发来自O’Reilly 图书的示例CD-ROM 是必须经过许可的。引用本书及本书中的示例代码来回答问题是不需要经过许可的。将大量的示例代码整合到你的产品文档中必须经过许可。我们很感谢但不要求注明出处。出处的格式一般包括标题、作者、出版社和ISBN，例如“由Russell Jurney 写的Agile Data Science (O’Reilly). Copyright 2014 Data SyndromeLLC, 978-1-449-32626-5。” 如果你觉得没有在正常范围内使用代码例子，并且不知是否在上面所说的许可范围内，请随时联系我们： Safari Books Online是一个发布来自全球技术和商业领域的顶尖作者写的书和视频等优质内容的按需数字化图书馆。技术专业人士、软件开发者、网站设计师及商业和创意专业都用Safari Books Online 作为他们的主要研究、解决问题、学习和认证培训资源。 Safari Books Online 提供了一系列产品及针对组织、政府和个人不同的定价方案，订阅者可以访问到成千上万的图书、培训视频及出版前的手稿，这些内容都可以从出版社，如O’Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、MicrosoftPress、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology 等数据库中搜索而得到，想了解更多关于Safari Books Online 的信息，请在线访问我们。联系我们对于本书的评论或问题请联系出版商：美国： O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中国：北京市西城区西直门南大街2 号成铭大厦C 座807 室（100035）奥莱利技术咨询（北京）有限公司我们为本书制作了一个Web 页面，页面中包含了简介、样章，以及其他信息。如果要留言或者提交关于本书的技术问题的反馈，本书的更多信息、资源、参考文献和新闻，请登录出版社官网。

名人推荐

“在目前“数据科学”被大肆宣传的环境下，读到一本构建数据产品的实践指南让我耳目一新。Russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。” ——Mat Kelcey matpalm.com博主