大规模数据处理入门与实战（套装全10册）epub+azw3+mobi【图灵出品！一套囊括SQL、Python、Spark、Hadoop、Kafka、Flink的数据科学的实用指南！大数据时代的实战宝典！】-小月博客

内容简介

本套装共包含《SQL反模式》、《SQL必知必会（第4版））》、《数据科学实战》、《Spark快速大数据分析》、《数据科学入门》、《Python数据挖掘入门与实践》、《Hadoop安全：大数据平台隐私保护》、《Kafka权威指南》、《Hadoop数据分析》、《Flink基础教程》10本书

《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具体的案例，以及开发人员和使用人员在面对这些案例时经常采用的错误解决方案，来介绍如何识别、利用这些陷阱，以及面对问题时正确的解决手段。另外，《SQL反模式》还涉及了SQL的各级范式和针对它们的正确理解。　　《SQL反模式》适合SQL数据库开发人员与管理人员阅读。
SQL是使用广泛的数据库语言，几乎所有重要的DBMS都支持SQL。《图灵程序设计丛书：SQL必知必会（第4版）》由浅入深地讲解了SQL的基本概念和语法，涉及数据的排序、过滤和分组，以及表、视图、联结、子查询、游标、存储过程和触发器等内容，实例丰富，便于查阅。新版增加了针对ApacheOpenOfficeBase、MariaDB、SQlite等DBMS的描述，并根据新版本的Oracle、SQLServer、MySQL和PostgreSQL更新了相关示例。　　《图灵程序设计丛书：SQL必知必会（第4版）》适合SQL初学者，也可供广大开发及管理人员参考。
《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义，它界定了数据科学的研究范畴，是一本注重人文精神，多角度、全方位、深入介绍数据科学的实用指南，堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题，内容包括：数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外，本书还将带领读者展望数据科学未来的发展。
《Spark快速大数据分析》讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。
《数据科学入门》本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境，从零开始讲解数据科学工作。具体内容包括：Python速成，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法，等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，详细展示了什么是数据科学。
《Python数据挖掘入门与实践》作为数据挖掘入门读物，介绍了数据挖掘的基础知识、基本工具和实践方法，通过循序渐进地讲解算法，带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式，呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果，如何使用亲和性分析方法推荐电影，如何使用朴素贝叶斯算法进行社会媒体挖掘，等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。
《Hadoop安全大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程，介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题，并在实际环境下加以讨论。第 1章是介绍性内容，随后分为四大部分：第一部分是安全架构，第二部分是验证、授权和安全审计，第三部分是数据安全，第四部分是归纳总结。介绍了几个使用案例，融合了书中诸多概念。《Hadoop安全大数据平台隐私保护》适合对Hadoop感兴趣的读者，有大数据平台保护需求的读者。
《Kafka权威指南》是关于Kafka的全面教程，主要内容包括：Kafka相对于其他消息队列系统的优点，主要是它如何匹配大数据平台开发；详解Kafka内部设计；用Kafka构建应用的实践；理解在生产中部署Kafka的方式；如何确保Kafka集群的安全。本书适合Java开发人员、大数据平台开发人员以及对分布式系统感兴趣的读者阅读。
《Hadoop数据分析》提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，* 一部分从非常高的层次介绍分布式计算，讨论如何在集群上运行计算；* 二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。
近年来，流处理变得越来越流行。作为高度创新的开源流处理器，Flink拥有诸多优势，包括容错性、高吞吐、低延迟，以及同时支持流处理和批处理的能力。《Flink基础教程》分为6章，侧重于介绍Flink的核心设计理念、功能和用途，内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评，以及Flink如何实现批处理。本书面向有兴趣学习如何分析大规模流数据的读者。