大数据日知录 PDF 高清电子书 免费下载 完整版 在线阅读- 高飞网
大数据日知录

大数据日知录

数据 大数据
浏览人数:42
读者:           ...
   大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。    《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。    《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。

第0 章 当谈论大数据时我们在谈什么................ 1   
0.1 大数据是什么.......................... 2   
0.2 大数据之翼:技术范型转换......................................... 4   
0.3 大数据商业炼金术................................ 6   
0.4 “大数据”在路上................................................... 7   
第1 章 数据分片与路由.............................................. 9   
1.1 抽象模型.......................................................10   
1.2 哈希分片(Hash Partition) ..............................11   
1.3 范围分片(Range Partition) ......................................18   
参考文献......................................19   
第2 章 数据复制与一致性................................................20   
2.1 基本原则与设计理念............................21   
2.2 一致性模型分类.................................................26   
2.3 副本更新策略...........................30   
2.4 一致性协议...........................................................32   
参考文献................................................49   
第3 章 大数据常用的算法与数据结构....................................51   
3.1 布隆过滤器(Bloom Filter) ............................51   
3.2 SkipList............................................55   
3.3 LSM 树........................................58   
3.4 Merkle 哈希树(Merkle Hash Tree) .............................62   
3.5 Snappy 与LZSS 算法..........................................65   
3.6 Cuckoo 哈希(Cuckoo Hashing) ..................................67   
参考文献...................................................70   
第4 章 集群资源管理与调度.......................................71   
4.1 资源管理抽象模型...................................72   
4.2 调度系统设计的基本问题.....................................74   
4.3 资源管理与调度系统范型.............................77   
4.4 资源调度策略...............................................81   
4.5 Mesos .................................84   
4.6 YARN......................................87   
参考文献..............................................90   
第5 章 分布式协调系统...................................91   
5.1 Chubby 锁服务...............................92   
5.2 ZooKeeper ................................96   
参考文献...................................104   
第6 章 分布式通信..............................106   
6.1 序列化与远程过程调用框架..................................107   
6.2 消息队列.....................................110   
6.3 应用层多播通信(Application-Level Multi-Broadcast)........114   
参考文献..........................118   
第7 章 数据通道.........................................120   
7.1 Log 数据收集.................................120   
7.2 数据总线......................................123   
7.3 数据导入/导出...........................................128   
参考文献.............................129   
第8 章 分布式文件系统....................................131   
8.1 Google 文件系统(GFS) .................................132   
8.2 HDFS ..........................138   
8.3 HayStack 存储系统....................................145   
8.4 文件存储布局.........................................150   
8.5 纠删码(Erasure Code).............................158   
参考文献.....................................166   
第9 章 内存KV 数据库...................................168   
9.1 RAMCloud ..............................169   
9.2 Redis....................................172   
9.3 MemBase ...............................173   
参考文献................................................175   
第10 章 列式数据库...........................................176   
10.1 BigTable....................................177   
10.2 PNUTS 存储系统........................................186   
10.3 MegaStore..................................................190   
10.4 Spanner .........................................194   
参考文献..............................................197   
第11 章 大规模批处理系统...................................199   
11.1 MapReduce 计算模型与架构................................200   
11.2 MapReduce 计算模式...........................206   
11.3 DAG 计算模型..........................................214   
参考文献...........................................218   
第12 章 流式计算........................................219   
12.1 流式计算系统架构....................................222   
12.2 DAG 拓扑结构..........................................224   
12.3 送达保证(Delivery Guarantees)..............................229   
12.4 状态持久化...........................................234   
参考文献............................................238   
第13 章 交互式数据分析...................................240   
13.1 Hive 系数据仓库.................................242   
13.2 Shark 系数据仓库..................................251   
13.3 Dremel 系数据仓库...................................254   
13.4 混合系数据仓库......................................265   
参考文献.................................269   
第14 章 图数据库:架构与算法................................271   
14.1 在线查询类图数据库...........................272   
14.2 常见图挖掘问题..........................................277   
14.3 离线挖掘数据分片..............................................279   
14.4 离线挖掘计算模型...................................284   
14.5 离线挖掘图数据库.................................292   
参考文献.......................................311   
第15 章 机器学习:范型与架构.........................................313   
15.1 分布式机器学习...........................................314   
15.2 分布式机器学习范型.....................317   
15.3 分布式机器学习架构...................................324   
参考文献................................................335   
第16 章 机器学习:分布式算法...............................337   
16.1 计算广告:逻辑回归.......................................338   
16.2 推荐系统:矩阵分解................................................344   
16.3 搜索引擎:机器学习排序................................347   
16.4 自然语言处理:文档相似性计算.......................................352   
16.5 社交挖掘:谱聚类.................................355   
16.6 深度学习:DistBelief .............................................358   
参考文献.........................................364   
第17 章 增量计算..........................................366   
17.1 增量计算模式...........................367   
17.2 Percolator................................370   
17.3 Kineograph ............................374   
17.4 DryadInc ....................................376   
参考文献..............................................................377   
附录A 硬件体系结构及常用性能指标......................................378   
附录B 大数据必读文献....................................380   
看过本书的人还看过