大数据:互联网大规模数据挖掘与分布式处理(中文版) PDF 高清电子书 免费下载 完整版 在线阅读- 高飞网
大数据:互联网大规模数据挖掘与分布式处理

大数据:互联网大规模数据挖掘与分布式处理

中文版
 [美] Anand Rajaraman [美] Jeffrey David Ullman 著,王斌 译
数据库 推荐 大数据 分布式 数据挖掘
浏览人数:134
读者:             ...
  本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:
  □ 分布式文件系统以及Map-Reduce工具;
  □ 相似性搜索;
  □ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
  □ 搜索引擎技术,如谷歌的PageRank;
  □ 频繁项集挖掘;
  □ 大规模高维数据集的聚类算法;
  □ Web应用中的关键问题:广告管理和推荐系统。
  本书配套网http://infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。

第1章 数据挖掘基本概念    
1.1 数据挖掘的定义    
1.2 数据挖掘的统计限制    
1.3 相关知识    
1.4 本书概要    
1.5 小结    
1.6 参考文献    
第2章 大规模文件系统及Map-Reduce    
2.1 分布式文件系统    
2.2 Map-Reduce    
2.3 使用Map-Reduce的算法    
2.4 Map-Reduce的扩展    
2.5 集群计算算法的效率问题    
2.6 小结    
2.7 参考文献    
第3章 相似项发现    
3.1 近邻搜索的应用    
3.2 文档的Shingling    
3.3 保持相似度的集合摘要表示    
3.4 文档的局部敏感哈希算法    
3.5 距离测度    
3.6 局部敏感函数理论    
3.7 面向其他距离测度的LSH函数族    
3.8 LSH函数的应用    
3.9 面向高相似度的方法    
3.10 小结    
3.11 参考文献    
第4章 数据流挖掘    
4.1 流数据模型    
4.2 流当中的数据抽样    
4.3 流过滤    
4.4 流中独立元素的数目统计    
4.5 矩估计    
4.6 窗口内的计数问题    
4.7 衰减窗口    
4.8 小结    
4.9 参考文献    
第5章 链接分析    
5.1 PageRank    
5.2 PageRank的快速计算    
5.3 面向主题的PageRank    
5.4 链接作弊    
5.5 导航页和权威页    
5.6 小结    
5.7 参考文献    
第6章 频繁项集    
6.1 购物篮模型    
6.2 购物篮及A-Priori算法    
6.3 更大数据集在内存中的处理    
6.4 有限扫描算法    
6.5 流中的频繁项计数    
6.6 小结    
6.7 参考文献    
第7章 聚类    
7.1 聚类技术介绍    
7.2 层次聚类    
7.3 k-均值算法    
7.4 CURE算法    
7.5 非欧空间下的聚类    
7.6 流聚类及并行化    
7.7 小结    
7.8 参考文献    
第8章 Web广告    
8.1 在线广告相关问题    
8.2 在线算法    
8.3 广告匹配问题    
8.4 Adwords问题    
8.5 Adwords的实现    
8.6 小结    
8.7 参考文献    
第9章 推荐系统    
9.1 一个推荐系统的模型    
9.2 基于内容的推荐    
9.3 协同过滤    
9.4 降维处理    
9.5 NetFlix竞赛    
9.6 小结    
9.7 参考文献    
索引    
看过本书的人还看过