Hadoop系统入门+核心精讲资源概述:

适合人群:
你得会点Linux基本命令,懂Java SE的基础(毕竟是Java写的),知道MySQL怎么用就行。不用非得做过完整的后端项目,这门课就是给新手设计的。
主要内容:
先认识Hadoop:
这玩意儿是啥,生态里都有哪些组件,市面上有哪些发行版,让你有个整体概念。
HDFS文件系统:
它是怎么设计来存海量数据的,怎么搭个单机版玩玩,怎么用命令行和Java代码读写文件,还会详细画图给你看数据是怎么写进去又是怎么读出来的。中间会穿插个小练习,比如用HDFS的API做个简单的词频统计。
MapReduce计算框架:
讲它的架构和工作流程,然后手把手教你写MapReduce程序。有两个练习:一个是用MapReduce重新做词频统计,另一个是根据手机号统计流量。还会教你用MapReduce实现SQL里的join功能。
YARN资源调度:
讲YARN是怎么诞生的(为了解决什么问题),它的架构和执行流程是啥。搭个单机版YARN,然后把你写好的MapReduce作业提交上去跑。
Hive数据仓库:
为啥要用Hive(写SQL比写MapReduce方便多了),怎么搭Hive,怎么做表、导数据、写SQL查询。还会讲Hive的函数和性能调优,这是面试和工作里经常问到的。
Hadoop集群部署:
不光是单机玩,还得教你正儿八经的分布式集群怎么规划、怎么装、怎么把作业提交到集群上跑。
进阶内容:
讲一些生产环境里经常碰到的问题,比如小文件太多怎么办、集群之间怎么拷数据、Hadoop的回收站机制、数据压缩怎么用等等。这些属于有经验的人才知道的坑和技巧。
综合实战:
最后用一个电商网站的用户行为日志,完整走一遍需求分析、功能开发、集群部署的流程,把HDFS、MapReduce、Hive这些东西都用上,做个离线数据处理项目。
目录结构:
第1章大数据概述第2章初识Hadoop
第3章分布式文件系统HDFS
第4章分布式计算框架MapReduce
第5章资源调度框架YARN
第6章电商项目实战Hadoop实现
第7章数据仓库Hive
第8章电商项目实战Hive实现
第9章Hadoop分布式集群搭建

评论(0)