Hadoop系统入门+核心精讲资源概述:

Hadoop系统入门+核心精讲
Hadoop系统入门+核心精讲

适合人群:

你得会点Linux基本命令,懂Java SE的基础(毕竟是Java写的),知道MySQL怎么用就行。不用非得做过完整的后端项目,这门课就是给新手设计的。

主要内容:

先认识Hadoop:

这玩意儿是啥,生态里都有哪些组件,市面上有哪些发行版,让你有个整体概念。

HDFS文件系统:

它是怎么设计来存海量数据的,怎么搭个单机版玩玩,怎么用命令行和Java代码读写文件,还会详细画图给你看数据是怎么写进去又是怎么读出来的。中间会穿插个小练习,比如用HDFS的API做个简单的词频统计。

MapReduce计算框架:

讲它的架构和工作流程,然后手把手教你写MapReduce程序。有两个练习:一个是用MapReduce重新做词频统计,另一个是根据手机号统计流量。还会教你用MapReduce实现SQL里的join功能。

YARN资源调度:

讲YARN是怎么诞生的(为了解决什么问题),它的架构和执行流程是啥。搭个单机版YARN,然后把你写好的MapReduce作业提交上去跑。

Hive数据仓库:

为啥要用Hive(写SQL比写MapReduce方便多了),怎么搭Hive,怎么做表、导数据、写SQL查询。还会讲Hive的函数和性能调优,这是面试和工作里经常问到的。

Hadoop集群部署:

不光是单机玩,还得教你正儿八经的分布式集群怎么规划、怎么装、怎么把作业提交到集群上跑。

进阶内容:

讲一些生产环境里经常碰到的问题,比如小文件太多怎么办、集群之间怎么拷数据、Hadoop的回收站机制、数据压缩怎么用等等。这些属于有经验的人才知道的坑和技巧。

综合实战:

最后用一个电商网站的用户行为日志,完整走一遍需求分析、功能开发、集群部署的流程,把HDFS、MapReduce、Hive这些东西都用上,做个离线数据处理项目。

目录结构:

第1章大数据概述第2章初识Hadoop

第3章分布式文件系统HDFS

第4章分布式计算框架MapReduce

第5章资源调度框架YARN

第6章电商项目实战Hadoop实现

第7章数据仓库Hive

第8章电商项目实战Hive实现

第9章Hadoop分布式集群搭建

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。