数据流实战

  • 记录Docker、Kafka、Hadoop、Zookeeper、Flink等数据开发技术的学习与实战过程。可以按照下文给出的学习资料学习,不一定要看我的,我的文字主要是实战记录,脉络框架也是参考其他人的。

  • 本系列希望达到的目标:设计一个原型系统,用户在系统上对某个内容表示喜欢或者厌恶,系统收集用户行为数据到Kafka,流处理使用Flink,后续使用推荐算法实时推荐,返回用户喜欢的内容。(利用Docker搭建所需集群)

  • 前置知识

    • Java服务端开发知识
    • Linux知识

Docker

Docker可谓是不得不学的一门技术,有了它,可以更加快速地配置我们的各种环境,抹平了各平台的环境差异性。

推荐的学习资源:

哔哩哔哩的UP:遇见狂神说,有视频教程
,讲得比较通俗易懂。

微信读书上有的书:《每天5分钟玩转Docker容器技术》。


实际上,容器的编排与集群部署往往使用K8S

Hadoop

分布式系统基础框架,适合做批处理。

视频教程:尚硅谷的视频

Hive

Zookeeper

集群节点之间的协调者。

视频教程主要有:尚硅谷的视频

Kafka

一种消息队列,常常用于流处理的数据管道。

视频教程主要有:尚硅谷的视频

Flink

批流合一的数据处理框架。

杂谈