数据流实战
数据流实战
记录Docker、Kafka、Hadoop、Zookeeper、Flink等数据开发技术的学习与实战过程。可以按照下文给出的学习资料学习,不一定要看我的,我的文字主要是实战记录,脉络框架也是参考其他人的。
本系列希望达到的目标:设计一个原型系统,用户在系统上对某个内容表示喜欢或者厌恶,系统收集用户行为数据到Kafka,流处理使用Flink,后续使用推荐算法实时推荐,返回用户喜欢的内容。(利用Docker搭建所需集群)
前置知识
- Java服务端开发知识
- Linux知识
Docker
Docker可谓是不得不学的一门技术,有了它,可以更加快速地配置我们的各种环境,抹平了各平台的环境差异性。
推荐的学习资源:
哔哩哔哩的UP:遇见狂神说,有视频教程
,讲得比较通俗易懂。微信读书上有的书:《每天5分钟玩转Docker容器技术》。
实际上,容器的编排与集群部署往往使用K8S
Hadoop
分布式系统基础框架,适合做批处理。
视频教程:尚硅谷的视频
Hive
Zookeeper
集群节点之间的协调者。
视频教程主要有:尚硅谷的视频
Kafka
一种消息队列,常常用于流处理的数据管道。
视频教程主要有:尚硅谷的视频
Flink
批流合一的数据处理框架。
杂谈
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Equator's Blog!