课程以分布式系统开发为根基,构建覆盖数据采集、存储、计算、治理的全流程教学体系。通过工业级项目实践,学员将掌握Hadoop生态与Spark体系的核心技术栈,具备从数据建模到系统调优的完整能力。
技术框架 | 核心要点 | 应用场景 |
---|---|---|
Spring Boot+Mybatis | 自动配置原理、多数据源管理、事务控制策略 | 企业级后台系统开发 |
Druid实时分析 | 时间序列存储、位图索引优化、集群部署方案 | 实时监控系统构建 |
ClickHouse OLAP | 向量化执行引擎、MergeTree存储结构、物化视图应用 | 海量数据分析场景 |
掌握Java核心编程范式,熟练使用Spring生态进行企业级应用开发
构建离线/实时数据管道,实施数据质量监控与血缘追踪
设计高可用大数据平台架构,解决分布式系统瓶颈问题
▶ 存储体系:HDFS分布式文件系统、HBase列式数据库
▶ 计算引擎:MapReduce批处理、Spark内存计算
▶ 资源调度:YARN集群管理、Kubernetes容器编排
▶ 数据治理:Atlas元数据管理、Griffin质量检测