大数据工程师成长之路
本课程面向具备Java编程基础的技术人员,重点培养大数据平台架构设计与开发能力。课程内容覆盖分布式存储、实时计算、数据仓库等核心领域,采用理论讲解与项目实操相结合的教学模式。
技术储备要求
- 掌握Java面向对象编程
- 熟悉SQL基础语法
- 了解Linux基本操作命令
课程模块解析
基础架构篇
| 技术组件 | 核心要点 |
|---|---|
| Hadoop 3.x | YARN资源调度、HDFS高可用配置、MapReduce优化 |
| ZooKeeper | 集群选举机制、分布式锁实现、配置中心实践 |
实时计算专题
Spark 3.0
- RDD持久化策略
- Structured Streaming实战
- 性能调优技巧
Flink 1.14
- 时间窗口机制
- 状态后端配置
- CEP复杂事件处理
项目实战体系
电商用户行为分析
基于Flink构建实时大屏系统,处理日均千万级用户日志,实现:
- 实时UV统计
- 热门商品排行
- 异常行为预警
金融风控系统
运用Spark MLlib构建信用评估模型:
- 特征工程处理
- 模型训练与评估
- 规则引擎集成
技术生态全景
存储层技术栈
- HBase二级索引优化
- Kafka消息持久化
- Redis缓存穿透解决方案
计算层技术栈
- Presto即席查询
- ClickHouse OLAP优化
- Airflow工作流调度
