Data Engineering nâng cao

I. Giới thiệu khóa học:

Khóa học kéo dài 05 ngày, đào tạo thực hành chuyên sâu, tập trung vào kỹ thuật xử lý dữ liệu thời gian thực (Real-time Streaming), tối ưu hóa hiệu năng hệ thống lớn và chuẩn bị hạ tầng cho các mô hình AI/Machine Learning. Khóa học giải quyết các bài toán phức tạp như dự đoán phụ tải và cảnh báo sự cố lưới điện ngay trên hạ tầng On-premise kết hợp Hybrid Cloud.

II. Thời lượng: 40 giờ (5 ngày)
III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Mục tiêu khóa học:

Đến cuối khóa học, bạn sẽ có thể đáp ứng các mục tiêu sau:

  • Tối ưu hóa chuyên sâu hiệu năng xử lý dữ liệu của Apache Spark.
  • Xây dựng và quản trị cụm Kafka On-premise để thu thập dữ liệu liên tục.
  • Xử lý dữ liệu cảnh báo sự cố SCADA/IoT theo thời gian thực với Spark Structured Streaming.
  • Triển khai kiến trúc Data Lakehouse nội bộ (Delta Lake).
  • Ứng dụng DevSecOps, mã hóa và phân quyền vào Data Pipeline.
  • Xây dựng luồng CI/CD tự động cho môi trường Data.
  • Thiết lập kết nối Hybrid Cloud an toàn để khai thác dữ liệu ẩn danh.
  • Xây dựng Feature Store và chuẩn bị dữ liệu sạch cho các mô hình học máy.
V. Đối tượng tham gia
  • Người quản trị hệ thống
  • Kỹ sư hệ thống.
  • Data Engineer, Data Architect đang phụ trách hệ thống dữ liệu lớn nội bộ.
VI. Điều kiện tiên quyết:

Khóa học này có các điều kiện cần thiết sau đây:

  • Học viên phải có kinh nghiệm quản trị hệ thống trên hệ điều hành Microsoft Windows hoặc Linux
  • Đã hoàn thành khóa "Data Engineering Foundation" hoặc có kinh nghiệm tương đương làm việc với Spark, Hadoop và Airflow.
VII. Nội dung khóa học:

1. Tối ưu hóa Apache Spark Nâng cao

  • Xử lý Data Skewness và tối ưu bộ nhớ server
  • Spark UI tuning cho tập dữ liệu cực lớn

2. Real-time Data Streaming với Apache Kafka

  • Kiến trúc Kafka Cluster On-premise (Topics, Partitions, HA)
  • Quản lý Producers và Consumers

3. Stream Processing cho SCADA/IoT

  • Xử lý luồng dữ liệu cảnh báo sự cố với Spark Structured Streaming
  • Kỹ thuật Windowing và Watermarking

4. Modern Data Lakehouse On-Premise

  • Triển khai Delta Lake/Apache Iceberg trên Object Storage nội bộ
  • Quản trị giao dịch ACID trên Big Data

5. Data Governance, Security & DevSecOps

  • Mã hóa dữ liệu (at rest/in transit) và phân quyền (Ranger)
  • Tích hợp kiểm tra bảo mật vào Data Pipeline

6. DataOps & CI/CD On-Premise

  • Tự động hóa triển khai code Data với GitLab CI/CD
  • Quản lý môi trường Dev/UAT/Prod

7. Hybrid Cloud Integration

  • Kiến trúc kết nối On-premise với nền tảng Cloud
  • Kỹ thuật ẩn danh dữ liệu (Data Anonymization) trước khi đồng bộ

8. Advanced Airflow & Data Quality

  • Xử lý lỗi, Alerting cho DAGs phức tạp
  • Tích hợp framework kiểm soát chất lượng dữ liệu

9. Data Engineering cho AI/Machine Learning

  • Xây dựng Feature Store cục bộ
  • Chuẩn bị dữ liệu cho bài toán Dự báo phụ tải và Bảo trì dự đoán

10. Capstone Project 2 (Enterprise Scale)

  • Xây dựng kiến trúc Lambda/Kappa phát hiện sự cố công tơ điện theo thời gian thực và phân tích đối soát.
  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác