Data Engineer
I. Mục tiêu:
- Biết thiết lập hệ thống lưu trữ và xử lý dữ liệu
- Biết lập trình chuyển đổi dữ liệu với công cụ Spark bằng ngôn ngữ Python
II. Thời gian: 32h
III. Nội dung:
Ngày 1. Giới thiệu hệ thống Big Data
- Tổng quan kiến trúc big data
- Giới thiệu Data Lake, Lake House
- Hệ thống lưu trữ: Hadoop, HBase, MongoDB, Cassandra
Ngày 2: Spark và ngôn ngữ Python
- Xử lý dữ liệu với Spark - Pyspark
- Các hàm xử lý trên RDD
- Map-Reduce-Filter-GroupBy,...
Ngày 3: Thu thập và biến đổi dữ liệu (Data Ingestion)
- Batch file (dữ liệu tập tin)
- ELT (Extract-Load-Transform) chuyển đổi dữ liệu với Spark
- Xử lý dữ liệu cấu trúc với Spark SQL/ Dataframe
Ngày 4: Thu thập và biến đổi dữ liệu (Data Ingestion)
- Xử lý dữ liệu Streaming với Spark Streaming và Kafka
Học trực tuyến
- Ngày khai giảng : 27-05-2024
- Giờ học : 18h15 - 21h15
- Ngày học : Thứ 2-4-6
- Thời lượng : 32h
- Học phí : Liên hệ
Học tại Hồ Chí Minh
Học tại Hà Nội