Data Engineer
I. Mục tiêu:
- Biết thiết lập hệ thống lưu trữ và xử lý dữ liệu
- Biết lập trình chuyển đổi dữ liệu với công cụ Spark bằng ngôn ngữ Python
II. Thời gian: 32h
III. Nội dung:
Ngày 1. Giới thiệu hệ thống Big Data
- Tổng quan kiến trúc big data
- Giới thiệu Data Lake, Lake House
- Hệ thống lưu trữ: Hadoop, HBase, MongoDB, Cassandra
Ngày 2: Spark và ngôn ngữ Python
- Xử lý dữ liệu với Spark - Pyspark
- Các hàm xử lý trên RDD
- Map-Reduce-Filter-GroupBy,...
Ngày 3: Thu thập và biến đổi dữ liệu (Data Ingestion)
- Batch file (dữ liệu tập tin)
- ELT (Extract-Load-Transform) chuyển đổi dữ liệu với Spark
- Xử lý dữ liệu cấu trúc với Spark SQL/ Dataframe
Ngày 4: Thu thập và biến đổi dữ liệu (Data Ingestion)
- Xử lý dữ liệu Streaming với Spark Streaming và Kafka
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội