Data Engineer

 I. Mục tiêu:
 • Biết thiết lập hệ thống lưu trữ và xử lý dữ liệu
 • Biết lập trình chuyển đổi dữ liệu với công cụ Spark bằng ngôn ngữ Python
 II. Thời gian: 32h
III. Nội dung:

Ngày 1. Giới thiệu hệ thống Big Data

 • Tổng quan kiến trúc big data
 • Giới thiệu Data Lake, Lake House
 • Hệ thống lưu trữ: Hadoop, HBase, MongoDB, Cassandra

Ngày 2: Spark và ngôn ngữ Python

 • Xử lý dữ liệu với Spark - Pyspark
 • Các hàm xử lý trên RDD
  • Map-Reduce-Filter-GroupBy,...

Ngày 3: Thu thập và biến đổi dữ liệu (Data Ingestion)

 • Batch file (dữ liệu tập tin)
 • ELT (Extract-Load-Transform) chuyển đổi dữ liệu với Spark
 • Xử lý dữ liệu cấu trúc với Spark SQL/ Dataframe

Ngày 4: Thu thập và biến đổi dữ liệu (Data Ingestion)

 • Xử lý dữ liệu Streaming với Spark Streaming và Kafka
 • Học trực tuyến

 • Ngày khai giảng : 27-05-2024
 • Giờ học : 18h15 - 21h15
 • Ngày học : Thứ 2-4-6
 • Thời lượng : 32h
 • Học phí : Liên hệ

 • Học tại Hồ Chí Minh

 • Học tại Hà Nội


Các khóa học khác