Data Engineer

 I. Mục tiêu:
  • Biết thiết lập hệ thống lưu trữ và xử lý dữ liệu
  • Biết lập trình chuyển đổi dữ liệu với công cụ Spark bằng ngôn ngữ Python
 II. Thời gian: 32h
III. Nội dung:

Ngày 1. Giới thiệu hệ thống Big Data

  • Tổng quan kiến trúc big data
  • Giới thiệu Data Lake, Lake House
  • Hệ thống lưu trữ: Hadoop, HBase, MongoDB, Cassandra

Ngày 2: Spark và ngôn ngữ Python

  • Xử lý dữ liệu với Spark - Pyspark
  • Các hàm xử lý trên RDD
    • Map-Reduce-Filter-GroupBy,...

Ngày 3: Thu thập và biến đổi dữ liệu (Data Ingestion)

  • Batch file (dữ liệu tập tin)
  • ELT (Extract-Load-Transform) chuyển đổi dữ liệu với Spark
  • Xử lý dữ liệu cấu trúc với Spark SQL/ Dataframe

Ngày 4: Thu thập và biến đổi dữ liệu (Data Ingestion)

  • Xử lý dữ liệu Streaming với Spark Streaming và Kafka
  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác