Data Engineering cơ bản

I. Giới thiệu khóa học:

Khóa học kéo dài 05 ngày, đào tạo thực hành chuyên sâu, tập trung vào việc thiết kế, xây dựng và quản trị nền tảng dữ liệu trên hạ tầng máy chủ vật lý (On-premise). Khóa học này trang bị cho bạn khả năng xây dựng các đường ống dữ liệu (Data Pipeline) từ các hệ thống lõi nội bộ, đảm bảo tuân thủ các quy định bảo mật khắt khe của doanh nghiệp nhà nước. Khóa học này là nền tảng cho hầu hết các công nghệ xử lý dữ liệu lớn nội bộ.

II. Thời lượng: 40 giờ (5 ngày)
III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Mục tiêu khóa học:

Đến cuối khóa học, bạn sẽ có thể đáp ứng các mục tiêu sau:

  • Nắm vững kiến trúc dữ liệu tổng thể và các tiêu chuẩn an toàn thông tin nội bộ.
  • Sử dụng thành thạo Python để tự động hóa gom và biến đổi dữ liệu.
  • Tối ưu hóa các truy vấn SQL phức tạp trên hệ quản trị cơ sở dữ liệu quan hệ (Oracle/PostgreSQL).
  • Lưu trữ và truy xuất dữ liệu chuỗi thời gian (Time-series) từ hệ thống đo đếm điện năng.
  • Xây dựng và vận hành hệ thống Data Warehouse On-premise.
  • Triển khai lưu trữ phân tán với hệ sinh thái Hadoop (HDFS).
  • Xây dựng các luồng xử lý dữ liệu Batch (ETL/ELT) với Apache Spark và Airflow.
V. Đối tượng tham gia
  • Người quản trị hệ thống
  • Kỹ sư hệ thống.
  • Quản trị viên cơ sở dữ liệu (DBA) tại các công ty điện lực thành viên.
  • Kỹ sư phần mềm muốn chuyển hướng sang mảng Dữ liệu.
VI. Điều kiện tiên quyết:

Khóa học này có các điều kiện cần thiết sau đây:

  • Học viên phải có kinh nghiệm quản trị hệ thống trên hệ điều hành Microsoft Windows hoặc Linux
  • Có kiến thức nền tảng về cơ sở dữ liệu (SQL) và tư duy lập trình cơ bản.
VII. Nội dung khóa học:

1. Tổng quan Data Architecture cho Enterprise

  • Kiến trúc dữ liệu On-premise và bảo mật dữ liệu nhà nước
  • Phân biệt OLTP và OLAP trong hệ thống điện lực

2. Python trong Xử lý Dữ liệu Nội bộ

  • Thao tác dữ liệu với Pandas và Numpy
  • Xử lý định dạng file nội bộ (CSV, XML, log files)

3. RDBMS & Advanced SQL

  • Tối ưu hóa truy vấn phức tạp (Window Functions, CTEs)
  • Trích xuất dữ liệu từ Core Billing/CRM

4. NoSQL & Time-Series Database

  • Đặc tả dữ liệu ngành điện và hệ thống Smart Meters
  • Thực hành lưu trữ với InfluxDB/Cassandra

5. Thiết kế Data Warehouse On-Premise

  • Mô hình Dimensional Modeling (Star/Snowflake Schema)
  • Triển khai Data Warehouse với ClickHouse hoặc Greenplum

6. Hệ sinh thái Hadoop (Hadoop Ecosystem)

  • Kiến trúc HDFS và YARN
  • Lưu trữ phân tán dữ liệu khổng lồ an toàn

7. Xử lý dữ liệu với Apache Spark

  • Spark Architecture (RDD & DataFrame)
  • Viết job PySpark biến đổi dữ liệu công tơ điện

8. Xây dựng Batch Pipeline (ETL/ELT)

  • Thiết kế luồng dữ liệu từ nguồn vào Data Warehouse
  • Tối ưu hóa I/O trên hạ tầng máy chủ vật lý

9. Orchestration với Apache Airflow

  • Cài đặt và cấu hình Airflow On-premise
  • Lập lịch và giám sát luồng dữ liệu tự động

10. Capstone Project 1

  • Xây dựng Batch Pipeline tổng hợp dữ liệu tiêu thụ điện năng từ trạm biến áp phục vụ báo cáo.
  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác