Phân tích và khai thác dữ liệu lớn Big Data

I. Giới thiệu khóa học:

Trong bối cảnh dữ liệu tăng trưởng nhanh về khối lượng, tốc độ và độ đa dạng, các kiến trúc xử lý dữ liệu truyền thống dựa trên RDBMS và Data Warehouse ngày càng bộc lộ nhiều hạn chế về khả năng mở rộng, hiệu năng và chi phí vận hành. Doanh nghiệp hiện đại buộc phải chuyển dịch sang các mô hình phân tán (distributed systems) và kiến trúc dữ liệu linh hoạt hơn.

Khóa học "Phân tích và Khai thác Dữ liệu lớn – Kiến trúc Hiện đại" được thiết kế nhằm trang bị cho học viên tư duy kiến trúc và năng lực kỹ thuật cốt lõi để xây dựng, vận hành và khai thác các hệ thống Big Data theo hướng hiện đại, với trọng tâm là mô hình Data Lakehouse.

Thay vì tiếp cận Big Data theo hướng công cụ rời rạc hoặc các công nghệ đã lỗi thời, khóa học tập trung vào:

Sự tiến hóa kiến trúc dữ liệu từ Data Warehouse → Data Lake → Data Lakehouse
Vai trò tách biệt giữa Compute và Storage trong các hệ thống Big Data hiện đại
Khai thác Apache Spark như nền tảng xử lý dữ liệu quy mô lớn (batch & streaming)
Xây dựng pipeline dữ liệu thời gian thực với Kafka và Spark Structured Streaming
Quản trị dữ liệu hiệu quả thông qua các định dạng tối ưu (Parquet, Avro) và cơ chế ACID trên Data Lake với Delta Lake

Khóa học được triển khai theo mô hình Bootcamp chuyên sâu, với 60% thời lượng dành cho thực hành, sử dụng môi trường Dockerized Hadoop/Spark Cluster để mô phỏng sát thực tế vận hành trong doanh nghiệp. Thông qua các bài lab liên hoàn và Capstone Project tổng hợp, học viên không chỉ hiểu kiến trúc mà còn có khả năng triển khai và vận hành một hệ thống Big Data hoàn chỉnh ở quy mô thực tế.

II. Thời lượng: 40 giờ (5 ngày)

III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Đối tượng tham gia:

Học viên có nền tảng CNTT, Phần mềm, Kho dữ liệu (Data Warehouse) mong muốn tham gia vào lĩnh vực Phân tích Big Data

V. Mục tiêu khóa học:

Sau khi hoàn thành, học viên có thể:

Hiểu và vận hành kiến trúc Data Lakehouse thay vì chỉ Data Warehouse truyền thống.
Thành thạo Apache Spark (Core & SQL) để xử lý dữ liệu quy mô lớn (Batch Processing).
Xây dựng luồng xử lý dữ liệu thời gian thực với Kafka và Spark Structured Streaming.
Nắm vững các định dạng dữ liệu tối ưu (Parquet, Avro) và quản lý dữ liệu ACID với Delta Lake.

VI. Nội dung khóa học:

CHỦ ĐỀ 1: BIG DATA FUNDAMENTALS & ARCHITECTURE (NỀN TẢNG & KIẾN TRÚC)

1. Tổng quan Modern Data Stack 2026

Sự tiến hóa: Từ Data Warehouse → Data Lake → Data Lakehouse.
Vai trò của Compute (Spark) và Storage (HDFS/S3/MinIO) tách biệt.
Containerization trong Big Data (Docker & Kubernetes).

2. Hệ sinh thái Hadoop (Core Components)

HDFS Architecture: NameNode, DataNode, Block Storage (nhắc lại nhanh).
YARN: Quản lý tài nguyên cluster.
So sánh HDFS (On-premise) và Object Storage (Cloud - S3).

3. Thực hành Lab 1: Setup Môi trường & HDFS

Triển khai cụm Big Data bằng Docker Compose (nhanh, chuẩn DevOps).
Thao tác dòng lệnh HDFS và Web UI giám sát.

CHỦ ĐỀ 2: DATA INGESTION & STORAGE FORMATS (THU THẬP & LƯU TRỮ)

1. Data Ingestion Strategies

Batch Ingestion: Sqoop (Legacy) vs Spark Connector (Modern).
Real-time Ingestion: Giới thiệu Apache Kafka.
Kiến trúc Pub/Sub của Kafka: Topic, Partition, Broker, Consumer Group.

2. Tối ưu hóa lưu trữ (Storage Formats)

Tại sao không dùng CSV/JSON cho Big Data?
Phân tích chuyên sâu: Parquet, Avro, ORC (Columnar vs Row-based).
Kỹ thuật Partitioning & Bucketing để tăng tốc truy vấn.

3. Data Warehousing với Apache Hive

Hive Architecture & Metastore.
Hive on Spark/Tez (thay vì MapReduce cũ).

4. Thực hành Lab 2: Ingestion Pipeline

Setup Kafka Cluster và gửi/nhận message cơ bản.
Dùng Spark đọc dữ liệu từ RDBMS/File, chuyển đổi sang Parquet và lưu xuống HDFS.
Tạo bảng Hive trên nền dữ liệu Parquet.

CHỦ ĐỀ 3: APACHE SPARK CORE & SQL (TRỌNG TÂM XỬ LÝ)

1. Kiến trúc Apache Spark

Driver, Executor, Slot.
Cơ chế DAG (Directed Acyclic Graph) và Lazy Evaluation.
Tại sao RDD là quá khứ? Chuyển dịch sang DataFrame & Dataset API.

2. Spark SQL & Transformations

Đọc/Ghi dữ liệu đa nguồn (JDBC, HDFS, S3, JSON, CSV).
Các thao tác transform: Select, Filter, GroupBy, Aggregation, Join.
Xử lý dữ liệu phức tạp (Array, Map, Struct) trong Spark.
Sử dụng SQL thuần trong code Spark.

3. Thực hành Lab 3: Spark Data Processing

Viết ứng dụng Spark (Python/Scala) để làm sạch và tổng hợp dữ liệu log server (10GB+).
Tối ưu hóa Join (Broadcast Join vs Shuffle Join).
Phân tích user behavior từ dữ liệu thương mại điện tử.

CHỦ ĐỀ 4: ADVANCED SPARK & DATA LAKEHOUSE (NÂNG CAO)

1. Stream Processing với Spark Structured Streaming

Khác biệt giữa DStream (Cũ) và Structured Streaming (Mới).
Cơ chế Windowing, Watermark (xử lý dữ liệu đến muộn).
Tích hợp Kafka với Spark Streaming.

2. Data Lakehouse với Delta Lake

Vấn đề của Data Lake truyền thống (Dirty reads, small files).
Giới thiệu Delta Lake: ACID Transactions, Schema Enforcement.
Tính năng Time Travel (Truy vấn dữ liệu quá khứ) và Upsert/Merge.

3. Thực hành Lab 4: Real-time Lakehouse Pipeline

Xây dựng luồng: Kafka (Source) → Spark Streaming (Processing) → Delta Table (Sink).
Thực hiện cập nhật (Update/Delete) dữ liệu trên Data Lake (điều không thể làm với HDFS thường).

CHỦ ĐỀ 5: CAPSTONE PROJECT & INTEGRATION (DỰ ÁN TỔNG HỢP)

1. Machine Learning cơ bản (Spark MLlib)

Giới thiệu Pipeline ML: Feature Engineering → Training → Evaluation.
Demo: Xây dựng mô hình Recommendation System hoặc Churn Prediction đơn giản.

2. Capstone Project: Xây dựng Hệ thống Phân tích Log Tập trung

Đề bài: Xây dựng hệ thống thu thập log webserver thời gian thực, phát hiện tấn công DDoS hoặc phân tích lỗi 404/500.
Yêu cầu: Sử dụng Kafka, Spark Streaming, lưu trữ xuống Delta Lake, và query báo cáo bằng Spark SQL.

3. Tổng kết & Định hướng