Data Science and Big Data Analytics

I. Giới thiệu khóa học:

Khóa học Data Science and Big Data Analytics được thiết kế nhằm trang bị cho học viên kiến thức và kỹ năng thực tiễn để phân tích, xử lý và khai thác dữ liệu trong môi trường dữ liệu lớn hiện đại. Thông qua lộ trình học kết hợp giữa Python, thống kê, trực quan hóa dữ liệu, Apache Spark/PySpark, Machine Learning, GenAI, Embeddings, RAG và Agentic AI, học viên sẽ từng bước nắm vững quy trình triển khai một dự án khoa học dữ liệu từ dữ liệu thô đến mô hình phân tích, diễn giải insight và xây dựng dashboard trực quan. Khóa học đặc biệt phù hợp với những cá nhân và tổ chức muốn ứng dụng Data Science và Big Data Analytics vào hoạt động phân tích, ra quyết định và tối ưu hiệu quả vận hành trong thực tế.

II. Thời lượng: 40 giờ (5 ngày)

III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu.

IV. Mục tiêu khóa học:

Sau khi hoàn thành khóa học, học viên có thể:

Vận dụng vòng đời dự án khoa học dữ liệu để giải quyết các bài toán phân tích dữ liệu lớn.
Sử dụng Python (pandas, Polars) cho thống kê, trực quan hóa và phân tích khám phá dữ liệu (EDA).
Xử lý và phân tích dữ liệu quy mô lớn bằng Apache Spark / PySpark trên kiến trúc Lakehouse.
Xây dựng và đánh giá mô hình học máy cổ điển ở cả quy mô nhỏ (scikit-learn) và phân tán (Spark MLlib).
Ứng dụng GenAI/LLM, embeddings và RAG vào bài toán phân tích và diễn giải dữ liệu.
Thiết kế và triển khai một pipeline agentic tự động từ dữ liệu thô đến dashboard, dùng LangGraph (Python) điều phối và dashboard JavaScript.

V. Đối tượng tham gia:

Quản lý nhóm BI / analytics / big data.
Chuyên viên phân tích nghiệp vụ và phân tích dữ liệu muốn bổ sung kỹ năng big data.
Chuyên viên dữ liệu / cơ sở dữ liệu muốn khai thác kỹ năng phân tích trong môi trường dữ liệu lớn.
Sinh viên mới tốt nghiệp ngành liên quan muốn bước vào lĩnh vực Data Science.

VI. Điều kiện tiên quyết:

Nền tảng định lượng và thống kê cơ bản.
Kinh nghiệm với một ngôn ngữ lập trình (ưu tiên Python).
Biết SQL cơ bản

VII. Nội dung khóa học:

1. Khai giảng, mục tiêu & dựng môi trường

Giới thiệu khóa học: mục tiêu, lộ trình, phương pháp và cách đánh giá.
Dựng môi trường: Python, Jupyter / Colab, Git; kiểm tra cài đặt Spark.
Làm quen bộ dữ liệu xuyên suốt khóa học.

2. Python: thống kê, trực quan hóa & EDA

Thay thế hoàn toàn mảng R trong giáo trình cũ, gom ba khối liền mạch:

Python cho dữ liệu: pandas, numpy; Polars cho dữ liệu lớn trên một máy.
Thống kê cho mô hình hóa: thống kê mô tả, phân phối, tương quan, kiểm định giả thuyết cơ bản, lấy mẫu.
Trực quan hóa: matplotlib, seaborn, Plotly; nguyên tắc chọn loại biểu đồ phù hợp.
EDA có hệ thống: phát hiện dữ liệu thiếu, ngoại lai, lệch phân phối; khảo sát quan hệ giữa các biến.
Data storytelling: nguyên tắc kể chuyện dữ liệu cho người nghe phi kỹ thuật.
Lab: quy trình EDA hoàn chỉnh trên bộ dữ liệu thực, kèm một “data story” ngắn.

Lưu ý phân vai: trực quan ở đây là trực quan phân tích phía Python phục vụ EDA; dashboard sản phẩm (JavaScript) thuộc Mô-đun 7.

3. Giới thiệu Big Data, kiến trúc Lakehouse & Spark/PySpark chuyên sâu

Giới thiệu Big Data
- Định nghĩa Big Data và đặc trưng 5V: Volume, Velocity, Variety, Veracity, Value.
- Dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc.
- Vì sao cần tính toán phân tán; giới hạn của xử lý đơn máy.
- Tổng quan ứng dụng Big Data theo ngành (tài chính, bán lẻ, y tế, dầu khí, viễn thông…).
- Vị trí của Big Data trong vòng đời phân tích dữ liệu.
Kiến trúc & nền tảng
- Từ Hadoop / MapReduce đến Spark: in-memory, DAG, lazy evaluation.
- Kiến trúc Spark: driver / executor, cluster manager, partition & shuffle.
- Lakehouse: Delta Lake / Iceberg, ACID trên data lake, time travel.
- Định vị Spark trong ngăn xếp đám mây (Databricks / EMR / Dataproc) — trình bày trung lập.
PySpark thực hành
- Spark DataFrame API: đọc/ghi CSV, JSON, Parquet, Delta; schema inference và khai báo schema.
- Transformations vs actions; select, filter, withColumn, groupBy, agg, join, window functions.
- Spark SQL và temp view.
- UDF và pandas UDF (vectorized): khi nào nên và không nên dùng.
- Tối ưu: partitioning, broadcast join, caching / persist, đọc explain plan, xử lý data skew.
- Giới thiệu Structured Streaming: đọc luồng từ file / Kafka, micro-batch.
- Lab xuyên suốt: phân tích bộ dữ liệu vài chục triệu dòng bằng PySpark (ingest → clean → aggregate → ghi Delta); tái sử dụng ở các Mô-đun 4, 5 và 7.

4. Chuẩn bị dữ liệu & feature engineering trên Spark

Làm sạch dữ liệu: xử lý thiếu, ngoại lai, chuẩn hóa kiểu, khử trùng lặp.
Feature engineering: encoding, scaling qua Spark ML Pipeline, VectorAssembler.
Data leakage và cách phòng tránh.
Giới thiệu feature store (Feast).
Lab: xây dựng pipeline tiền xử lý tái lập được trên Spark.

5. Machine Learning cổ điển (gồm Spark MLlib)

Hồi quy tuyến tính và hồi quy logistic.
Cây quyết định → Random Forest, Gradient Boosting (XGBoost / LightGBM).
Phân cụm (K-means, DBSCAN); giảm chiều (PCA / UMAP).
Phân tích chuỗi thời gian (Prophet / statsforecast).
Đánh giá mô hình & cross-validation; xử lý dữ liệu mất cân bằng.
ML theo quy mô: scikit-learn (dữ liệu vừa) so với Spark MLlib (dữ liệu lớn, mô hình phân tán).
Lab: bài toán phân loại và hồi quy với metrics thực tế trên cả hai công cụ.

6. GenAI, LLM, Embeddings & RAG

Nguyên lý mô hình ngôn ngữ lớn (LLM); prompt engineering.
Embeddings và vector database (Chroma / FAISS).
Kiến trúc RAG (Retrieval-Augmented Generation) đầy đủ.
Tổng quan fine-tuning (LoRA / PEFT).
Lab: xây dựng hệ thống RAG hỏi-đáp trên tài liệu.

7. Agentic AI + Capstone: bối cảnh, vòng đời, flow raw → dashboard & dự án end-to-end

Mô-đun chủ lực kết khóa, đi từ khung tư duy đến kỹ thuật và sản phẩm hoàn chỉnh.

Bối cảnh & vòng đời
- Bức tranh Data Science & Big Data hiện đại.
- Vòng đời dự án: discovery → data preparation → model → communicate → operationalize.
- Đóng khung bài toán: tự động hóa chính vòng đời này bằng agent.
Nền tảng agent & ReAct
- Khái niệm agent, tool use, vòng lặp ReAct; vì sao agentic phù hợp cho data workflow.
Backend LangGraph — Python
- Đồ thị node: Ingestion / Profiling → Cleaning / Transform (PySpark) → Analysis / ML.
- State truyền tên bảng / đường dẫn (không truyền Spark DataFrame).
- Human-in-the-loop duyệt code trước khi chạy; vòng retry khi node lỗi.
Hợp đồng dữ liệu & lớp phục vụ
- Thiết kế schema manifest JSON do agent Analysis xuất ra.
- Lớp phục vụ: REST API (FastAPI) hoặc artifact JSON / DuckDB.
- Nguyên tắc tổng hợp dữ liệu trước khi phục vụ (không đẩy dữ liệu thô xuống trình duyệt).
Dashboard JavaScript với Antigravity
- Renderer đọc manifest và dựng giao diện; vẽ chart bằng Plotly.js / ECharts.
- Fetch dữ liệu qua HTTP; lưu ý CORS và xử lý pipeline chạy bất đồng bộ.
Thảo luận vấn đề mở
- Độ tin cậy của code do LLM sinh; sandbox thực thi an toàn; guardrails; đánh giá output của agent.
Capstone — dự án end-to-end
Mỗi nhóm dựng một pipeline agentic raw → dashboard hoàn chỉnh trên bộ dữ liệu lớn của riêng mình:
- LangGraph điều phối PySpark (ingest / clean / feature từ Mô-đun 3–4).
- Một bước Machine Learning từ Mô-đun 5 (nếu phù hợp).
- Một bước RAG từ Mô-đun 6 để agent diễn giải insight bằng ngôn ngữ tự nhiên.
- Dashboard JavaScript dựng trong Antigravity.
- Trình bày kết quả như một data team; tái sử dụng bộ dữ liệu xuyên suốt Mô-đun 3–5.

Học trực tuyến
Ngày khai giảng : 01-08-2026
Giờ học : 08h30 - 17h30
Ngày học : Thứ 7
Thời lượng : 40h
Học phí : Liên hệ
Ngày khai giảng : 01-08-2026
Giờ học : 08h30 - 17h30
Ngày học : Thứ 7
Thời lượng : 40h
Học phí : Liên hệ