Khoa học dữ liệu lớn với Python

I. Giới thiệu khóa học:

Phân tích dữ liệu được định nghĩa là một quá trình làm sạch, biến đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích cho việc ra quyết định kinh doanh. Trong đó, khám phá dữ liệu là một phần quan trọng trong quy trình phân tích dữ liệu, giúp phân tích dữ liệu trước khi đưa ra kết luận.

Phân tích khám phá dữ liệu là một bước trong một quy trình phân tích dữ liệu có vai trò quan trọng trong việc xem xét dữ liệu. Ở giai đoạn này, tập dữ liệu sẽ đi qua một số kỹ thuật để hiểu rõ và diễn giải đặc điểm của tập dữ liệu trước khi tiến hành phân tích.

II. Thời lượng: 80 giờ (10 ngày)

III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Mục tiêu khóa học:

Cung cấp cho học viên kiến thức về phân tích dữ liệu và khoa học dữ liệu, bao gồm: ngôn ngữ lập trình Python, toán xác suất thống kê, các phương pháp khai phá dữ liệu và xử lý dữ liệu theo yêu cầu.
Hiểu được các nguyên lý hoạt động của các thuật toán học máy và sử dụng chúng cho bài toán khoa học dữ liệu
Thực hành một số bài toán khoa học dữ liệu phổ biến.

V. Điều kiện tiên quyết:

Biết lập trình Python
Có tư duy logic, thuật toán
Hiểu biết các nghiệp vụ trong doanh nghiệp.

VI. Nội dung khóa học:

Ngày 1: Tổng quan ngôn ngữ Python

Môi trường làm việc Python
Các thư viện phổ biến: numpy, pandas, matplotlib/seaborn, statsmodel, scipy
Xác suất thống kê
- Thống kê mô tả,
- Chiến lược lấy mẫu dữ liệu
- Kiểm định giả thiết thống kê

Ngày 2: EDA

EDA
- Các vấn đề cần EDA: missing, outlier, imbalanced, distribution,...
- Phương pháp thống kê
- Phương pháp trực quan hoá
Xử lý dữ liệu: missing, outlier, imbalanced.

Ngày 3: Học máy - có giám sát

Các thuật toán hồi quy: Linear Regression, KNN, Decision Tree
Phương pháp đánh giá mô hình hồi quy
Các thuật toán phân loại: Logistic Regression, SVM, Naive Bayes
Phương pháp đánh giá mô hình phân loại
Thực hành với thư viện Scikit-Learn

Ngày 4: Học máy - không giám sát

Thuật toán phân cụm: K-means, mean-shift
Phương pháp đánh giá cụm
Giảm chiều dữ liệu: PCA
Đánh giá mô hình: cross-validation
Tối ưu mô hình: hyperparameter tuning
Thực hành với thư viện Scikit-Learn

Ngày 5: Học máy nâng cao

Ensemble Learning: Bagging (Random Forest), Boosting (Adaboost, XGBoost)
Mạng neural
Thực hành với thư viện Tensorflow

Ngày 6: Phân tích, dự đoán với dữ liệu thời gian (Time Series)

Phương pháp SARIMAX
Thực hành với thư viên statsmodel,
Phương pháp học sâu LSTM

Ngày 7: Bài toán phân tích khách hàng

Phân loại khách hàng
Dự đoán thời gian khách hàng quay lại

Ngày 8:

Phân tích sống còn
- Thư viện scikit-survival
Bài toán phát hiện giao dịch gian lận
- Phương pháp rule-based.
- Phương pháp học có giám sát.

Ngày 9: Hệ khuyến nghị

Bài toán phát hiện giao dịch gian lận (tiếp)
- Phương pháp học không giám sát.
Hệ khuyến nghị
- Phương pháp dựa trên nội dung (content based) thuật toán KNN và độ đo cosine

Ngày 10: Hệ khuyến nghị (tiếp)