Khoa học dữ liệu lớn với Python

 I. Giới thiệu khóa học:

Phân tích dữ liệu được định nghĩa là một quá trình làm sạch, biến đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích cho việc ra quyết định kinh doanh. Trong đó, khám phá dữ liệu là một phần quan trọng trong quy trình phân tích dữ liệu, giúp phân tích dữ liệu trước khi đưa ra kết luận.

Phân tích khám phá dữ liệu là một bước trong một quy trình phân tích dữ liệu có vai trò quan trọng trong việc xem xét dữ liệu. Ở giai đoạn này, tập dữ liệu sẽ đi qua một số kỹ thuật để hiểu rõ và diễn giải đặc điểm của tập dữ liệu trước khi tiến hành phân tích.

II. Thời lượng: 80 giờ (10 ngày)
III. Hình thức đào tạo:

Đào tạo trực tiếp tại lớp học, đào tạo online tương tác với giảng viên, đào tạo kết hợp online và trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu

IV. Mục tiêu khóa học:
  • Cung cấp cho học viên kiến thức về phân tích dữ liệu và khoa học dữ liệu, bao gồm: ngôn ngữ lập trình Python, toán xác suất thống kê, các phương pháp khai phá dữ liệu và xử lý dữ liệu theo yêu cầu.
  • Hiểu được các nguyên lý hoạt động của các thuật toán học máy và sử dụng chúng cho bài toán khoa học dữ liệu
  • Thực hành một số bài toán khoa học dữ liệu phổ biến.
V. Điều kiện tiên quyết:
  • Biết lập trình Python
  • Có tư duy logic, thuật toán
  • Hiểu biết các nghiệp vụ trong doanh nghiệp.
VI. Nội dung khóa học:

Ngày 1: Tổng quan ngôn ngữ Python

  • Môi trường làm việc Python
  • Các thư viện phổ biến: numpy, pandas, matplotlib/seaborn, statsmodel, scipy
  • Xác suất thống kê
    • Thống kê mô tả, 
    • Chiến lược lấy mẫu dữ liệu 
    • Kiểm định giả thiết thống kê

Ngày 2: EDA

  • EDA
    • Các vấn đề cần EDA: missing, outlier, imbalanced, distribution,...
    • Phương pháp thống kê
    • Phương pháp trực quan hoá
  • Xử lý dữ liệu: missing, outlier, imbalanced.

Ngày 3: Học máy - có giám sát

  • Các thuật toán hồi quy: Linear Regression, KNN, Decision Tree
  • Phương pháp đánh giá mô hình hồi quy
  • Các thuật toán phân loại: Logistic Regression, SVM, Naive Bayes
  • Phương pháp đánh giá mô hình phân loại
  • Thực hành với thư viện Scikit-Learn

Ngày 4: Học máy - không giám sát

  • Thuật toán phân cụm: K-means, mean-shift
  • Phương pháp đánh giá cụm
  • Giảm chiều dữ liệu: PCA
  • Đánh giá mô hình: cross-validation
  • Tối ưu mô hình: hyperparameter tuning
  • Thực hành với thư viện Scikit-Learn

Ngày 5: Học máy nâng cao

  • Ensemble Learning: Bagging (Random Forest), Boosting (Adaboost, XGBoost)
  • Mạng neural
  • Thực hành với thư viện Tensorflow

Ngày 6: Phân tích, dự đoán với dữ liệu thời gian (Time Series)

  • Phương pháp SARIMAX
  • Thực hành với thư viên statsmodel, 
  • Phương pháp học sâu LSTM

Ngày 7: Bài toán phân tích khách hàng

  • Phân loại khách hàng
  • Dự đoán thời gian khách hàng quay lại

Ngày 8: 

  • Phân tích sống còn
    • Thư viện scikit-survival
  • Bài toán phát hiện giao dịch gian lận
    • Phương pháp rule-based.
    • Phương pháp học có giám sát.

Ngày 9: Hệ khuyến nghị

  • Bài toán phát hiện giao dịch gian lận (tiếp)
    • Phương pháp học không giám sát.
  • Hệ khuyến nghị
    • Phương pháp dựa trên nội dung (content based) thuật toán KNN và độ đo cosine

Ngày 10: Hệ khuyến nghị (tiếp)

  • Phương pháp Neighborhood based collaborative filtering (User –based vs Item based) – phương pháp phân rã ma trận
  • Tổng kết, thuyết trình bài tập nhóm.
  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác