Tiền xử lý và phân tích dữ liệu

I. Tổng quan:

-       Khóa học cung cấp cho học viên (HV) các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu.

-       Trang bị cho HV những kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu

-       Hướng dẫn HV cách chuẩn bị dữ liệu để phân tích, thực hiện phân tích thống kê, tạo trực quan hóa dữ liệu có ý nghĩa

-       Cung cấp cho HV các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas, Matplotlib, Seaborn…

-       Cung cấp cho HV quy trình quản lý phân tích dữ liệu hiệu quả

-       Hướng dẫn HV sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các mô hình thông minh và đưa ra các dự đoán tuyệt vời

-       Trang bị cho HV kỹ năng tạo báo cáo thuyết trình rõ ràng, mạch lạc

II.    Thời lượng:  40 giờ.
III. Đối tượng học:

-       Sinh viên các trường Đại học, Cao đẳng

-       HV có định hướng sẽ làm việc trong lĩnh vực Data Science

IV.   Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

-       Hiểu được vòng lặp trong phân tích dữ liệu

-       Phân biệt giữa các loại dữ liệu khác nhau

-       Xác định các loại câu hỏi khác nhau, đặt câu hỏi và tìm những bộ dữ liệu cụ thể

-       Khám phá bộ dữ liệu để xác định xem dữ liệu có phù hợp với dự án không

-       Hiểu và vận dụng quy trình tiền xử lý dữ liệu

-       Áp dụng linh hoạt các kỹ thuật chuẩn hóa dữ liệu khác nhau tùy vào các bộ dữ liệu và yêu cầu của dự án

-       Phân tích dữ liệu, triển khai và đánh giá mô hình phân tích dữ liệu

-       Giải thích kết quả từ các phân tích dữ liệu

-       Tích hợp kết quả thống kê để tạo các báo cáo, thuyết trình phân tích dữ liệu mạch lạc, thuyết phục

V.    Nội dung khóa học

1.      Phần 1: Data Pre-processing 

  • Tổng quan
    • Giới thiệu Pre-processing
    • Tầm quan trọng của Pre-processing
  • Data Understanding (Hiểu dữ liệu)
    • Import dataset
    • Export dataset
    • Phân tích sơ bộ
  • Quy trình Pre-processing
    • Import libraries
    • Đọc dữ liệu
    • Kiểm tra dữ liệu thiếu (missing values)
    • Kiểm tra dữ liệu phân loại (categorical data)
    • Chuẩn hóa dữ liệu (Data standardizing)
    • PCA transformation
    • Data splitting
  • Chuẩn hóa dữ liệu
    • Missing Values: xử lý Missing Values dùng drop, thay thế bằng giá trị mean, median hoặc mode
    • Data Formatting
    • Log normalization
    • Feauture Scaling
      • Data Normalization (Min max scaler)
      • Standard scaler
      • Feature Engineering (Encoding categorical data)
      • Label Encoder
      • Binary Encoder
      • One hot Encoder
      • Numeric feature: average, datetime
      • String feature: extraction, tf/idf vectors
      • Dummy Variables 
    • Binning
      • Turning categorical variables into quantitative variables (chuyển các biến phân loại thành các biến định lượng)
      • Pivot
    • Lựa chọn feature
      • Xác định/ lựa chọn các feature cần thiết
      • Kiểm tra Correlated Features
      • Tìm hiểu text vector

1.      Phần 2: Data Analysis

  • Quy trình quản lý phân tích dữ liệu
    • Khám phá Data Analysis
    • Descriptive Statistics (thống kê mô tả)
    • Tìm hiểu Categorical Data
    • Tìm hiểu Numerical Data
    • Group by
    • Correlation
    • Correlation Statistics
    • Mô tả phân phối dữ liệu
    • Analysis of Variance ANOVA
  • Model deployment (triển khai model)
    • Linear Regression (Symple Linear Regression, Multiple Linear Regression
    • Model Evaluation
    • Polynomial Regression
    • Pipelines
    • Measures for In-Sample Evaluation
    • Prediction & Decision Making
  • Model evaluation (Đánh giá model)
    • Model Evaluation & Refinement (Đánh giá và sàng lọc model)
    • Overfitting, Under fitting & Model Selection
    • Ridge Regression
    • Grid Search
    • Random Search
  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác