Toán và Thống kê cho Khoa Học Dữ Liệu
I. Tổng quan
- Khóa học cung cấp cho học viên (HV) các kiến thức cần thiết về toán dành cho Data Science như Đại số tuyến tính (Linear Algebra), Giải tính (Calculus), Phương trình vector ma trận (Matrix-Vector Equations), Eigenvalues và Eigenvectors, Phân tích thành phần chính (Principal Component Analysis - PCA)
- Khóa học cung cấp cho học viên (HV) các kiến thức cần thiết về xác suất thống kê dành cho Data Science như Thống kê mô tả (Descriptive Statistics), Xác suất (Probability), Thống kê suy luận (Inferential Statistics), Ước lượng (Estimation), Tương quan (Correlation)
- Hướng dẫn HV cách vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề về khoa học dữ liệu.
II. Thời lượng: 40 giờ.
III. Đối tượng học:
- Sinh viên các trường Đại học, Cao đẳng
- HV có định hướng sẽ làm việc trong lĩnh vực Data Science, Machine Learning
IV. Mục tiêu khóa học
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
- Nắm được các kiến thức toán học và xác suất, thống kê cần thiết cho việc tính toán và phân tích dữ liệu
- Sử dụng được các bộ thư viện, công cụ trong Python trong việc tính toán và thống kê
- Vận dụng toán học phù hợp tùy theo yêu cầu của từng bài toán khác nhau
- Thực hiện phân tích thống kê, đưa ra nhận xét trên những bộ dữ liệu thực tế
V. Nội dung khóa học
1. Phần 1: Toán học (Mathematics)
- Linear Algebra (Đại số tuyến tính)
- Matrix Vectors & Space
- Matrix - Vector operations (tính toán ma trận với vector)
- Matrix transformations (biến đổi ma trận): Matrix Multiplication
- T-matrix (ma trận chuyển vị)
- Matrix - Matrix calculations (tính toán ma trận với ma trận)
- Calculus (Giải tính)
- Multivariate calculus
- Derivatives và gradients
- Eigenvalues & Eigenvectors
- Scalar Multiplication
- Scaling different axes (Tinh chỉnh dữ liệu trên các trục)
- Toán trong Eigenvalues
- Principal Component Analysis (Phân tích thành phần chính - PCA)
- Giới thiệu PCA
- Tìm feature thừa
- Linear Algebra trong PCA
- Tìm hiểu Covarience
- Chuẩn hóa dữ liệu
- Tính toán varience, covarience
2. Phần 2: Xác suất, thống kê (Probability Statistic)
- Descriptive Statistics (thống kê mô tả)
- Mean, Median, Mode
- Standard Deviation
- Variance
- Co-variance
- Range
- Probability Density Function (PDF: hàm mật độ xác suất)
- Outliers
- Probability mass function (PMFs: hàm khối xác suất)
- Cumulative distribution function (hàm phân phối tích lũy)
- Inferential Statistics (thống kê suy luận)
- Standard error (độ lệch chuẩn)
- Confidence interval (khoảng tin cậy T)
- Confidence levels and Sigificance levels
- Correlation
- Hypothesis Testing (kiểm định giả thuyết)
- Cross-validation
- t-test, p-value, chi-squared test
- Efficient resampling
- A/B Testing
- ANOVA
- Probability (Xác suất)
- Quy tắc xác suất
- Exponential distribution
- Pareto distribution
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội