Máy học với Python
I. Tổng quan
- Khóa học cung cấp cho học viên các kiến thức quan trọng và cần thiết về Machine Learning, một nhánh rất “hot” của Trí tuệ nhân tạo (AI).
- Trang bị kiến thức và kỹ năng vận dụng các thuật toán thuộc nhóm Supervised Learning (Classification, Regression), Unsupervised Learning (Clustering, Association Analysis, Dimensionality Reduction) thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas, Matplotlib, Seaborn, sklearn…
- Thực hiện các project cụ thể trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn
- Xây dựng nền tảng vững chắc về Machine Learning với Python, tạo tiền đề cho việc tìm hiểu kiến thức về Deep Learning.
II. Thời lượng: 40 giờ.
III. Đối tượng học:
- Sinh viên các trường Đại học, Cao đẳng
- HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science
IV. Mục tiêu khóa học
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
- Áp dụng và triển khai các thuật toán trong nhóm Supervised Learning như Logistic Regression, Linear Regression, Naïve Bayes, K-Nearest Neighbors (KNN), Decision Tree, Random Forest, Support Vector Machine (SVM), Boosting và AdaBoost với Python
- Áp dụng và triển khai các thuật toán trong nhóm Unsupervised Learning như K-Means clustering, Hierarchical Clustering, Apriori, Equivalence Class Clustering and bottom up Lattice Traversal (ECLAT), Expectation–maximization (EM), Gaussian Mixture Models (GMM), Dimensionality Reduction với Principal Component Analysis (PCA), Locally Linear Embedding (LLE) với Python
- Hiểu và vận dụng các thuật toán Machine Learning trong việc giải quyết các vấn đề thực tế, cụ thể
V. Nội dung khóa học
1. Tổng quan Machine Learning
- Giới thiệu
- Phân loại
- Supervised Learning
- Classification
- Regression Analysis
- Unsupervised Learning
- Clustering
- Association Analysis
- Dimensionality Reduction
- Thuật ngữ
- Scikit-learn: Machine Learning trong Python
- Thách thức của Machine Learning: không đủ số lượng dữ liệu, dữ liệu đào tạo không đại diện, dữ liệu có chất lượng kém, thuộc tính không liên quan, Overfitting, Underfitting, cân bằng giữa Bias-Variance…
2. Logistic Regression
- Binary Classifier
- Thuật toán: Logistic Regression, phương trình toán học (Sigmoid)
- Xây dựng Logistic Regression với sklearn.linear_model. LogisticRegression
3. Linear Regression
- Thuật toán Least Squares
- Phân loại: Simple Linenear Regression, Multiple Linenear Regression
- Xây dựng Linear Regression với sklearn. linear_model.LinearRegression
4. Naïve Bayes
- Phân loại Naïve Bayes: GaussianNB, BernoulliNB và MultinomialNB
- Thuật toán: Định lý Bayes
- Xây dựng Naïve Bayes với sklearn.naive_bayes
5. K-Nearest Neighbors (KNN)
- Thuật toán KNN
- Xây dựng KNN với sklearn.neighbors.KNeighborsClassifier, sklearn.neighbors.KNeighborsRegressor
6. Decision Tree
- Thuật toán: Decision Tree
- Xây dựng Decision Tree với sklearn.tree.DecisionTreeClassifier, sklearn.tree.DecisionRegressor
7. Random Forest
- Thuật toán: Random Forest
- Xây dựng Random Forest với sklearn.ensemble. RandomForestClassifier
8. Support Vector Machine (SVM)
- Kenel trick
- Thuật toán: Linear SVM, Hard-margin, Soft-margin, Nonelinear SVM, SVM Kenel, SVM Regression
- Xây dựng SVM với sklearn.svm.SVM
9. Boosting, AdaBoost
- Boosting: Giới thiệu, Boosting Algorithms, phân loại
- AdaBoost (Adaptive Boosting)
- Thuật toán: AdaBoost
- Xây dựng AdaBoost với sklearn.ensemble.AdaBoostClassifier
10. Một số kỹ thuật bổ sung
- Xác thực chéo (Cross Validation)
- Điều chỉnh tham số (Tunning Parameter)
- Grid Search (GridSearchCV)
- Random Search
11. K-Means
- Thuật toán K-Means Algorithm
- Elbow Method
- Xây dựng K-Means với sklearn.cluster.KMeans
12. Hierarchical clustering
- Phân loại: Divisive (top down), Agglomerative (bottom up)
- Agglomerative Clustering Algorithm
- Dendrogram
- Xây dựng Hierarchical clustering với sklearn.cluster. AgglomerativeClustering
13. Apriori
- Association Rule Mining
- Apriori
- Thuật toán: Apriori (Support, Confidence, Lift)
- Xây dựng Apriori với mlxtend.frequent_patterns.apriori
14. ECLAT (Equivalence Class Clustering and bottom up Lattice Traversal)
- Thuật toán: ECLAT
- Xây dựng ECLAT
15. Gaussian Mixture Model (GMM) và Expectation–maximization (EM)
- Gaussian Distribution
- GMM
- EM
- Xây dựng GMM với sklearn.mixture.GaussianMixture
16. Dimensionality Reduction, Principal Component Analysis (PCA)
- Dimensionality Reduction: Curse of Dimensionality, phân loại
- PCA: giới thiệu, mục tiêu
- Thuật toán: PCA, Singular Value Decomposition (SVD)
- Xây dựng PCA với sklearn.decomposition.PCA
17. Locally Linear Embedding (LLE)
- Thuật toán: LLE
- Xây dựng LLE với sklearn.manifold.LocallyLinearEmbedding
18. Time Series
- Dự đoán với ARIMA
- Thuật toán, variation, decomposition
- Xây dựng mô hình với auto_arima
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội