Khai phá dữ liệu

Giới thiệu khóa học:

Trong vài năm gần đây có hai "trào lưu" khoa học rất thịnh hành trên trường quốc tế: Dữ liệu Lớn và Machine Learning (còn có thể gọi là Statistical Learning). Cả hai trào lưu là giao thoa giữa khoa học thống kê và khoa học máy tính, nhưng xuất phát từ nhu cầu thực tế trong khoa học thực nghiệm như di truyền học, sinh học, và doanh nghiệp. Các nghiên cứu di truyền học và những thông tin từ các doanh nghiệp viễn thông tạo ra những dữ liệu lớn. Machine Learning là tập hợp một số phương pháp thống kê học nhằm khám phá những xu hướng và đặc điểm của các dữ liệu lớn. Tuy nhiên, những phương pháp và mô hình này hiện nay chưa được tiếp cận một cách có hệ thống ở Việt Nam. Trong thực tế, nhiều người trong giới khoa học vẫn còn xa lạ với những phương pháp hiện đại của Machine Learning

Thời lượng:

40 giờ

Hình thức đào tạo:

-      Đào tạo trực tiếp tại lớp học, đào tạo tại văn phòng khách hàng theo yêu cầu.

Mục tiêu khóa học:

         Sau khi hoàn tất khóa học, học viên trang bị đủ kiến thức và kỹ năng cần thiết trong việc:

-      Sử dụng thành thạo R cho các mô hình hồi qui tuyến tính;

-      Sử dụng R để xử lí các dữ liệu lớn;

-      Hiểu và có thể áp dụng các phương pháp chọn mô hình;

-      Hiểu và xây dựng mô hình tiên lượng với các phương pháp hiện đại;

Đối tượng tham gia khóa học:

-      Học viên, nhà nghiên cứu, các thành viên làm việc nhiều với dữ liệu hoặc muốn tìm hiểu ứng dụng công cụ dữ liệu ứng dụng.

Nội dung khóa học:

1.      Module 1: Khoa học dữ liệu cơ bản

  • Giới thiệu cơ bản về sắc xuất thống kê và ngôn ngữ R;
  • Quy trình tổ chức bộ phận dữ liệu và dự án dữ liệu. Lựa chọn biến mục tiêu, biến độc lập, lựa chọn và đánh giá mô hình.
  • Mô tả dữ liệu, ước lượng tham số, kiểm định giả thuyết. Xử lý dữ liệu thô.
  • Thực hành mô tả dữ liệu và xử lý dữ liệu thô.

2.      Module  2: Các mô hình máy học trong tài chính, ngân hàng

  • Mô hình tuyến tính đa biến, các kỹ thuật chọn biến;
  • Chuẩn hóa và Biến đổi dữ liệu: Các kỹ thuật biến đổi biến số (Dimension reduction: Principal component analysis/SVD/t-SNE;
  • Mô hình phân loại, hồi quy Logistic và các kỹ thuật nâng cao (Lasso, Ridge, SVM);
  • Các mô hình cây (Tree based model): Cây quyết định, các kỹ thuật nâng cao (Random forest, Boosting).
  • Thực hành ứng dụng các mô hình.

3.      Module 3: Phân tích dữ liệu tài chính, ngân hàng

  • Kỹ thuật gom cụm: K-means, Hierarchical clustering, DBSCAN;
  • Cơ bản về time series;
  • Phân tích điểm bất thường (Change point detection);
  • Hiển thị dữ liệu hình ảnh;
  • Thực hành phân tích dữ liệu tài chính, ngân hàng.
  • Học tại Hồ Chí Minh

  • Học tại Hà Nội

  • Học trực tuyến


Các khóa học khác