Python cho Máy Học, Khoa Học Dữ Liệu Và Trực Quan Hóa Dữ Liệu

I.       Tổng quan

-       Khóa học cung cấp cho học viên (HV) kiến thức tổng quát về Data Science, một trong những chuyên ngành “hot” của thế kỷ 21.

-       Giúp HV trang bị những kiến thức lập trình và trực quan hóa dữ liệu nền tảng, quan trọng, làm tiền đề cho việc tìm hiểu các kiến thức Machine Learning, Data Science sau này.

-       Hướng dẫn HV cách thu thập dữ liệu, khám phá, phân tích, thống kê tạo ra các báo cáo thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas …

-       Hướng dẫn HV cách trích xuất và trình bày dữ liệu dưới dạng có ý nghĩa thông qua nhiều kỹ thuật trình bày dữ liệu một cách trực quan trong Python như Matplotlib, Seaborn và Folium. 

-       Ngoài ra học viên còn được giới thiệu các công cụ trực quan hóa dữ liệu khác như Google Charts, IBM Watson Analytics.

-       Thực hiện các project cụ thể trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn

II.    Thời lượng:  40 giờ.
III.  Đối tượng học:

-       Sinh viên các trường Đại học, Cao đẳng

-       HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning, Data Science

IV.   Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

-       Nắm được quy trình làm việc cơ bản của Data Science

-       Vận dụng linh hoạt các bộ thư viện, công cụ như Python, Jupyter Notebooks, Numpy, Pandas, Matplotlib, Seaborn, Folium… trong việc giải quyết các bài toán thực tế

-       Hiểu và vận dụng cách tìm dữ liệu, xây dựng câu hỏi nghiên cứu, sử dụng các công cụ và kỹ thuật tìm ra câu trả lời

-       Thực hiện phân tích thống kê cơ bản 

-       Vận dụng công cụ để trực quan hóa dữ liệu: trích xuất thông tin, hiểu rõ hơn về dữ liệu và đưa ra quyết định hiệu quả hơn.

V.    Nội dung khóa học

1.      Tổng quan Data Science

  • Giới thiệu Data Science
  • Quy trình của Data Science
  • Giá trị của việc tìm hiểu Data Science
  • Lý do chọn ngôn ngữ lập trình Python

2.      Jupyter Notebook

  • Giới thiệu, lý do sử dụng Jupyter Notebook
  • Cài đặt và cấu hình
  • Sử dụng Jupyter Notebook
  • Markdown Text: cách sử dụng, cú pháp

3.      Numpy

  • Giới thiệu, lý do sử dụng Numpy
  • Ndarray: mảng một chiều, hai chiều, tạo mảng, index, data type, operation
  • Thao tác trên Ndarray: Statictical, sorting, set operation, broadcasting

4.      Pandas

  • Giới thiệu, lý do sử dụng Pandas
  • Series
  • Dataframe
  • Panel
  • Thao tác trên Pandas
    • I/O – Đọc ghi dữ liệu (Data Ingestion)
    • Làm sạch, tinh chỉnh dữ liệu (Data Cleaning)
    • Trực quan hóa dữ liệu (Data Visualization)
    • Thống kê dữ liệu (Descriptive Statistics)
    • Phương thức thao tác trên dữ liệu (Frequent Data Operations)
    • Gộp dữ liệu (Merging Dataframe)
    • Phương thức thao tác trên String (Frequent Data Operations)
    • Đổi thời gian (Parsing Timestamps)

5.      Data Visualization

  • Giới thiệu các công cụ trực quan
  • Vai trò của trực quan hóa dữ liệu (Data Visualization)
  • Quy trình tạo biểu đồ

6.      Tổng quan Matplotlib

  • Giới thiệu Matplotlib
  • Line plot
  • Các thành phần trên biểu đồ: axes, text, legend, label, font, color, annotation…

7.      Trực quan hóa cơ bản với Matplotlib

  • Area plot, Histogram
  • Bar chart, Pie chart
  • Box plot, Scatter plot
  • Plotting cell phone data
  • Waffle chart với pywaffle library
  • Word clouds

8.      Trực quan hóa nâng cao với Seaborn

  • Giới thiệu Seaborn 
  • Seaborn style, Color, color palettes, axes, anotation
  • Multiple plot, Stripplot, Swarmplot
  • Boxplot, Violinplot, Lvplot
  • Barplot, pointplot, countplot
  • Distplot, Distribution plot
  • Rug plot và kde shading
  • Regression plot, Residual plot
  • Bining data
  • Matrix plot
  • Heat map
  • Vẽ biểu đồ trên Data Aware Grids
    • FaceGrid
    • Factor plot và Lmplot
    • PairGrid và Pairplot
    • JointGrid và Jointplot
    • Jointplot và regression

9.      Trực quan hóa không gian địa lý 

  • Giới thiệu Folium
  • GeoDataFrame
  • Geometry
  • GeoJSON
  • GeoSeries
  • Map và Marker
  • Heatmap
  • Choropleth
  • Tạo map và trực quan hóa không gian địa lý

10.  Các công cụ trực quan hóa dữ liệu khác

  • Google Charts
  • IBM Watson Analytics
  • Online

  • At Ho Chi Minh City

  • At Ha Noi


Other courses