Dữ liệu lớn trong Máy học

I. Tổng quan:

-        Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data

-       Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp

-       Cung cấp cho HV các phương pháp phân tích khoa học dữ liệu

-       Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…

-       Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.

II.    Thời lượng:  40 giờ.
III. Đối tượng học:

-       HV học qua lớp Máy học với Python hoặc có kiến thức tương đương

-       Sinh viên các trường Đại học, Cao đẳng

-       HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science

IV.   Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

-       Nắm vững các đặc điểm và thành phần của Big Data

-       Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn

-       Làm việc với Spark, Big Data Technology mới nhất

-       Sử dụng Spark DataFrame, MLlib Machine Library với cú pháp DataFrame và Spark, Spark SQL,

-       Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…

-       Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp

-       Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước

V.    Nội dung khóa học

1.      Part 1: Basic

  • Tổng quan lập trình R
    • Giới thiệu R

2.      Introduction To Big Data

  • What is Big Data?
  • The Vs’ of Big Data

3.      PySpark

  • PySpark: Spark with Python
  • Spark context, Spark Session, PySpark cell
  • Lambda with map(), filter()
  • Spark DataFrame

4.      Programming in PySpark RDD’s

  • Abstraction Spark - resilient distributed dataset (RDD)
  • Abstracting Data with RDDs
  • RDDs from Parallelized collections, RDDs from External Datasets
  • Partitions in your data
  • Basic RDD Transformations and Actions
  • Map and Collect, Filter and Count
  • Pair RDDs in PySpark
  • ReduceBykey and Collect, SortByKey and Collect
  • Advanced RDD Actions
  • CountingBykeys
  • Create a base RDD and transform it
  • Remove stop words and reduce the dataset
  • Print word frequencies

5.      PySpark SQL & DataFrames

  • Abstracting Data with DataFrames
  • RDD to DataFrame
  • Loading CSV into DataFrame
  • Operating on DataFrames in PySpark
  • Inspecting data in PySpark DataFrame
  • PySpark DataFrame subsetting and cleaning
  • Filtering your DataFrame
  • Interacting with DataFrames using PySpark SQL
  • Running SQL Queries Programmatically
  • SQL queries for filtering Table
  • Data Visualization in PySpark using DataFrames
  • PySpark DataFrame visualization
  • Create a DataFrame from CSV file
  • SQL Queries on DataFrame
  • Data visualization

6.      Manipulating data

  • SQL in nutshell
  • Filter, Select
  • Aggregating, Group & Aggregating
  • Join

7.      Data Analysis

  • EDA, Corr
  • Visualization: distplot, implot

8.      Wrangling with Spark Functions

  • Drop, Filter, Scaling
  • Working with missing data
  • Join

9.      Feature Engineering

  • Feature Generation
  • Differences
  • Ratios
  • Deeper Features, Time Features
  • Time Components, Joining On Time Components
  • Date Math
  • Extracting Features, Extracting Text to New Features
  • Splitting & Exploding
  • Pivot & Join
  • Binarizing, Bucketing & Encoding
  • Binarizing Day of Week
  • Bucketing
  • One Hot Encoding

10.  Building a Model

  • Choosing the Algorithm
  • Which MLlib Module?
  • Creating Time Splits
  • Adjusting Time Features
  • Feature Engineering Assumptions for RFR
  • Feature Engineering For Random Forests
  • Dropping Columns with Low Observations
  • Naively Handling Missing and Categorical Values
  • Building a Model
  • Evaluating & Comparing Algorithms
  • Interpreting Results

11.  Machine Learning with PySpark MLlib

  • PySpark MF libraries
  • PySpark MLlib algorithms
  • Collaborative filtering
  • Loading Movie Lens dataset into RDDs
  • Model training & predictions
  • Model evaluation using MSE
  • Classification
  • Loading spam & non-spam data
  • Feature hashing & LabelPoint
  • Logistic Regression model training
  • Clustering
  • Loading & parsing the 5000 points data
  • K-means trainin
  • Học tại Hồ Chí Minh

  • Học tại Hà Nội

  • Học trực tuyến


Các khóa học khác