Dữ liệu lớn trong Máy học

I. Tổng quan:

Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data
Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp
Cung cấp cho HV các phương pháp phân tích khoa học dữ liệu
Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…
Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.

II. Thời lượng: 40 giờ.

III. Đối tượng học:

HV học qua lớp Máy học với Python hoặc có kiến thức tương đương
Sinh viên các trường Đại học, Cao đẳng
HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science

IV. Mục tiêu khóa học

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

Nắm vững các đặc điểm và thành phần của Big Data
Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
Làm việc với Spark, Big Data Technology mới nhất
Sử dụng Spark DataFrame, MLlib Machine Library với cú pháp DataFrame và Spark, Spark SQL,
Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…
Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước

V. Nội dung khóa học

1. Part 1: Basic

Tổng quan lập trình R
- Giới thiệu R

2. Introduction To Big Data

What is Big Data?
The Vs’ of Big Data

3. PySpark

PySpark: Spark with Python
Spark context, Spark Session, PySpark cell
Lambda with map(), filter()
Spark DataFrame

4. Programming in PySpark RDD’s

Abstraction Spark - resilient distributed dataset (RDD)
Abstracting Data with RDDs
RDDs from Parallelized collections, RDDs from External Datasets
Partitions in your data
Basic RDD Transformations and Actions
Map and Collect, Filter and Count
Pair RDDs in PySpark
ReduceBykey and Collect, SortByKey and Collect
Advanced RDD Actions
CountingBykeys
Create a base RDD and transform it
Remove stop words and reduce the dataset
Print word frequencies

5. PySpark SQL & DataFrames

Abstracting Data with DataFrames
RDD to DataFrame
Loading CSV into DataFrame
Operating on DataFrames in PySpark
Inspecting data in PySpark DataFrame
PySpark DataFrame subsetting and cleaning
Filtering your DataFrame
Interacting with DataFrames using PySpark SQL
Running SQL Queries Programmatically
SQL queries for filtering Table
Data Visualization in PySpark using DataFrames
PySpark DataFrame visualization
Create a DataFrame from CSV file
SQL Queries on DataFrame
Data visualization

6. Manipulating data

SQL in nutshell
Filter, Select
Aggregating, Group & Aggregating
Join

7. Data Analysis

EDA, Corr
Visualization: distplot, implot

8. Wrangling with Spark Functions

Drop, Filter, Scaling
Working with missing data
Join

9. Feature Engineering

Feature Generation
Differences
Ratios
Deeper Features, Time Features
Time Components, Joining On Time Components
Date Math
Extracting Features, Extracting Text to New Features
Splitting & Exploding
Pivot & Join
Binarizing, Bucketing & Encoding
Binarizing Day of Week
Bucketing
One Hot Encoding

10. Building a Model

Choosing the Algorithm
Which MLlib Module?
Creating Time Splits
Adjusting Time Features
Feature Engineering Assumptions for RFR
Feature Engineering For Random Forests
Dropping Columns with Low Observations
Naively Handling Missing and Categorical Values
Building a Model
Evaluating & Comparing Algorithms
Interpreting Results

11. Machine Learning with PySpark MLlib

PySpark MF libraries
PySpark MLlib algorithms
Collaborative filtering
Loading Movie Lens dataset into RDDs
Model training & predictions
Model evaluation using MSE
Classification
Loading spam & non-spam data
Feature hashing & LabelPoint
Logistic Regression model training
Clustering
Loading & parsing the 5000 points data
K-means trainin

Học trực tuyến

Học tại Hồ Chí Minh

Học tại Hà Nội

Các khóa học khác

Sắp khai giảng Xem thêm

IT Service Management - Quản lý dịch vụ CNTT (ITSM)
Ngày khai giảng : 25-04-2026
Microsoft 365 Administrator
Ngày khai giảng : 25-04-2026
Triển khai, quản trị hạ tầng ảo hóa VMware vSphere [V8]
Ngày khai giảng : 04-05-2026
Certified Information Security Manager (CISM)
Ngày khai giảng : 09-05-2026

Góc công nghệ Xem thêm

Thông tin việc làm Xem thêm

Robusta mời giảng viên cộng tác đào tạo
Ngày đăng : 23/09/2025
Tuyển dụng Nhân viên Sales & Marketing (EdTech)
Ngày đăng : 17/09/2025
DIGI-TEXX VIETNAM – Tuyển Dụng Đội Ngũ Công Nghệ
Ngày đăng : 04/08/2025
Tuyển dụng Thực tập sinh Công Nghệ Thông Tin (AI, Data Science)
Ngày đăng : 19/06/2025

Dữ liệu lớn trong Máy học

I. Tổng quan:

II. Thời lượng: 40 giờ.

III. Đối tượng học:

IV. Mục tiêu khóa học

V. Nội dung khóa học

Học trực tuyến

Học tại Hồ Chí Minh

Học tại Hà Nội

Các khóa học khác

Sắp khai giảng Xem thêm

Góc công nghệ Xem thêm

Thông tin việc làm Xem thêm

Tìm chúng tôi trên facebook

Địa chỉ liên hệ

Trụ sở Hồ Chí Minh

Văn phòng Hà Nội

Liên kết nhanh

Dữ liệu lớn trong Máy học

I. Tổng quan:

II. Thời lượng: 40 giờ.

III. Đối tượng học:

IV. Mục tiêu khóa học

V. Nội dung khóa học

Học trực tuyến

Học tại Hồ Chí Minh

Học tại Hà Nội

Các khóa học khác

Sắp khai giảng Xem thêm Xem thêm Xem thêm Xem thêm

Góc công nghệ Xem thêm

Thông tin việc làm Xem thêm

Tìm chúng tôi trên facebook

Sắp khai giảng Xem thêm