Pyspark
I. Tổng quan
Khóa học sẽ cung cấp một cái nhìn tổng quan về Apache Spark - công cụ truy vấn nguồn mở để xử lý các bộ dữ liệu lớn, sử dụng ngôn ngữ Python. Khóa học sẽ hướng dẫn cho học viên cách xây dựng và triển khai các ứng dụng dữ liệu lớn, đặc biệt trong Machine Learning. Học viên cũng sẽ tìm hiểu cách sử dụng Spark RDD, Spark SQL, Spark MLlib, Spark Streaming, HDFS, Sqoop, Flume, Spark GraphX và Kafka.
II. Thời lượng: 24h
III. Mục tiêu:
- Hiểu cách sử dụng Python trong hệ sinh thái Spark
- Làm chủ kiến trúc Apache Spark và cách thiết lập môi trường Python cho Spark
- Tìm hiểu về các kỹ thuật khác nhau để thu thập dữ liệu, hiểu RDD và cách đối chiếu chúng với DataFrame, cách đọc dữ liệu từ HDFS và các nguồn dữ liệu khác.
- Có được kiến thức toàn diện về các công cụ khác nhau thuộc hệ sinh thái Spark như Spark SQL, Spark MlLib và Spark Streaming
- Sử dụng các API khác nhau để làm việc với Spark DataFrames, tìm hiểu cách tổng hợp, chuyển đổi, lọc và sắp xếp dữ liệu với DataFrame.
IV. Đối tượng tham gia:
- Chuyên gia CNTT
- Chuyên gia tài chính ngân hàng
- Giám đốc tiếp thị
- Quản lý mạng lưới chuỗi cung ứng
- Người mới bắt đầu trong lĩnh vực kỹ thuật dữ liệu
- Sinh viên các ngành kinh tế
V. Nội dung khóa học:
- Phần 01 - A Brief Primer on Pyspark
- Phần 02 - Resilient Distributed Datasets
- Phần 03 - Resilient Distributed Datasets and Actions
- Phần 04 - DataFrames and Transformations
- Phần 05 - Data Processing with Spark DataFrames
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội