Quản trị và phát triển Hadoop và Spark
I. Tổng quan
Khóa học giúp học viên nắm vững dữ liệu lớn và các công cụ hệ sinh thái Hadoop như HDFS, YARN, MapReduce, Hive, Impala, Pig, HBase, Spark, Flume và Sqoop. Trong suốt khóa đào tạo học viên sẽ làm việc trên nhiều bộ dữ liệu ở nhiều lĩnh vực khác nhau như: bán lẻ, du lịch, tài chính, .v.v..
II. Thời lượng: 32h
III. Mục tiêu:
- Tìm hiểu cách điều hướng Hệ sinh thái Hadoop và hiểu cách tối ưu hóa việc sử dụng nó
- Thu thập dữ liệu bằng Sqoop, Flume và Kafka
- Thực hiện phân vùng, sắp xếp và lập chỉ mục trong Hive
- Làm việc với RDD trong Apache Spark
- Xử lý dữ liệu phát trực tiếp theo thời gian thực
- Thực hiện thao tác DataFrame trong Spark bằng truy vấn SQL
- Triển khai hàm do người dùng định nghĩa (User Defined Function) và các thuộc tính của nó
IV. Đối tượng tham gia:
- Chuyên gia CNTT
- Chuyên gia tài chính ngân hàng
- Giám đốc tiếp thị
- Quản lý mạng lưới chuỗi cung ứng
- Người mới bắt đầu trong lĩnh vực kỹ thuật dữ liệu
- Sinh viên các ngành kinh tế
V. Nội dung khóa học:
- Phần 1 - Introduction to Bigdata and Hadoop
- Phần 2 - Hadoop Architecture Distributed Storage (HDFS) and YARN
- Phần 3 - Data Ingestion into Big Data Systems and ETL
- Phần 4 - Distributed Processing MapReduce Framework and Pig
- Phần 5 - Apache Hive
- Phần 6 - NoSQL Databases HBase
- Phần 7 - Basics of Functional Programming and Scala
- Phần 8 - Apache Spark Next-Generation Big Data Framework
- Phần 9 - Spark Core Processing RDD
- Phần 10 - Spark SQL Processing DataFrames
- Phần 11 - Spark MLLib Modelling BigData with Spark
- Phần 12 - Stream Processing Frameworks and Spark Streaming
- Phần 13 - Spark GraphX
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội