Giới Thiệu

I.  Tổng quan

Chương trình đào tạo Dữ liệu lớn (Big Data) cung cấp các kiến thức và kỹ năng về công nghệ và kỹ thuật xử lý các nguồn dữ liệu lớn với nhiều định dạng khác nhau. Học viên sẽ được cung cấp cách làm chủ các nguồn dữ liệu lớn với Hadoop, tận dụng chức năng lập trình song song của Apache Spark với Python, streaming dữ liệu với Apache Kafka và sử dụng công cụ quản lý cơ sở dữ liệu nguồn mở MongoDB, HBase để lưu trữ dữ liệu trong môi trường dữ liệu lớn

II.  Lộ trình học: 


III.  Mục tiêu:
  • Hiểu sâu hơn về hệ sinh thái Hadoop, chẳng hạn như Pig, Hive, Impala, HBase, Sqoop, Flume và Yarn.
  • Thành thạo các công cụ liên quan đến việc tạo mô hình dữ liệu, giao diện cơ sở dữ liệu, kiến trúc nâng cao Spark (RDD, SparkSQL, Spark Streaming, Spark ML, GraphX), Sqoop, Flume, Pig, Hive, Impala và Kafka architecture.
  • Hiểu cách lập mô hình dữ liệu, thực hiện nhập, sao chép dữ liệu và dữ liệu phân đoạn bằng cách sử dụng hệ quản trị cơ sở dữ liệu NoSQL MongoDB.
  • Có khả năng tạo và duy trì cơ sở hạ tầng, phân tích, phát triển, triển khai, bảo trì và giám sát các thành phần kiến trúc Big Data
  • Tìm hiểu cách Kafka được sử dụng trong thế giới thực, bao gồm kiến trúc và các thành phần của nó, thực hành kết nối Kafka với Spark và làm việc với Kafka Connect
  • Tìm hiểu cách sử dụng Amazon EMR để xử lý dữ liệu bằng các công cụ hệ sinh thái Hadoop
IV.  Đối tượng tham gia khoá học:

Nhiệm vụ của một kỹ sư dữ liệu lớn là xây dựng, duy trì cấu trúc dữ liệu, nhập,xửlý và triển khai dữ liệu cho các ứng dụng quy mô lớn. Đó là một sự nghiệp đầy hứa hẹn cho những chuyên gia mới cũng như những chuyên gia giàu kinh nghiệm có niềm đam mê với dữ liệu, bao gồm:

  •  Chuyên gia CNTT
  •  Chuyên gia tài chính ngân hàng
  •  Người quản trị cơ sở dữ liệu
  •  Người mới bắt đầu trong lĩnh vực kỹ thuật dữ liệu
  • Sinh viên CNTT muốn làm về dữ liệu
V.  Điều kiện tiên quyết:

- Có kiến thức cơ bản về CNTT, lập trình 

- Tư duy logic tốt

- Học viên sẽ được tư vấn cụ thể  bởi Bộ phận Đào tạo và đội ngũ giảng viên để việc định hướng tham gia chương trình học được chính xác nhất. 

VI. Chương trình đào tạo

Gồm 8 khoá học như sau:

  1. Nhập môn Big Data 
  2. Quản trị và phát triển Hadoop và Spark 
  3. Pyspark
  4. Apache Kafka
  5. Quản trị và phát triển MongoDB 
  6. Giới thiệu về AWS 
  7. Phát triển Big data trên AWS 
  8. Đồ án tổng hợp
VII.  Giảng viên:

1. Tiến sĩ Nguyễn Xuân Hà (Canada)

TS Nguyễn Xuân Hà nhận bằng Kỹ sư Điện tử Viễn Thông tại Học viện Công nghệ Bưu chính Viễn thông Thành phố Hồ Chí Minh năm 2003, bằng Thạc sĩ Computer Science tại  Viện Khoa học và Công nghệ Tiên tiến Hàn Quốc, Daejeon, Hàn Quốc, năm 2007, bằng tiến sĩ tại Đại học Saskatchewan, Saskatoon, SK, Canada vào năm 2011. Từ năm 2012 đến 2016, anh đã làm việc tại Complex System Inc., Calgary, AB Canada với công việc phát triển hệ thống nhận diện hành vi con người dựa trên Computer vision.Hiện tại, ông đang làm việc tại Ambyint Inc.,  Canada với vai trò là Nhà khoa học dữ liệu. Nhiệm vụ của anh là xây dựng mô hình trí tuệ nhân tạo (AI) cho việc tự động hoá và tối ưu trong lĩnh vực dầu khí. Anh cũng có thời gian là giảng viên thỉnh giảng tại Đại học Tân Tạo, Việt Nam. Các hướng nghiên cứu của anh bao gồm lĩnh vực trí tuệ nhân tạo, Internet of Things, computer vision và big data.

2. PGS.TS Quản Thành Thơ (Vietnam)

PGS. TS Quản Thành Thơ là hiện đang làm việc tại Khoa Khoa Học và Kỹ Thuật Máy Tính với vai trò là Trưởng Bộ môn Công nghệ phần mềm, Đại học Bách khoa TPHCM. Anh nhận bằng Tiến sĩ từ Đại học Công nghệ Nanyang, Singaporevào 2006. Các nghiên cứu hiện tại của anh bao gồm Formal methods, Phân tích / Xác minh chương trình, Semantic Web, Machine Learning / Khai thác dữ liệu và các hệ thống thông minh. Anh cũng là advisor của nhiều doanh nghiệp trong việc ứng dụng Machine Learning để giải quyết các vấn đề của doanh nghiệp.

3. PGS.TS Trần Vũ Khanh

PGS.TS Trần Vũ Khanh là một nhà toán học và là một chuyên gia về AI. Anh từng làm việc cho Đại học Padova (Ý), Đại học Quốc gia Singapore (Singapore), Đại học Wollongong (Úc). Hiện anh đang làm việc tại Đại học Tân Tạo (Việt Nam) với vai trò Giảng viên.

4. Tiến sĩ Vũ Quang Hiếu (Vietnam)

Tiến sĩ Vũ Quang Hiếu hiện đang là Giám đốc Bộ phận Khoa học dữ liệu (Head of Data Science) tại Zalora. Anh đã nhận bằng Tiến sĩ tại Singapore-MIT Alliance vào năm 2008. Trước khi gia nhập Zalora, anh đã làm việc ở Đại học Quốc gia Singapore, Đại học Hoàng gia London, Viện Nghiên cứu Infocomm và Trung tâm Sáng tạo Viễn thông Anh Etaluat. Tiến sĩ Vũ Quang Hiếu có kinh nghiệm trên nhiều lĩnh vực từ P2P, Điện toán đám mây và Xử lý luồng dữ liệu, An ninh mạng, Tối ưu hóa và Khoa học dữ liệu. Anh đã xuất bản hơn 50 bài báo khoa học trong các hội nghị và tạp chí hàng đầu.

5. Thạc Sĩ Phạm Thành Lâm (Vietnam)

Thạc sĩ Phạm Thành Lâm hiện đang là Giám đốc Bộ phận khoa học dữ liệu (Lead Data Scientist) tại VNG Datalabs, Founder của Saigonapps và là một Kaggle Master. Anh tốt nghiệp thạc sĩ về Computer Science tại tại  Saint Petersburg State University (Nga) năm 2007, bằng thạc sĩ về Hệ thống CNTT doanh nghiệp tại đại. học  Heilbronn, Đức vào 2010. Anh đã xây dựng nhiều sản phẩm về data science tại các doanh nghiệp lớn như viễn thông, fintech,…Hiện anh cũng là Kaggle master và có nhiều giải pháp hàng đầu như CIKM, WSDM. Các công việc hiện của anh tập trung vào các lĩnh vực Machine Learning/Deep Learning/NLP

6. Tiến sĩ Trần Anh Tuấn (Vietnam)

Năm 2010, Tiến sĩ Trần Tuấn nhận được bằng thạc sĩ tại Khoa Toán và Tin học của Đại học Khoa học TP.HCM, Việt Nam. Năm 2014, ông nhận bằng Tiến sĩ tại Khoa Điện tử và Kỹ thuật Máy tính, Đại học Quốc gia Chonnam, Hàn Quốc. Hiện nay, Tiến sĩ Trần Tuấn là giảng viên và nhà khoa học dữ liệu tại trường Đại học khoa học, thành phố Hồ Chí Minh, Việt Nam. Bên cạnh đó, ông có kinh nghiệm trong vai trò cố vấn cho các dự án Khoa học dữ liệu và computer vision tính của Công ty FPT Software, DMSpro và PNJ. Các nghiên cứu chính của ông là về Khoa học dữ liệu (Machine Learning & Khai thác dữ liệu) và Computer Vision (Xử lý hình ảnh y tế, Theo dõi đối tượng và Deep Machine). Ông thành thạo các kỹ năng lập trình như: Ngôn ngữ R, Python, .Net, Javascript và PHP.

7. Tiến sĩ Cao Tiến Dũng (Vietnam)

Tiến sĩ Dũng Cao nhận bằng Tiến sĩ Khoa học Máy tính tại Đại học Bordeaux, Pháp (2010). Hiện anh làm việc tại Đại học Tân Tạo (Việt Nam) với vai trò Giảng viên và quản lý. Các nghiên cứu của ông liên quan đến: IoT, Khoa học dữ liệu, Machine Learning, Computer Vision, Service Engineering.

8.      Tiến sĩ  Nguyễn Phúc Sơn (Vietnam)

Tiến sĩ Nguyễn Phúc Sơn được trao bằng Tiến sĩ tại Đại học Wayne State ở Detroit, Michigan, Hoa Kỳ. Anh hiện là phó trưởng khoa toán tại Đại học Kinh tế và Luật. Anh đã làm việc và phát triển trên các ứng dụng của thống kê dữ liệu và khoa học dữ liệu cho dữ liệu tài chính và kinh doanh. Ngoài ra, anh đang hợp tác với trường Đại học thành phố Dublin trong một dự án về người tiêu dùng kỹ thuật số.

9. Tiến sĩ Trần Duy Hiến (Vietnam)

Anh là Tiến sĩ, nhà Toán học tại Đại học bang New Mexico, Hoa Kỳ. Các công trình nghiên cứu của Tiến sĩ Hiến đã mang lại nhiều lợi ích bao gồm phân tích rủi ro thống kê và mô hình rủi ro cho dữ liệu thô (bao gồm dữ liệu bị kiểm duyệt, thiếu, không đầy đủ và không chính xác).

10. Thạc sĩ Nguyễn Văn Cường (Vietnam)

Thạc sĩ khoa học Nguyễn Văn Cường hiện đang làm việc với vai trò là Nhà khoa học dữ liệu cao cấp tại Inspectorio. Anh chuyên nghiên cứu và giải quyết các vấn đề về AI ứng dụng như Deep Learning, Computer Vision, NLP, Generative Modelling, Unsupervised và Recommendation. Anh đã hoàn thành Thạc sĩ Khoa học Máy tính tại Konkuk Univ, Hàn Quốc.

  • Học trực tuyến

  • Học tại Hồ Chí Minh

  • Học tại Hà Nội


Các khóa học khác