Dữ liệu lớn trong chuyển đổi số
I. Giới thiệu khóa học:
Khóa học cung cấp kiến thức tổng quan và ứng dụng của dữ liệu lớn trong các lĩnh vực của đời sống kinh tế - xã hội. Khóa học đi sâu trang bị hiểu biết về chiến lược, công cụ và kỹ thuật hình thành, khai thác dữ liệu lớn, và những giá trị to lớn mà dữ liệu lớn mang lại cho cơ quan, tổ chức, doanh nghiệp trong lộ trình chuyển đổi số của mình. Thông qua một số nền tảng dữ liệu lớn trong thực tế, cũng như các vấn đề cần quan tâm trong thiết kế và triển khai dữ liệu lớn sẽ giúp người học nhận thức sâu sắc hơn về cơ hội và thách thức mà dữ liệu lớn mang lại.
II. Thời lượng khóa học:
3 ngày (24 giờ).
III. Đối tượng của khóa học:
Lãnh đạo, quản lý và chuyên viên chuyên trách hoặc tham gia triển khai chuyển đổi số trong cơ quan, tổ chức, doanh nghiệp.
IV. Nội dung khóa học:
1. Giới thiệu về dữ liệu và dữ liệu lớn:
- Các khái niệm và vai trò của dữ liệu lớn: Cung cấp các khái niệm, thông tin cơ bản về dữ liệu lớn như đa dạng cao, tăng trưởng nhanh và quy mô lớn. Đồng thời cho thấy vai trò của dữ liệu lớn trong cách mạng công nghiệp 4.0 hiện nay;
- Lợi ích của dữ liệu lớn: Các doanh nghiệp trên thế giới đang sử dụng dữ liệu lớn ngày càng nhiều để giải quyết những vấn đề của họ. Các vấn đề không tự nhiên được giải quyết bằng dữ liệu, mấu chốt là việc khai thác, sử dụng dữ liệu lớn để giải quyết các bài toán được đặt ra;
- Nguồn của dữ liệu lớn: Dữ liệu nói chung và dữ liệu lớn nói riêng không tự nhiên mà có. Chúng phải đến từ các nguồn phát sinh nào đó. Các nguồn dữ liệu này có những đặc trưng khác nhau và tạo ra những loại dữ liệu khác nhau. Tùy vào loại dữ liệu sẽ có những cách quản lý vòng đời dữ liệu khác nhau nhằm khai thác hiệu quả, tránh lãng phí;
- Các vấn đề trọng tâm của dữ liệu lớn: Dữ liệu lớn có thể mang lại giá trị cho doanh nghiệp, tạo lợi thế cạnh tranh. Tuy nhiên, trong đó cũng cần xét đến các khía cạnh khác như: chi phí - lợi ích, hiệu quả thật sự của việc giải quyết vấn đề bằng dữ liệu lớn, hay bài toán năng lực con người trong vòng đời dữ liệu…
- Hoạt động: Dữ liệu và khai thác dữ liệu trong doanh nghiệp. Hiện tại, doanh nghiệp đang gặp phải những vấn đề gì? Những vấn đề này có thể giải quyết bằng dữ liệu, dữ liệu lớn hay không? Chi phí cho việc xây dựng, khai thác hệ thống dữ liệu lớn?
2. Chiến lược dữ liệu và ứng dụng phân tích dữ liệu lớn trong doanh nghiệp:
- Hệ thống phân tích dữ liệu và tài sản tri thức: Dữ liệu không tự tạo ra giá trị hoặc tri thức mà cần con người khai thác. Để khai thác được giá trị từ dữ liệu lớn hoặc xây dựng được tri thức cần phải xây dựng một hệ thống phân tích dữ liệu. Doanh nghiệp cần hiểu rõ về các mô hình tri thức như Bloom, mô hình lưu trữ tri thức doanh nghiệp…
- Đánh giá mức độ trưởng thành về ứng dụng phân tích dữ liệu lớn: Việc phân tích, khai thác dữ liệu được phân chia thành nhiều mức độ. Ở giai đoạn trưởng thành thấp, hàm lượng tham gia của con người nhiều và giá trị mang lại không cao. Càng phát triển cao hơn, hàm lượng tham gia của con người càng ít đi và giải quyết được những vấn đề dự đoán trong tương lai, nhờ đó mang lại giá trị lớn hơn trong việc hỗ trợ ra quyết định;
- Xu hướng và khung phát triển dữ liệu lớn trong doanh nghiệp: Càng ngày sự quan trọng của dữ liệu lớn càng thể hiện rõ. Các doanh nghiệp nhận thức rõ được giá trị mà dữ liệu lớn mang lại. Tuy nhiên, mỗi doanh nghiệp lại có môi trường hoạt động, cấu trúc, chiến lược… khác nhau. Vậy làm sao để mỗi doanh nghiệp phát triển được lộ trình xây dựng dữ liệu lớn phục vụ cho chiến lược lâu dài của mình?
- Hoạt động: Vai trò của dữ liệu lớn và xây dựng tài sản tri thức trong doanh nghiệp. Mong muốn của doanh nghiệp trong việc hình thành và phát huy tri thức tạo ra từ hoạt động nhằm tạo ưu thế cạnh tranh vượt trội, tìm ra cơ hội đổi mới, sáng tạo nhanh hơn thị trường. Quá trình này sẽ được thúc đẩy nhanh hơn nhờ vào việc tổ chức, lưu trữ và khai thác dữ liệu lớn.
3. Các kỹ thuật và công cụ cho phân tích dữ liệu lớn:
- Vòng đời của dữ liêu lớn: Dữ liệu là đối tượng có vòng đời đi liền với quá trình quản lý bao gồm thu thập, lưu trữ, xử lý, phân phối;
- Quy trình khai thác dữ liệu lớn: Tuy vòng đời của dữ liệu bắt đầu bằng việc thu thập, nhưng quy trình khai thác dữ liệu phải được bắt đầu bằng việc đặt bài toán cần giải quyết;
- Hệ thống lưu trữ: dữ liệu cần được lưu trữ. Khác với việc lưu trữ dữ liệu thông thường, dữ liệu lớn cần được lưu trữ bằng một phương pháp riêng, phù hợp với đặc tính của dữ liệu lớn. Do quy mô lớn, tăng trưởng nhanh, đa dạng cao nên việc lưu trữ phải được thực hiện trên nhiều máy tính khác nhau gọi là hệ thống lưu trữ phân tán. Hệ thống này sẽ gặp phải một số vấn đề kỹ thuật cần được giải quyết, nhất là vẩn đề hiệu năng và bảo mật;
- Hệ thống phân tích: Tương tự như hệ thống lưu trữ, hệ thống phân tích dữ liệu lớn thường cũng là hệ thống phân tán để có thể tận dụng sức mạng của nhiều máy tính khác nhau để tăng tốc độ xử lý (do dữ liệu đã được phân tán từ trước).
4. Một số nền tảng phân tích dữ liệu lớn trong thực tế:
- Thách thức và yêu cầu cho kiến trúc nền tảng phục vụ phân tích dữ liệu lớn: Do có đặc điểm đặc thù như quy mô lớn, tăng trưởng nhanh, đa dạng cao, khó xác thực nên một hệ thống dữ liệu lớn cần được thiết kế một cách khoa học để có thể khai thác hiệu quả, tránh sai sót và lãng phí tài nguyên cũng như công sức của người sử dụng và người vận hành hệ thống;
- Các thành phần trong kiến trúc nền tảng: Với những thách thức trên, kiến trúc nền tảng cho dữ liệu lớn có những đặc trưng riêng nhằm đáp ứng yêu cầu thu thập, xử lý và lưu trữ dữ liệu thời gian thực và hiệu quả cao. Các công cụ, kỹ thuật khai thác dữ liệu lớn như: PowerBI, Tableau hay các thư viện trí tuệ nhân tạo…
- Ví dụ một hệ thống dữ liệu lớn: Dữ liệu lớn được sử dụng rất nhiều vào việc hỗ trợ ra quyết định đặc biệt là trong việc tăng trải nghiệm cho khách hàng. Hệ thống CDP (Customer Data Platform) là một ứng dụng của dữ liệu lớn vào việc xây dựng hồ sơ khách hàng, từ đó có thể phục vụ khách hàng được tốt hơn;
- Giới thiệu Hadoop: Các công ty công nghệ lớn trên thế giới hiện thực hóa việc lưu trữ dữ liệu lớn bằng các giải pháp khác nhau; trong đó, Hadoop là một hệ sinh thái mã nguồn mở dùng để lưu trữ dữ liệu lớn được cộng đồng sử dụng và phát triển mạnh mẽ.
5. Thiết kế và triển khai ứng dụng các nền tảng dữ liệu lớn cho doanh nghiệp:
- Những vấn đề thường gặp khi thiết kế và triển khai ứng dụng dữ liệu lớn: Dữ liệu đến từ nhiều nguồn và hầu hết là dữ liệu thô, phi cấu trúc, số lượng rất lớn, tốc độ phát triển nhanh... Để khai thác hiệu quả, dữ liệu cần được xử lý để rút trích những thông tin có ích. Tùy vào loại dữ liệu và thành phần thông tin cần rút trích sẽ cần có những kỹ thuật khác nhau như: xử lý dữ liệu phi cấu trúc, nhận diện chủ đề, nhận diện vật thể, phát hiện bất thường…
- Khả năng mở rộng triển khai ứng dụng dữ liệu lớn: Để mở rộng năng lực khai thác dữ liệu lớn, doanh nghiệp cần có kiến trúc dữ liệu và mô hình quản trị dữ liệu tốt. Bên cạnh đó, các công nghệ nền tảng và giải pháp tốt dựa trên kiến trúc dịch vụ và điện toán đám mây sẽ giúp doanh nghiệp mở rộng và liên kết nhanh chóng các vấn đề có thể giải quyết bằng dữ liệu lớn. Từ đó, mở ra cơ hội đạt được lợi ích lớn hơn chi phí mà doanh nghiệp đã đầu tư;
- An toàn thông tin trong ứng dụng dữ liệu lớn: Dữ liệu là tài sản lưu trữ tri thức, trí tuệ của doanh nghiệp, đôi khi là bí mật kinh doanh. Khi dữ liệu được tạo ra và mang lại lợi ích cho doanh nghiệp thì cũng là lúc cần phải nghĩ đến việc bảo đảm an toàn cho loại tài sản này.
6. Trường hợp thực tế: Ứng dụng phân tích dữ liệu lớn trong cơ quan, tổ chức, doanh nghiệp.
- Xu hướng thu thập dữ liệu theo thời gian thực của những hệ thống điều khiển tự động;
- An toàn thông tin trong hệ thống tự động với dữ liệu lớn.
Học trực tuyến
Học tại Hồ Chí Minh
Học tại Hà Nội