Doanh nghiệp Việt đang bị 'mất dấu' dữ liệu nội bộ?
Nhiều lãnh đạo các tập đoàn không biết rõ dữ liệu của mình đang ở đâu. Trong khi đó, theo các chuyên gia, việc 'mất dấu' dữ liệu không chỉ là vấn đề kỹ thuật, mà là một vấn đề chiến lược…

Để tiến tới AI, dữ liệu phải được kết nối chặt chẽ, bao gồm cả dữ liệu nội bộ, dữ liệu bên ngoài, dữ liệu có cấu trúc và không cấu trúc. Ảnh minh họa
Trong bối cảnh chuyển đổi số và phát triển trí tuệ nhân tạo (AI), dữ liệu không còn là yếu tố phụ trợ mà đã trở thành tài sản cốt lõi quyết định năng lực cạnh tranh của doanh nghiệp.
Thế nhưng, theo chia sẻ của ông Nguyễn Văn Hiền, Chủ tịch Hội đồng quản trị kiêm Tổng Giám đốc Công ty iNET Solutions, có một thực trạng đáng lo ngại đang diễn ra trong nhiều tổ chức tại Việt Nam. Đó là các nhà lãnh đạo không biết rõ dữ liệu của doanh nghiệp mình đang ở đâu.
DỮ LIỆU LÀ TÀI SẢN, NHƯNG ĐANG BỊ “THẤT LẠC”?
Dữ liệu được ví như “dầu mỏ” trong kỷ nguyên số - chỉ có giá trị khi được khai thác đúng cách. Tuy nhiên, nhiều doanh nghiệp hiện nay vẫn để dữ liệu nằm rải rác: trong hệ thống quản trị, trong máy chủ, trên cloud, trong thiết bị cá nhân, và thậm chí nằm ngoài tầm kiểm soát nội bộ như trên Google hoặc các nền tảng bên thứ ba. Sự phân mảnh này khiến dữ liệu trở nên vô nghĩa nếu không có chiến lược hợp nhất và khai thác đúng đắn.
“Nếu không quản trị dữ liệu tốt, doanh nghiệp không chỉ đánh mất cơ hội ra quyết định dựa trên dữ liệu, mà còn đối mặt với nguy cơ rò rỉ thông tin, mất an toàn bảo mật, đặc biệt trong các lĩnh vực nhạy cảm như tài chính, y tế hay chính phủ điện tử”, ông Nguyễn Văn Hiền nói.
Trong khi đó, trí tuệ nhân tạo đang phát triển mạnh mẽ và sẽ thay đổi bối cảnh cạnh tranh trong kinh doanh. Dữ liệu chính là “thức ăn” của AI. Ông Hiền cho rằng nếu không có dữ liệu, AI sẽ giống như “một con khủng long không có thức ăn và nó sẽ chết”, bởi vì dữ liệu là yếu tố cốt lõi để AI hoạt động hiệu quả.
Thậm chí, các chuyên gia đã cảnh báo rằng nếu một quốc gia không làm chủ được dữ liệu của mình, họ có nguy cơ bị mất văn hóa, bị các quốc gia khác khai thác dữ liệu để định hình thông tin theo cách của họ.
KỸ SƯ NHIỀU, NHƯNG KHÔNG THỂ “GÁNH” CẢ HỆ THỐNG DỮ LIỆU
Theo ông Hiền, hiện nay, các doanh nghiệp có thể sở hữu nhiều kỹ sư công nghệ giỏi, có khả năng khai thác dữ liệu để tạo ra giá trị, như các báo cáo ngân hàng, ứng dụng công nghệ, hay các hệ thống phân tích. Nhưng việc khai thác dữ liệu còn phụ thuộc quá nhiều vào con người.
“Nếu chỉ dựa vào lập trình viên để khai thác dữ liệu, chúng ta sẽ mất quá nhiều thời gian”, ông Hiền nhận định. Và trong bối cảnh chuyển đổi số, việc chờ đợi các kỹ sư lập trình và xử lý dữ liệu là “không khả thi”.
Thay vào đó, các doanh nghiệp sẽ cần một công cụ mạnh mẽ hơn, giống như một cỗ máy khai thác dầu mỏ, giúp tự động hóa việc xử lý và phân tích dữ liệu. Chưa kể, việc dựa vào con người để khai thác dữ liệu sẽ còn tiềm ẩn nguy cơ về bảo mật, khi càng nhiều người truy cập trực tiếp vào dữ liệu gốc sẽ gây nguy cơ rò rỉ hoặc thao túng dữ liệu càng cao.
Ngoài ra, dữ liệu trên internet hiện nay là nguồn học liệu chính cho AI, nhưng không phải tất cả dữ liệu đều có giá trị. Thậm chí, việc sử dụng dữ liệu không đúng có thể dẫn doanh nghiệp đi sai hướng, làm mất văn hóa hoặc gây ra những thông tin sai lệch. Do đó, trước khi đưa dữ liệu vào AI, doanh nghiệp cần “giáo dục” AI về dữ liệu đúng, cung cấp những thông tin xác thực để AI học và đưa ra kết luận chính xác.
GIẢI BÀI TOÁN “MẤT DẤU DỮ LIỆU” CỦA NHIỀU DOANH NGHIỆP
Trải qua hơn 40 năm, mô hình quản trị dữ liệu đã có những bước tiến dài. Từ năm 1980, con người đã bắt đầu xây dựng các kho dữ liệu (data warehouse) để tập hợp và khai thác dữ liệu. Đến năm 2011, khái niệm “data lake” ra đời, cho phép khai thác dữ liệu trực tiếp từ nguồn mà không cần qua các bước trung gian phức tạp.
Tuy nhiên, cả hai mô hình này vẫn có hạn chế. Data warehouse không thể cung cấp thông tin thời gian thực, còn data lake vẫn yêu cầu các kỹ sư công nghệ can thiệp để xử lý dữ liệu. Điều này làm chậm quá trình ra quyết định và gây lo ngại về bảo mật, đặc biệt với dữ liệu nhạy cảm như dữ liệu chính phủ, y tế hay tài chính.
“Tôi đã trao đổi với nhiều CEO và lãnh đạo các tập đoàn, họ thường không biết rõ dữ liệu của mình đang ở đâu”, ông Nguyễn Văn Hiền, Chủ tịch Hội đồng quản trị kiêm Tổng Giám đốc Công ty iNET Solutions, chia sẻ.
Vào khoảng năm 2020-2022, khái niệm data fabric đã trở nên phổ biến hơn nhờ sự phát triển của AI, tự động hóa và nhu cầu tích hợp dữ liệu thời gian thực, giảm sự phụ thuộc vào lập trình viên. Cụ thể, data fabric là một kiến trúc dữ liệu hiện đại, được thiết kế để giải quyết các thách thức của việc quản lý dữ liệu trong môi trường phân tán, nơi dữ liệu được lưu trữ trên nhiều hệ thống (như data warehouse, data lake, cơ sở dữ liệu, ứng dụng đám mây).
So với data lakehouse (kết hợp data warehouse và data lake), data fabric tiến xa hơn bằng cách tích hợp dữ liệu từ cả ứng dụng và các hệ thống khác, đồng thời cung cấp các dịch vụ như giám sát, kiểm soát, và tối ưu hóa dữ liệu.
“Tôi đã trao đổi với nhiều CEO và lãnh đạo các tập đoàn, họ thường không biết rõ dữ liệu của mình đang ở đâu”, ông Hiền chia sẻ. Theo ông, dữ liệu là tài sản quý giá, nhưng nếu không được quản trị và khai thác đúng cách, nó sẽ trở thành vô nghĩa.
Để tiến tới AI, dữ liệu phải được kết nối chặt chẽ, bao gồm cả dữ liệu nội bộ, dữ liệu bên ngoài, dữ liệu có cấu trúc và không cấu trúc. Do đó, các tổ chức cần xây dựng một nền tảng dữ liệu vững chắc, nơi mọi thông tin được hợp nhất và sẵn sàng để AI xử lý.
Theo ông Hiền, mô hình data fabric chính là câu trả lời cho bài toán “mất dấu dữ liệu” của nhiều doanh nghiệp. Mô hình này cho phép các tổ chức kiểm soát tốt hơn, biết dữ liệu đang ở đâu, phục vụ mục đích gì, ai có quyền truy cập, từ đó hỗ trợ ra quyết định một cách nhanh chóng và chính xác.
“Trong tương lai gần, khi AI trở thành công cụ hỗ trợ ra quyết định chủ đạo, doanh nghiệp không thể tiếp tục “mù mờ” về dữ liệu. Họ cần biết dữ liệu mình đang có gì, đang ở đâu, chất lượng ra sao, có đang được cập nhật và khai thác đúng cách hay không”, ông Hiền nói.