Elon Musk: AI đã cạn dữ liệu
Musk cho rằng ngành AI đã đạt đến điểm giới hạn vào năm 2024, dùng hết dữ liệu để huấn luyện mô hình.
Hiện là chủ sở hữu xAI, tỷ phú Elon Musk đồng tình với quan điểm của nhiều chuyên gia rằng nguồn dữ liệu thực tế để huấn luyện các mô hình AI đã cạn kiệt.
Trong một cuộc trò chuyện được phát trực tiếp trên X vào 8/1, Musk nói: “Chúng ta đã sử dụng hết toàn bộ lượng kiến thức tích lũy của con người trong quá trình huấn luyện AI. Điều đó thực sự xảy ra vào năm ngoái”.
Theo Indiatimes, các mô hình LLM được huấn luyện trên một lượng lớn dữ liệu từ Internet và các nguồn khác. Nhưng khi toàn bộ dữ liệu có sẵn đã được khai thác, câu hỏi đặt ra là ngành AI sẽ đi về đâu? Musk cho rằng ngành công nghiệp đã đạt đến điểm giới hạn này vào năm 2024.
Trên thực tế, nhận định này không phải là mới. Trước đó, Ilya Sutskever, cựu trưởng nhóm khoa học của OpenAI, cũng đã nhắc đến khái niệm “đỉnh dữ liệu” tại hội nghị NeurIPS vào tháng 12 vừa qua. Theo Sutskever, ngành công nghiệp AI đang bước vào giai đoạn khan hiếm dữ liệu. Điều này buộc các nhà phát triển phải thay đổi cách tiếp cận khi xây dựng các mô hình AI.
Musk cho rằng dữ liệu tổng hợp (synthetic data) - loại dữ liệu do chính AI tạo ra - sẽ là giải pháp khả thi trong tương lai. “Cách duy nhất để bổ sung [dữ liệu thực tế] là thông qua dữ liệu tổng hợp, nơi AI tự tạo ra dữ liệu huấn luyện. Với dữ liệu tổng hợp, AI sẽ tự đánh giá, tự học hỏi và phát triển qua chính dữ liệu của mình”, Musk chia sẻ.
Theo TechCrunch, dữ liệu tổng hợp đã và đang được nhiều công ty công nghệ hàng đầu như Microsoft, Meta, OpenAI và Anthropic dùng để huấn luyện các mô hình AI hàng đầu của mình. Ước tính của Gartner cho thấy 60% dữ liệu được sử dụng trong các dự án AI và phân tích vào năm 2024 là dữ liệu tổng hợp.
Đơn cử như Microsoft đã kết hợp dữ liệu tổng hợp với dữ liệu thực tế để huấn luyện mô hình Phi-4 của mình, được công bố dưới dạng mã nguồn mở vào đầu tuần. Tương tự, các mô hình Gemma của Google và Claude 3.5 Sonnet của Anthropic cũng sử dụng dữ liệu tổng hợp trong quá trình phát triển. Meta đã tinh chỉnh dòng mô hình Llama mới nhất bằng cách sử dụng dữ liệu do AI tạo ra.
Trong khi đó, startup AI Writer khẳng định mô hình Palmyra X 004 của họ được phát triển gần như hoàn toàn từ dữ liệu tổng hợp và chỉ tốn khoảng 700.000 USD. Còn chi phí ước tính để phát triển một mô hình có kích thước tương đương của OpenAI lên đến 4,6 triệu USD.
Tuy nhiên, việc sử dụng dữ liệu tổng hợp cũng có rủi ro. Một số nghiên cứu chỉ ra rằng dữ liệu tổng hợp có thể dẫn đến hiện tượng “sụp đổ mô hình” (model collapse), nghĩa là khi mô hình AI trở nên kém sáng tạo hơn và có xu hướng thiên lệch trong đầu ra. Nguyên nhân là nếu dữ liệu tổng hợp chứa đựng những thiên kiến và hạn chế từ chính mô hình tạo ra nó, các kết quả được tạo ra cũng sẽ bị ảnh hưởng như vậy.