Từ mô hình ngôn ngữ lớn sang nhỏ

Các mô hình trí tuệ nhân tạo (AI) dường như đang gặp phải rào cản ngăn không cho chúng đạt được những đột phá như kỳ vọng; chẳng hạn chatbot mới nhất của OpenAI - GPT 5 gây thất vọng đến nỗi người dùng đòi OpenAI phải mở lại chatbot cũ - GPT 4. Chúng là các mô hình ngôn ngữ lớn (LLM) - với tham vọng giải quyết hết mọi chuyện trên đời.

Chỉ sau vài cú nhấp chuột, ứng dụng ChatGPT có thể tạo ra nội dung tổng hợp, cũng như trả lời các câu hỏi hay yêu cầu đặt ra. Ảnh: Shutterstock

Chỉ sau vài cú nhấp chuột, ứng dụng ChatGPT có thể tạo ra nội dung tổng hợp, cũng như trả lời các câu hỏi hay yêu cầu đặt ra. Ảnh: Shutterstock

Nay các mô hình ngôn ngữ nhỏ (SLM) - xây dựng để đáp ứng các nhu cầu chuyên biệt có triển vọng phát triển nhanh hơn, thâm nhập doanh nghiệp sâu rộng hơn. Chi phí xây dựng, huấn luyện các SLM rẻ hơn nhiều, làm các doanh nghiệp muốn đầu tư vào AI xem chúng là chọn lựa tốt nhất. David Cox, trưởng bộ phận nghiên cứu các mô hình AI tại hãng IBM, nhận định: “Con chatbot chuyên về nhân lực ở công ty bạn đâu cần biết về vật lý cao cấp”.

Ngoài việc nhỏ gọn nên có thể chạy trên hệ thống công nghệ thông tin (IT) nội bộ cũng như qua một nhà cung cấp dịch vụ đám mây, SLM có triển vọng phát triển mạnh như tác nhân AI chuyên làm các tác vụ cụ thể tại doanh nghiệp như một nhân viên bình thường. Nó còn thích hợp cho các thiết bị nhỏ như điện thoại thông minh, xe tự lái, robot… Biết đâu một thời gian nữa mọi người lại khen Apple sáng suốt khi không theo trào lưu đầu tư tốn kém vào các LLM mà chờ sự ra đời của các SLM phù hợp.

Không có một định nghĩa cụ thể nào để phân biệt mô hình lớn và mô hình nhỏ. Sự khác nhau hiện nay nằm ở lượng tham số dùng để huấn luyện chúng - mô hình lớn sử dụng hàng trăm tỉ tham số trong khi mô hình nhỏ chỉ dùng chừng 40 tỉ tham số hay ít hơn, thậm chí còn nhỏ hơn 1 tỉ tham số ở những mô hình tý hon. Cái hay nằm ở chỗ người ta dùng LLM để huấn luyện các SLM nên chúng tiến bộ rất nhanh thay vì phải quét toàn bộ Internet để học như trước.

Lỗi ảo giác (hallucination) của các mô hình ngôn ngữ lớn làm doanh nghiệp e dè khi ứng dụng vào hoạt động chính thức. Vì thế xu hướng đầu tư của các doanh nghiệp lớn là thuê hay tự phát triển các mô hình ngôn ngữ nhỏ, chỉ dùng dữ liệu nội bộ, được tinh chỉnh để loại trừ việc nói sai hay bịa chuyện. Một lý do nữa là kinh phí; các công ty giờ không chạy theo trào lưu ứng dụng AI bằng mọi giá mà cân nhắc lợi ích trên chi phí đầu tư. Ở khía cạnh này, các SLM tỏ ra hơn hẳn khi chi phí xây dựng, huấn luyện thấp hơn nhiều lần.

Để minh họa, David Cox đưa ra một sản phẩm AI do IBM phát triển, mang tên Docling, có chức năng chuyển các mẫu giấy ở dạng PDF như biên lai thành dữ liệu lưu trữ được. Docling chạy trên một mô hình tý hon, chỉ 250 triệu tham số nên rất hữu ích vì chi phí không đáng kể, lại chạy trên các loại chip bình thường. Các SLM nhỏ nhất có thể dùng chip CPU thay vì cần có chip đồ họa đắt tiền như các LLM.

Một xu hướng đáng chú ý khác là chính phủ các nước, không muốn phụ thuộc vào một số hãng AI tư nhân lớn như OpenAI đã bắt đầu xây dựng các mô hình AI của riêng mình. Hãng Humain với sự hỗ trợ của Saudi Arabia đã giới thiệu một chatbot chuyên dùng tiếng Arabic biết tôn trọng các giá trị văn hóa Trung Đông.

Apertus, một chatbot do Chính phủ Thụy Sỹ và hai trường đại học phát triển cũng chú trọng vào ngôn ngữ và văn hóa bản địa. Nhưng khác với mô hình của Humain, Apertus dù từ tiền Nhà nước lại là mô hình mở, người dùng được miễn phí, huấn luyện trên dữ liệu có sẵn chứ không dùng dữ liệu có bản quyền. Truy cập Apertus tại địa chỉ publicai.co, người dùng còn có thể xài thử mô hình AI của Chính phủ Singapore xây dựng, nói tiếng Anh theo kiểu người Singapore.

Joshua Tan, người xây dựng cổng publicai.co cho rằng AI sẽ cũng như các tiện ích công cộng khác - điện nước, cao tốc, cầu cống. Cơ sở hạ tầng công đòi hỏi đầu tư tốn kém, không thể hoàn toàn phó mặc cho thị trường.

Hơn nữa Tan cho rằng vì AI có thể ứng dụng vào rất nhiều lĩnh vực, có thể ra quy định hạn chế việc sử dụng sai mục đích nhưng thật khó lòng buộc các công ty tư nhân xây dựng các mô hình chịu tuân thủ văn hóa bản địa. Ưu tiên thương mại của các mô hình AI tư nhân cũng khó lòng trùng khớp ưu tiên của các chính phủ nên chỉ có mô hình AI công mới có thể hướng đến các chính sách xã hội, cải thiện sức khỏe công hay cung cấp các dịch vụ công cho người dân.

Nguyễn Vũ

Nguồn Saigon Times: https://thesaigontimes.vn/tu-mo-hinh-ngon-ngu-lon-sang-nho/