Cách người Trung Quốc tạo video AI đối chọi Mỹ
Nếu như đầu năm 2024, thế giới công nghệ nín thở chờ đợi cú đột phá Sora, thì đến cuối năm, sự kiên nhẫn ấy dành cho mô hình tạo video AI ấy đã cạn kiệt.
OpenAI vẫn giữ kín quân bài tẩy của mình sau những cánh cửa đóng kín của phòng thí nghiệm Red Teaming (kiểm tra an toàn). Và chính trong khoảng không quyền lực đó, một cơn địa chấn đã xảy ra, nhưng không xuất phát từ Thung lũng Silicon.
Tháng 6.2024, cộng đồng sáng tạo nội dung toàn cầu xôn xao vì những đoạn video AI có độ chân thực đến rợn người: một người đàn ông Trung Quốc ăn bát mì với sợi mì đàn hồi vật lý hoàn hảo, một đoàn tàu chạy qua thảo nguyên với khói bụi cuộn trào đúng hướng gió. Đó không phải là Sora, cũng không phải là Runway Gen-3 của Mỹ. Đó là Kling AI, một cái tên hoàn toàn xa lạ đến từ Trung Quốc.
Tiếp theo sau đó là sự đổ bộ dồn dập của Hailuo (MiniMax) và Vidu. Từ vị thế kẻ bám đuổi bị coi thường, Trung Quốc đã thực hiện một cú "lật kèo" ngoạn mục về mặt sản phẩm thương mại. Đâu là cách người Trung Quốc dùng chiến thuật "tốc độ lang chiến" để buộc người dùng Mỹ phải cài đặt ứng dụng của họ và tại sao trong kỷ nguyên AI, "nhanh" đôi khi quan trọng hơn "hoàn hảo".
Sự trỗi dậy của "Tứ đại thiên vương" mới: Khi hàng "Made in China" chiếm sóng Twitter
Mùa hè 2024 chứng kiến một hiện tượng lạ lùng: Trên mạng xã hội X (Twitter) vốn là sân nhà của giới công nghệ phương Tây, các từ khóa hot nhất về AI Video không còn là Runway hay Pika, mà là Kling, Vidu và Hailuo. Giới phân tích gọi đây là sự xuất hiện của "Tứ đại thiên vương" AI Video Trung Quốc (bao gồm Kuaishou, ShengShu, MiniMax và ByteDance).
Kẻ mở màn cho cuộc lật đổ này là Kling AI của Kuaishou (đối thủ truyền kiếp của TikTok tại Trung Quốc). Khi Kling ra mắt bản Beta quốc tế, nó lập tức được mệnh danh là "Sora Killer" (Sát thủ Sora). Tại sao? Bởi vì Kling làm được những điều mà các đối thủ Mỹ đang chật vật: tạo ra video dài tới 2 phút (so với 10-20 giây của đối thủ) với độ phân giải 1080p và tốc độ khung hình 30fps mượt mà.
Nhưng điều khiến giới chuyên môn kinh ngạc nhất là khả năng mô phỏng con người của Kling. Trong các video demo, nhân vật do Kling tạo ra có cử động cơ mặt, ánh mắt và chuyển động tay chân tự nhiên đến mức khó phân biệt thật giả. Nếu các mô hình Mỹ thường thiên về tính nghệ thuật, trừu tượng (artistic/abstract) và hay gặp lỗi "hallucination" (ảo giác - ví dụ: người mọc thêm ngón tay), thì mô hình Trung Quốc lại cực kỳ thực tế (realistic).
Tiếp bước Kling là Hailuo (Video-01) của MiniMax – một "kỳ lân" công nghệ mới nổi. Hailuo gây ấn tượng mạnh bởi khả năng "hiểu lệnh" (instruction following). Nếu bạn yêu cầu nhân vật "vừa khóc vừa cười dưới mưa, tay cầm chiếc ô màu đỏ bị gió thổi ngược", Hailuo sẽ thực hiện chính xác từng chi tiết, trong khi các mô hình khác thường bỏ qua các chi tiết phức tạp.
Và cuối cùng là Vidu của ShengShu Technology – một spin-off từ Đại học Thanh Hoa. Vidu đại diện cho sức mạnh học thuật, là mô hình đầu tiên công khai sử dụng kiến trúc U-ViT (kết hợp U-Net và Vision Transformer), cho phép tạo ra các cảnh quay có tính nhất quán vật lý (temporal consistency) cao nhất, giải quyết bài toán camera xoay vòng mà không làm biến dạng vật thể.
Thực tế hiện nay rất trớ trêu: Nhiều nhà làm phim tự do tại Los Angeles đang hủy gói đăng ký Runway của Mỹ để chuyển sang nạp tiền (credits) cho Kling của Trung Quốc, đơn giản vì nó... hoạt động tốt hơn và có sẵn ngay lập tức.
Giải mã sự thành công của Trung Quốc
Tại sao Trung Quốc lại có thể bắt kịp và vượt lên nhanh đến thế, dù xuất phát sau và bị cấm vận chip? Câu trả lời nằm ở sự khác biệt cốt lõi về triết lý phát triển sản phẩm giữa hai nền công nghệ.
Thung lũng Silicon, đặc biệt là OpenAI và Google, đang bị mắc kẹt trong cái bẫy của sự thận trọng và cầu toàn. Bị ám ảnh bởi các vấn đề an toàn AI (AI Safety), bản quyền và rủi ro chính trị (Deepfake tác động bầu cử), các công ty Mỹ chọn cách "đóng cửa bảo nhau". Họ dành hàng tháng trời để Red Teaming, tinh chỉnh mô hình cho đến khi nó "an toàn tuyệt đối" mới dám tung ra (hoặc chỉ tung ra cho một nhóm nhỏ nghệ sĩ được chọn lọc).
Ngược lại, các công ty Trung Quốc áp dụng triết lý của Internet di động: "Shipping" (Phát hành) là ưu tiên số 1. Tư duy của họ là: Sản phẩm chưa hoàn hảo cũng không sao, cứ tung ra thị trường (dưới dạng Beta hoặc Waitlist), thu thập dữ liệu phản hồi của người dùng để cải thiện.
Đây là chiến thuật "Lang chiến" (Wolf Warrior) nổi tiếng: Tấn công nhanh, chiếm lĩnh thị phần, và dùng chính dữ liệu người dùng làm nhiên liệu để nuôi AI lớn nhanh hơn đối thủ. Khi hàng triệu người dùng toàn cầu gõ prompt vào Kling hay Hailuo, họ đang miễn phí dạy cho AI Trung Quốc biết con người muốn xem gì, sửa lỗi gì.
Chu trình RLHF (Reinforcement Learning from Human Feedback - Học tăng cường từ phản hồi con người) của Trung Quốc đang quay với tốc độ chóng mặt. Mỗi ngày trôi qua, khoảng cách về chất lượng giữa mô hình Trung và Mỹ lại được thu hẹp. Sự thực dụng của người Trung Quốc đã đánh bại sự cầu toàn của người Mỹ trong giai đoạn thương mại hóa đầu tiên này.
Vũ khí bí mật: Mỏ vàng dữ liệu TikTok và Nghệ thuật tối ưu phần cứng
Một câu hỏi lớn vẫn còn bỏ ngỏ: Làm thế nào Trung Quốc huấn luyện được các mô hình khổng lồ này khi thiếu vắng chip NVIDIA H100? Câu trả lời nằm ở hai yếu tố: Dữ liệu độc quyền và Kỹ thuật tối ưu hóa.
Về dữ liệu, Trung Quốc đang ngồi trên "mỏ dầu" của kỷ nguyên video: Kuaishou và Douyin (TikTok). Khác với Mỹ, nơi nguồn dữ liệu video chủ yếu là YouTube (video dài, ngang, thiên về nội dung có kịch bản), Trung Quốc sở hữu hàng tỷ video ngắn (short-form), quay dọc, ghi lại những khoảnh khắc đời thường chân thực nhất. Loại dữ liệu này cực kỳ quý giá để dạy cho AI hiểu về vật lý chuyển động của con người và thế giới thực. Kuaishou không cần đi cào dữ liệu ở đâu xa, họ dùng chính kho dữ liệu 10 năm của mình để huấn luyện Kling. Đây là lợi thế cạnh tranh "bất khả xâm phạm" mà OpenAI hay Runway không thể có được.
Về phần cứng, cái khó ló cái khôn. Không có đủ chip H100, các kỹ sư Trung Quốc buộc phải trở thành những bậc thầy về tối ưu hóa thuật toán. Họ phát triển các kỹ thuật huấn luyện phân tán (distributed training) cho phép mô hình chạy trên sự kết hợp của nhiều loại chip khác nhau: từ chip Huawei Ascend 910B nội địa đến các dòng chip cũ của Nvidia (A100, A800) và thậm chí là chip game (RTX 4090).
Kai-Fu Lee (Lý Khai Phục), một chuyên gia AI hàng đầu, từng nhận định: "Nếu người Mỹ giỏi tạo ra những đột phá từ con số 0 đến 1, thì người Trung Quốc là vô đối trong việc tối ưu hóa từ 1 đến 100". Các mô hình Trung Quốc hiện nay có kiến trúc gọn nhẹ hơn, tốn ít tài nguyên tính toán hơn (Inference cost thấp hơn) so với các mô hình Mỹ, cho phép họ cung cấp dịch vụ miễn phí hoặc giá rẻ để hút người dùng – một đòn đánh kinh tế chí mạng.
Phản đòn từ phương Tây
Tất nhiên, Mỹ không ngồi yên để nhìn đối thủ chiếm lĩnh sân chơi. Tháng 7.2024, Runway tung ra Gen-3 Alpha, và Luma Labs ra mắt Dream Machine. Đây là những lời đáp trả đanh thép.
Gen-3 Alpha của Runway được đánh giá là vượt trội về khả năng kiểm soát nghệ thuật (art directability). Nó cung cấp các công cụ chuyên sâu cho giới làm phim chuyên nghiệp như Motion Brush (cọ chuyển động), Camera Control (kiểm soát góc máy). Nếu Kling là chiếc máy ảnh kỹ thuật số "point-and-shoot" (ngắm và chụp) dành cho đại chúng, thì Runway định vị mình là chiếc máy quay điện ảnh ARRI dành cho Hollywood.
Cuộc chiến lúc này chuyển sang khía cạnh "Linh hồn" của sản phẩm. Mô hình Mỹ (Runway, Luma, Sora) mang đậm tư duy tự do, phóng khoáng phương Tây. Chúng cho phép sáng tạo những hình ảnh siêu thực, đôi khi điên rồ và mang tính chính trị. Ngược lại, mô hình Trung Quốc (Kling, Vidu) dù mạnh mẽ nhưng bị trói buộc bởi "Vòng kim cô" kiểm duyệt. Các từ khóa nhạy cảm về chính trị, lịch sử hay thậm chí là hình ảnh gợi cảm đều bị chặn (filter) rất gắt gao.
Điều này tạo ra một sự phân chia thú vị trên thị trường quốc tế: Một bên là người dùng phổ thông và doanh nghiệp e-commerce (thương mại điện tử) chọn Trung Quốc vì tính chân thực, dễ dùng và giá rẻ. Và một bên là nghệ sĩ, nhà làm phim và các nhà hoạt động xã hội chọn Mỹ vì sự tự do sáng tạo và các công cụ kiểm soát chuyên sâu.
Tỉ số cân bằng tạm thời: Sự mong manh trước cơn bão lớn
Tam thời, tỉ số của cuộc chiến AI Video có thể coi là 1-1. Mỹ vẫn nắm giữ công nghệ lõi (Core Tech) và kiến trúc nền tảng (DiT). Họ vẫn là nơi sản sinh ra những ý tưởng đột phá nhất. Nhưng Trung Quốc đã thắng ở hiệp đấu thương mại hóa (Productization). Họ đã chứng minh rằng công nghệ tốt nhất không phải là công nghệ nằm trong phòng thí nghiệm, mà là công nghệ nằm trong tay người dùng.
Tuy nhiên, đây chỉ là sự bình yên trước cơn bão. Cả hai bên đều biết rằng việc tạo ra những đoạn clip 10 giây hay 2 phút chỉ là màn dạo đầu. "Chén thánh" thực sự không nằm ở việc làm video giải trí, mà nằm ở việc thay đổi hoàn toàn cách con người sản xuất nội dung, và xa hơn là mô phỏng toàn bộ thế giới thực để tiến tới AGI.
Khi cuộc đua quy mô (Scaling Laws) tiếp tục leo thang, những hạn chế về chip của Trung Quốc sẽ ngày càng lộ rõ. Liệu "mẹo" tối ưu phần mềm có mãi bù đắp được sự thiếu hụt sức mạnh phần cứng? Và khi Sora phiên bản thương mại chính thức ra mắt, liệu nó có đủ sức thổi bay mọi nỗ lực của Kling hay Vidu?
Hơn thế nữa, cuộc chiến này sắp sửa bước vào một giai đoạn mới, tàn khốc hơn và mang tính vĩ mô hơn: Không còn là cuộc đấu giữa các startup, mà là sự tham gia trực tiếp của các để chế truyền thông và chính phủ. Hollywood sẽ đứng về phe nào? Và dòng chảy của hàng tỷ con chip AI sẽ định đoạt tương lai của ngành giải trí toàn cầu ra sao?
































