45% code do AI tạo ra chứa lỗ hổng bảo mật nghiêm trọng
Nghiên cứu mới từ Veracode tiết lộ sự thật đáng báo động: 45% code do AI tạo ra chứa lỗ hổng bảo mật nghiêm trọng.
Trong khi các lập trình viên (developer) trên khắp thế giới đang dần phụ thuộc vào AI để viết code nhanh hơn, một nghiên cứu mới từ Veracode đã vén màn một sự thật đáng lo ngại: gần một nửa code do AI tạo ra thực chất chứa đựng những lỗ hổng bảo mật nghiêm trọng. Đây không chỉ là vấn đề kỹ thuật đơn thuần, mà là một cuộc khủng hoảng bảo mật tiềm ẩn có thể định hình lại toàn bộ ngành công nghệ.
Con số đáng báo động: 45% code AI chứa lỗ hổng
Nghiên cứu quy mô lớn của Veracode, phân tích hơn 100 mô hình ngôn ngữ lớn (LLM) qua 80 nhiệm vụ lập trình khác nhau, đã đưa ra một kết luận gây sốc: 45% code do AI tạo ra chứa các lỗ hổng bảo mật, mặc dù chúng có vẻ hoàn toàn sẵn sàng để triển khai thực tế.
Điều đáng lo ngại là nghiên cứu không tìm thấy bất kỳ cải thiện nào về bảo mật trong các mô hình mới hơn hoặc lớn hơn. Điều này có nghĩa là ngay cả khi AI ngày càng thông minh trong việc viết code, chúng vẫn không học được cách viết code an toàn.
Trong số các ngôn ngữ lập trình được khảo sát, Java nổi lên như ngôn ngữ có vấn đề nghiêm trọng nhất với tỷ lệ lỗi bảo mật lên tới 70% - điều đáng lo ngại khi Java là xương sống của hàng triệu ứng dụng doanh nghiệp trên toàn thế giới.

Các ngôn ngữ khác cũng không khá hơn nhiều: Python: 38 - 45% tỷ lệ lỗi; C#: 38 - 45% tỷ lệ lỗi; JavaScript: 38 - 45% tỷ lệ lỗi... Con số này trở nên "đáng sợ" hơn khi biết rằng theo ước tính, một phần ba code mới của Google và Microsoft hiện tại có thể được tạo ra bởi AI.
"Vibe Coding" - Hiện tượng nguy hiểm của thời đại AI
Jens Wessling, CTO của Veracode, đã đặt tên cho hiện tượng này là "vibe coding" - thuật ngữ mô tả việc các developer dựa vào AI để tạo code mà không định nghĩa rõ ràng các yêu cầu bảo mật.
Wessling giải thích: "Sự trỗi dậy của vibe coding, nơi các developer dựa vào AI để tạo code mà thường không định nghĩa rõ ràng các yêu cầu bảo mật, đại diện cho một sự thay đổi cơ bản trong cách phần mềm được xây dựng".
Nghiên cứu cho thấy các mô hình LLM thường chọn các phương pháp coding không an toàn trong 45% trường hợp, đặc biệt là Cross-site scripting (XSS): Thất bại trong việc phòng chống ở mức 86%. Còn Log injection thất bại ở mức 88%
Đây là những lỗ hổng cơ bản nhưng nguy hiểm, có thể được khai thác để đánh cắp dữ liệu người dùng, chiếm quyền điều khiển hệ thống, hoặc thực hiện các cuộc tấn công quy mô lớn.
Nghịch lý của tiến bộ: Càng thông minh, càng không an toàn
Một phát hiện đáng chú ý từ nghiên cứu là các mô hình AI ngày càng giỏi trong việc viết code chính xác về mặt chức năng, nhưng không cải thiện gì về mặt bảo mật. Wessling nhấn mạnh: "Nghiên cứu của chúng tôi cho thấy các mô hình đang trở nên tốt hơn trong việc coding chính xác nhưng không cải thiện về bảo mật".
Điều này tạo ra một nghịch lý nguy hiểm: AI càng thông minh trong việc tạo ra code hoạt động tốt, developer càng tin tưởng và ít kiểm tra bảo mật, dẫn đến việc vô tình tạo ra nhiều lỗ hổng hơn.
Tình hình trở nên nghiêm trọng hơn khi xem xét bối cảnh tổng thể của thời đại AI. Không chỉ AI đang tạo ra các lỗ hổng bảo mật, mà chính AI cũng đang giúp các hacker khai thác chúng nhanh hơn và ở quy mô lớn hơn.
Điều này tạo ra một "vòng luẩn quẩn nguy hiểm": AI tạo ra code có lỗ hổng rồi AI giúp hacker tìm và khai thác lỗ hổng nhanh hơn. Tiếp đó, khối lượng code được tạo ra ngày càng lớn, số lỗ hổng tăng theo cấp số nhân. Điều đó dẫn đến tốc độ phát hiện và vá lỗi không kịp với tốc độ tạo ra lỗ hổng mới. Cuối cùng tạo ra tác động toàn cầu khi "nợ bảo mật" tích tụ.
Ảnh hưởng ra sao?
Đối với doanh nghiệp
Rủi ro pháp lý: Với các quy định như GDPR, CCPA ngày càng nghiêm ngặt, việc để lộ dữ liệu khách hàng do lỗ hổng bảo mật có thể dẫn đến các khoản phạt khổng lồ.
Tổn thất tài chính: Chi phí khắc phục sau vi phạm bảo mật thường cao gấp 10 - 100 lần so với chi phí phòng ngừa ban đầu.
Uy tín thương hiệu: Một lần vi phạm bảo mật nghiêm trọng có thể phá hủy danh tiếng được xây dựng trong nhiều thập kỷ.
Đối với người dùng cuối
Rò rỉ dữ liệu cá nhân: Thông tin tài chính, y tế, địa chỉ, thói quen sử dụng có thể bị đánh cắp và lạm dụng.
Tấn công định hướng: Dữ liệu bị rò rỉ có thể được sử dụng cho các cuộc tấn công phishing, lừa đảo tinh vi hơn.
Mất quyền riêng tư: Trong thời đại mà dữ liệu là "dầu mỏ mới", việc mất kiểm soát thông tin cá nhân có hậu quả khôn lường.
Tương lai cuộc đua giữa AI tấn công và AI phòng thủ
Chúng ta đang bước vào một thời đại mới - thời đại của cyber warfare (chiến tranh mạng) được hỗ trợ bởi AI. Trong cuộc đua này, phe nào có AI mạnh hơn, thông minh hơn sẽ giành được lợi thế.
Trong kịch bản tích cực, AI phòng thủ phát triển nhanh hơn, có khả năng phát hiện và vá lỗ hổng real-time, tạo ra một internet an toàn hơn.
Còn kịch bản tiêu cực, AI tấn công vượt trội, tạo ra các cuộc tấn công tự động, quy mô lớn, khó phát hiện, biến internet thành "vùng đất hoang" cyber.
Như Jens Wessling cảnh báo: "Trợ lý AI viết code và quy trình làm việc do AI chủ động đang định hình tương lai lập trình. Nhưng nếu không đặt vấn đề bảo mật lên hàng đầu, chúng ta sẽ phải trả giá bằng những lỗ hổng khó khắc phục".
Thời điểm hành động là ngay bây giờ. Mỗi ngày trì hoãn là một ngày để "nợ bảo mật" tích tụ thêm. Mỗi dòng code không an toàn được triển khai hôm nay có thể trở thành lỗ hổng bị khai thác vào ngày mai.
Cuộc cách mạng AI trong lập trình là không thể đảo ngược, nhưng chúng ta vẫn có thể định hình nó theo hướng tích cực. Điều quan trọng là phải cân bằng giữa tốc độ phát triển và bảo mật, giữa sự tiện lợi và trách nhiệm.
Giải pháp cấp thiết: Xây dựng "tường lửa bảo mật" cho AI
Cho các developer và tổ chức
1. Tích hợp kiểm tra bảo mật tự động
Triển khai các công cụ security scanning trong quy trình CI/CD
Sử dụng static application security testing (SAST) và dynamic application security testing (DAST)
Thiết lập security gates không cho phép code có lỗ hổng nghiêm trọng được triển khai
2. Đào tạo và nâng cao nhận thức
Tổ chức training định kỳ về secure coding practices
Xây dựng secure coding guidelines cụ thể cho từng ngôn ngữ
Tạo culture "security-first" thay vì "security as afterthought"
3. Triển khai AI remediation guidance
Sử dụng các công cụ AI để đề xuất cách khắc phục lỗ hổng
Tích hợp security co-pilot để review code real-time
Xây dựng knowledge base về các pattern bảo mật
4. Thiết lập defense in depth
Triển khai Web Application Firewall (WAF)
Sử dụng runtime application self-protection (RASP)
Thực hiện regular penetration testing
Cho cộng đồng AI và BigTech
1. Cải thiện training data
Bổ sung các ví dụ về secure coding vào training dataset
Gắn nhãn rõ ràng code nào an toàn, code nào có lỗ hổng
Tạo reward system ưu tiên bảo mật trong quá trình training
2. Phát triển security-aware AI models
Research các kiến trúc mới có khả năng reasoning về bảo mật
Tích hợp security knowledge graph vào LLM
Phát triển specialized security co-pilots
3. Transparency và accountability
Public security benchmarks cho các AI coding models
Cung cấp confidence scores cho code được generate
Xây dựng liability framework rõ ràng
(theo TechRadar Pro)