Cách AI được huấn luyện để 'làm luật'

Estonia áp dụng cách tiếp cận bài bản để phát triển các hệ thống AI chuyên biệt cho lĩnh vực lập pháp, kết hợp giữa dữ liệu mở, chuyên gia pháp lý và công nghệ machine learning (học máy); dưới đây là quy trình cụ thể:

Bước 1: Xây dựng nền tảng dữ liệu - cơ sở của quá trình huấn luyện

Để huấn luyện một hệ thống AI phục vụ cho công việc phức tạp và nghiêm túc như lập pháp, dữ liệu chính là yếu tố quan trọng bậc nhất. Estonia hiểu điều đó từ sớm, và họ đã xây dựng một nền tảng dữ liệu có chiều sâu, đa dạng và được tổ chức cực kỳ khoa học để phục vụ cho quá trình huấn luyện các mô hình AI như HANS và Tark. Dưới đây là bức tranh chi tiết về nền tảng dữ liệu làm “chất liệu” cho quá trình huấn luyện AI trong lập pháp tại Estonia.

Dữ liệu âm thanh và bản ghi chính thức

HANS (hệ thống AI nhận diện giọng nói) được huấn luyện chủ yếu bằng hệ thống dữ liệu sau đây: hơn 1.600 giờ ghi âm các phiên họp của Quốc hội, bao gồm các cuộc tranh luận ở phiên toàn thể, chất vấn, phát biểu…; dữ liệu giọng nói của nghị sĩ: mỗi nghị sĩ sẽ có một “hồ sơ âm thanh” dài từ 1 - 3 phút dùng để tạo mẫu nhận diện cá nhân. Tất cả đều là dạng dữ liệu có cấu trúc (structured) và được làm “sạch”, gắn nhãn rõ ràng, giúp AI học chính xác hơn và nhanh hơn.

Kho văn bản lập pháp

Đối với Tark (Hệ thống tìm kiếm văn bản), dữ liệu để đào tạo AI chủ yếu là: toàn bộ hệ thống pháp luật Estonia từ 1991 đến nay (đã số hóa 100%): bao gồm luật hiện hành, luật sửa đổi, nghị quyết, quy định dưới luật…; dự thảo luật và tài liệu giải trình: bao gồm bản nháp, phần chú thích, tác động dự kiến, các góp ý xã hội; tài liệu từ EU (các chỉ thị, nghị quyết): để hệ thống hiểu và phân tích sự tương thích của luật quốc gia với luật EU; biên bản các cuộc thảo luận ủy ban chuyên môn; tài liệu nội bộ và phản hồi từ các cơ quan hành pháp, tư pháp, các bản án, phán quyết của tòa án liên quan…

 Nguồn: ITN

Nguồn: ITN

Tất cả dữ liệu này được chuẩn hóa theo định dạng XML/JSON để AI dễ xử lý, được hệ thống hóa và tích hợp vào một kho dữ liệu tập trung (legal corpus), sau đó dùng các mô hình xử lý ngôn ngữ tự nhiên (NLP) để AI hiểu ngữ nghĩa và liên kết giữa các văn bản. Dữ liệu cũng được gắn metadata (ví dụ: lĩnh vực, ngày ban hành, phiên bản sửa đổi).

Dữ liệu ngôn ngữ tự nhiên và văn phong lập pháp

AI không chỉ cần hiểu văn bản pháp lý, mà còn phải “nắm” được cách diễn đạt của giới lập pháp - vốn giàu tính hình thức, chuẩn mực và đôi khi có cấu trúc đặc thù. Vì thế, dữ liệu còn bao gồm: kho từ điển pháp lý và chú giải để giúp AI phân biệt từ ngữ thông dụng và thuật ngữ chuyên ngành; các mẫu văn bản luật mẫu để huấn luyện AI tự gợi ý cấu trúc và viết lại điều khoản một cách đúng chuẩn; các tài liệu diễn văn và phát biểu chính trị giúp AI hiểu được phong cách ngôn ngữ trong môi trường nghị viện.

Dữ liệu phản hồi và hiệu chỉnh của con người

Một phần rất quan trọng của quá trình huấn luyện là dữ liệu hiệu chỉnh: sau mỗi lần HANS tạo bản ghi, con người sẽ rà soát và chỉnh sửa; các phiên bản trước - sau được lưu lại để AI “học từ sai sót” và điều chỉnh.

Tương tự với Tark, người dùng có thể đánh giá mức độ chính xác của kết quả tìm kiếm - AI sẽ sử dụng dữ liệu phản hồi này để tối ưu thuật toán tìm kiếm và sắp xếp.

Đây là giai đoạn học tăng cường từ con người (human-in-the-loop) - tạo ra chu kỳ huấn luyện liên tục và ngày càng tinh vi hơn.

Bước 2: Xây dựng mô hình ngôn ngữ pháp lý (Legal NLP)

Các bên phát triển sử dụng BERT-based models để huấn luyện cho AI. Đầu tiên là Pre-train (tiền đào tạo) trên kho luật Estonia để AI hiểu thuật ngữ pháp lý.

Tiếp đó là Fine-tuning (tinh chỉnh) cho các tác vụ cụ thể (tinh chỉnh là một phương pháp của học chuyển giao trong học máy, sử dụng trọng số của một mô hình được đào tạo trước để huấn luyện với một bộ dữ liệu mới). Ở khâu này, AI sẽ được huấn luyện để phát hiện xung đột luật, tóm tắt văn bản pháp lý và dự đoán tác động kinh tế.

Bước 3: Phát triển các Module chuyên biệt

Từ mô hình ngôn ngữ pháp lý, Estonia phát triển các module chức năng đáp ứng nhu cầu cụ thể của quy trình lập pháp:

- Phân tích pháp lý: AI quét dự thảo luật để phát hiện mâu thuẫn với luật hiện hành hoặc quy định EU, đồng thời gợi ý điều chỉnh. Ví dụ, hệ thống có thể cảnh báo về các lỗ hổng trong dự luật bảo mật dữ liệu.

- Mô phỏng chính sách: Module này dùng dữ liệu lịch sử và học máy để dự đoán tác động của luật mới. Chẳng hạn, nó mô phỏng ảnh hưởng của thuế carbon đến nền kinh tế, giúp nhà lập pháp ra quyết định dựa trên bằng chứng.

- Hỗ trợ soạn thảo: AI cung cấp template văn bản, gợi ý từ ngữ chuẩn hóa, và kiểm tra tính tuân thủ (ví dụ: bảo đảm dự luật không vi phạm hiến pháp).

- Tương tác công chúng: AI phân tích ý kiến người dân từ diễn đàn trực tuyến, mạng xã hội, và khảo sát, sau đó tổng hợp thành báo cáo định tính để các đại biểu tham khảo.

Bước 4: Con người kiểm tra, giám sát

Sử dụng cơ chế "Human-in-the-loop" (con người trong chu trình) là phương pháp tiếp cận hợp tác tích hợp chuyên môn và phản hồi của con người vào vòng đời của hệ thống học máy và trí tuệ nhân tạo (AI). Theo chu trình này, trên cơ sở những nội dung được đào tạo, AI đưa ra đề xuất về một điều khoản của dự luật, sau đó, luật sư, chuyên gia pháp lý hoặc nghị sĩ sẽ chỉnh sửa, phê duyệt đề xuất đó. Trong quá trình này, nếu AI đưa ra bất kỳ đề xuất nào không chính xác hoặc có sai sót, sẽ được con người lưu ý và sai sót được AI ghi nhận để cập nhật mô hình.

Ví dụ vào năm 2022, AI đề xuất sửa đổi nhầm một điều khoản về bảo hiểm y tế. Trên cơ sở lưu ý của con người, hệ thống được điều chỉnh để hiểu rõ hơn ngữ cảnh về y tế công.

Như vậy, có 3 bài học đối với các quốc gia khác đang hướng đến quá trình sử dụng AI trong quy trình lập pháp đó là: 1. Chuẩn bị dữ liệu: cần số hóa toàn bộ luật pháp trước khi áp dụng AI. 2. Con người luôn ở khâu cuối của chu trình: AI chỉ hiệu quả khi có luật sư, chuyên gia giám sát. 3. Bắt đầu từ bài toán nhỏ: ưu tiên AI cho soạn thảo, kiểm tra lỗi trước khi thực hiện các tác vụ phức tạp.

Quỳnh Vũ

Nguồn Đại Biểu Nhân Dân: https://daibieunhandan.vn/cach-ai-duoc-huan-luyen-de-lam-luat-post411872.html
Zalo