Máy móc không còn vô cảm: AI đang làm chủ cảm xúc tốt hơn con người?

5 giờ trướcGốc

Các mô hình trí tuệ nhân tạo (AI) phổ biến đã vượt trội hơn con người về trí tuệ cảm xúc trong một nghiên cứu gần đây, nhưng các chuyên gia khuyên người dùng AI đừng để bị đánh lừa.

Trong một lĩnh vực vốn được xem là máy móc không thể sánh kịp con người, các nhà khoa học giờ đây đưa ra giả thuyết rằng AI thực sự có khả năng “thấu hiểu” cảm xúc tốt hơn chính con người.

Theo khảo sát, các nhà khoa học đã chỉ ra rằng AI không chỉ đạt điểm cao hơn đáng kể so với người bình thường trong việc chọn phản ứng phù hợp cho các tình huống căng thẳng về mặt cảm xúc, mà còn chứng tỏ ưu thế rõ ràng trong khả năng xử lý cảm xúc.

Nghiên cứu mới cho thấy AI có khả năng “nhận biết” và phản ứng với cảm xúc hiệu quả hơn con người - Ảnh: Getty

Nghiên cứu đột phá

Trong một nghiên cứu mới được công bố ngày 21.5 trên tạp chí Communications Psychology, các nhà khoa học từ Đại học Geneva và Đại học Bern (Thụy Sĩ) đã áp dụng các bài kiểm tra trí tuệ cảm xúc (EI) được sử dụng rộng rãi cho các mô hình ngôn ngữ lớn (LLM) phổ biến bao gồm ChatGPT-4, ChatGPT-o1, Gemini 1.5 Flash, Claude 3.5 Haiku, Copilot 365 và DeepSeek V3.

Thử thách được đặt ra rất rõ ràng: so sánh năng lực “thấu cảm” giữa AI và con người, đồng thời khai thác xem liệu AI có thể tự tạo ra những câu hỏi EI chuẩn không kém bản gốc hay không. Kết quả khiến ai cũng phải ngỡ ngàng: các mô hình ngôn ngữ lớn này đã chọn đúng phản ứng cho tình huống cảm xúc đến 81% dưới góc nhìn đánh giá của chuyên gia trong khi con người chỉ đạt 56%.

Khi ChatGPT được yêu cầu tạo ra các câu hỏi kiểm tra mới, các nhà đánh giá con người cho biết những nỗ lực này đã đạt được tiêu chuẩn của các bài kiểm tra gốc về độ khó tương đương và loại bỏ nhận thức rằng chúng không phải là diễn giải lại các câu hỏi gốc. Mối tương quan giữa các bài kiểm tra do AI tạo ra và các bài kiểm tra gốc được mô tả là "mạnh mẽ", với hệ số tương quan là 0.46 (trong đó 1.0 đề cập đến tương quan hoàn hảo và 0 đề cập đến không có tương quan).

Chung quy lại, nghiên cứu này vẽ nên một chân dung mới cho trí tuệ nhân tạo rằng không chỉ lạnh lùng tính toán, AI giờ đây còn thể hiện khả năng “cảm” và “thấu” không thua kém, thậm chí vượt trội so với con người.

Câu chuyện sâu hơn

Khi Live Science tìm đến ý kiến của các chuyên gia, một thông điệp xuyên suốt mà họ nhấn mạnh là hãy luôn giữ vững quan điểm phê phán về phương pháp nghiên cứu. Bởi lẽ, mọi bài kiểm tra trí tuệ cảm xúc (EI) hiện nay đều chỉ là trắc nghiệm trên lý thuyết, khó có thể tái tạo chính xác áp lực và những căng thẳng sống động trong đời thực.

“Thật đáng chú ý khi chính con người còn tranh cãi nhau về việc người kia đang thực sự cảm thấy gì. Ngay cả các nhà tâm lý học lão luyện cũng có thể đưa ra những diễn giải khác nhau về cùng một tín hiệu cảm xúc”, ông Taimur Ijlal, chuyên gia tài chính và an ninh thông tin, chia sẻ.

Vì thế, việc AI “vượt mặt” con người trong một bài trắc nghiệm không đồng nghĩa với việc nó thấu hiểu cảm xúc sâu sắc hơn. Nó chỉ cho thấy AI giỏi “bắt bài” kết quả thống kê, chọn đáp án được dự đoán nhiều nhất chứ không phải sống cùng những giây phút căng thẳng, hồi hộp và rung động thực sự.

Các nhà nghiên cứu nhấn mạnh: những bài kiểm tra mà AI vượt mặt chúng ta không hẳn đo lường “trí tuệ cảm xúc” thật sự, mà chỉ là khả năng nhận diện mẫu. “AI quá xuất sắc trong việc phát hiện các dấu hiệu cảm xúc mang tính cấu trúc như nét mặt hay ngôn ngữ cơ thể nhưng gọi đó là ‘hiểu sâu’ cảm xúc con người lại là một cách nói phóng đại”, Nauman Jaffar, nhà sáng lập kiêm CEO CliniScripts, cảnh báo.

Các bài kiểm tra trong môi trường có cấu trúc, định lượng hơn là sự đánh giá về sắc thái sâu sắc hơn mà sự hiểu biết cảm xúc thực sự đòi hỏi — là nơi AI tỏa sáng, và một số chuyên gia đã chỉ ra một điểm quan trọng: AI hoạt động tốt hơn trong các bài kiểm tra về các tình huống cảm xúc không phải trong lúc căng thẳng - cách con người trải nghiệm chúng.

Các mô hình AI tỏa sáng trong môi trường kiểm tra được thiết kế rành mạch, có số liệu định lượng rõ ràng, chứ không phải trong những khoảnh khắc căng thẳng, đầy biến hóa như cách con người thực sự trải nghiệm cảm xúc.

Jason Hennessey, người sáng lập và CEO của Hennessy Digital, người đã dành nhiều năm phân tích cách các hệ thống tìm kiếm và AI tạo sinh xử lý ngôn ngữ, so sánh nghiên cứu này với bài kiểm tra đọc tâm trí trong mắt (RMET). Đây là một công cụ phổ biến để đánh giá trạng thái cảm xúc của đối tượng và AI đã cho thấy triển vọng trong đó. Nhưng như Hennessey cho biết, khi các biến số thường xuyên như ánh sáng trong ảnh hoặc bối cảnh văn hóa thay đổi trong các bài kiểm tra như vậy, "độ chính xác của AI giảm mạnh”.

Nhìn chung, hầu hết các chuyên gia đều thấy rằng tuyên bố AI "hiểu" cảm xúc tốt hơn con người hơi xa thực tế.

“LLM có thể hữu ích trong việc phân loại phản ứng cảm xúc phổ biến, nhưng so sánh nó với nhà trị liệu giỏi thì thật sự là sai lầm”, Wyatt Mayham, nhà sáng lập Northwest IT Consulting, kết luận.

Ví dụ thực tế đáng chú ý

Cuối cùng, có một ví dụ thuyết phục cho thấy dù AI chủ yếu dựa vào nhận diện mẫu thay vì “thấu cảm” thực sự, nó vẫn có thể vượt trội con người trong việc nhận ra và đáp ứng cảm xúc.

Áilton, trợ lý đa phương thức trên WhatsApp đang đồng hành cùng hơn 6.000 tài xế xe tải đường dài ở Brazil, không chỉ hiểu văn bản mà còn phân tích giọng nói và hình ảnh. Theo Marcos Alves, CEO kiêm nhà khoa học trưởng tại công ty HAL-AI, Áilton xác định chính xác các trạng thái căng thẳng, giận dữ hay buồn bã đến 80% lần, cao hơn khoảng 20 điểm so với các nhân viên hỗ trợ con người, và tất cả diễn ra tức thì, ngay khi tài xế chia sẻ trong khung chat.

Trong một trường hợp, Áilton đã phản ứng nhanh chóng và phù hợp khi một tài xế gửi một ghi chú giọng nói đau khổ dài 15 giây sau vụ tai nạn chết người của một đồng nghiệp, trả lời với lời chia buồn tinh tế, cung cấp tài nguyên sức khỏe tâm thần và tự động cảnh báo các quản lý đội xe.

“Các bài kiểm tra AI chỉ đo được một phần rất nhỏ của cảm xúc. Trong thực tế, sự đồng cảm diễn ra liên tục và qua nhiều phương thức (lời nói, cử chỉ, âm điệu…). Tuy nhiên, nếu tách riêng phần ‘nhận diện cảm xúc’ ra, ta có thể kiểm tra xem một mô hình ngôn ngữ lớn (LLM) có kịp phát hiện tín hiệu cảm xúc ban đầu trước khi bị "tiếng ồn" của hoàn cảnh xung quanh làm nhiễu hay không”, ông Alves nói.

Alves giải thích thêm rằng vì LLM được “đào tạo” trên hàng tỉ câu chữ và hàng nghìn giờ ghi âm, nó có thể nhận ra những thay đổi rất nhỏ trong giọng nói mà con người thường bỏ lỡ. “Thiết lập phòng thí nghiệm có hạn chế, nhưng dữ liệu WhatsApp của chúng tôi xác nhận các LLM hiện đại đã phát hiện và phản ứng tốt hơn hầu hết mọi người, cung cấp sự đồng cảm có thể mở rộng quy mô”, ông nói thêm.

Hoàng Vũ