Ứng dụng AI báo chí phải bắt đầu từ kho dữ liệu đã chuẩn hóa

Việc hệ thống hóa thông tin sẽ giúp báo chí dữ liệu phát triển vững chắc, có thể tạo ra nguồn thu. Muốn đạt mục tiêu này cần biến kho thông tin đã tích lũy trong mấy chục năm qua thành nền móng vững chắc để phát triển.

MC ảo của một báo điện tử Việt Nam.

MC ảo của một báo điện tử Việt Nam.

Chuyển đổi số, ứng dụng AI vẫn trong vòng thử nghiệm

Hai cột mốc ứng dụng công nghệ trong chuyển đổi số báo chí Việt Nam đáng chú ý trong thời gian gần đây có thể kể đến mô hình thu phí từ người đọc và ứng dụng AI vào sản xuất nội dung.

Mô hình thu phí nội dung được một số tờ báo đẩy mạnh trong năm 2023, có thể xem là mô hình chuyển đổi số hướng đến tạo ra nguồn thu từ nội dung. Cách phổ biến nhất là mở dịch vụ thu phí (paywall) bạn đọc để cung cấp các nội dung “độc quyền, đặc biệt” trên báo điện tử. Ngoài ra, còn có báo thu phí bằng cách cung cấp một chatbot để trả lời bạn đọc về các nội dung được giới thiệu là “chuyên sâu, có hệ thống”.

Mức phí paywall của các báo đa dạng, từ vài chục ngàn cho một tháng đến gần một triệu đồng cho một năm đọc “nội dung cao cấp”. Tuy nhiên, sau giai đoạn cao trào năm 2023, dịch vụ này lắng dần trong năm 2024 và gần đây hầu như không được nhắc đến nhiều. Có lẽ paywall vẫn chưa vượt qua giai đoạn tìm hiểu bạn đọc, thử nghiệm công nghệ chứ chưa tạo ra được doanh thu như kỳ vọng.

Nếu paywall là xu hướng chuyển đổi số trong năm 2023 thì AI bắt đầu trở thành xu thế mới trong ứng dụng công nghệ từ năm 2024 đến nay. Tùy theo loại hình mà các báo ứng dụng khác nhau nhưng điểm chung vẫn là dùng AI để sản xuất nội dung.

Tại hội nghị tổng kết công tác báo chí xuất bản TPHCM mới đây, đại diện Đài Tiếng nói nhân dân TPHCM (VOH) cho biết, từ đầu năm 2024 VOH bắt ứng dụng AI giọng nói vào sản xuất phát thanh, huấn luyện 5 giọng đọc AI giúp giảm thời gian sản xuất tin tức, đồng thời tích hợp vào nội dung web, video ngắn trên Facebook, YouTube, TikTok.

Một số ứng dụng AI khá phổ biến trong sản xuất nội dung của các báo hiện nay có thể kể đến là tạo hình ảnh minh họa, MC ảo, tạo bản tin audio/video, ứng dụng AI biến văn bản thành giọng nói và ngược lại (text to speech/speech to text). Ngoài ra, còn có một số báo ứng dụng AI để tạo ra chatbot như một cách tương tác với độc giả sinh động hơn.

Thiếu "thức ăn nội dung" thì khó ứng dụng AI

Đầu tuần này, một vụ sáp nhập đình đám diễn ra trong làng công nghệ thế giới: Meta, tập đoàn mẹ của Facebook, bỏ ra đến 14,3 tỉ đô la Mỹ để mua 49% cổ phần Scale AI, một startup chuyên phân loại dữ liệu bắng cách dán nhãn (gán tag).

Sở dĩ Meta phải bỏ ra số tiền lớn như vậy vì Scale AI đang sở hữu một kho dữ liệu huấn luyện AI cực lớn, được Scale AI thu thập từ khi mới thành lập năm 2016 đến nay. Thế nhưng, việc tạo nên giá trị thương vụ này không phải là khối lượng mà nằm ở chỗ dữ liệu này đã được gắn nhãn phân loại thủ công bằng sức lao động của hàng triệu nhân viên thời vụ khắp thế giới từ thời chưa có AI.

Câu chuyện Meta và Scale AI cho thấy điều gì? Đó chính là việc dữ liệu phải được tổ chức, sắp xếp, phân loại trước thì ứng dụng AI mới dễ đạt mục tiêu. Trong cuộc chạy đua AI với Google, OpenAI thì đây là phần mà Meta đang bị bỏ xa nên họ chọn cách nhanh nhất là mua Scale AI để có được kho dữ liệu đã dán nhãn.

Từ thương vụ dữ liệu nói trên, có thể liên hệ với câu chuyện chuyển đổi số và ứng dụng AI trong báo chí trong thời gian qua. Các dịch vụ như thu phí nội dung, chatbot cung cấp thông tin hay công cụ tìm kiếm nội dung bằng AI đều phải bắt đầu từ nguồn "thực phẩm" quý giá: kho nội dung đã xuất bản của tờ báo.

Thế nhưng, thực trạng của kho nội dung này lại như một viên kim cương thô không được gọt giũa, chế tác nên chưa tạo ra giá trị cao như lẽ ra phải có. Tính đến hiện tại thì hầu hết các báo đã có website được 15-20 năm, chứa đựng rất nhiều bài báo có giá trị thông tin, giá trị tư liệu cao nhưng bị chìm lấp theo thời gian.

Tình trạng chung của báo điện tử là sau nhiều lần nâng cấp website, kho dữ liệu dù đã ở dạng số (cơ sở dữ liệu website - database) có giá trị cao nhưng “hàng hóa thông tin” trong kho càng ngày lại càng ngổn ngang hơn. Vì vậy, dù nằm trong database nhưng thông tin cũ vẫn khó tìm kiếm và đặc biệt là đứt gãy, không liền mạch khi cần tìm các tin bài có cùng chủ đề liên quan nhưng xuất bản ở nhiều thời điểm khác nhau, nhiều năm khác nhau.

Có thể so sánh một cách tương đối, kho dữ liệu cả các báo giống như một nhà kho kiểu cũ với hàng hóa chất bừa bãi khắp nơi cho nên dù biết món hàng có trong kho nhưng để tìm được phải mất rất nhiều thời gian, công sức hay thậm chí không tìm ra. Việc ứng dụng công nghệ nữa vời cùng không giải quyết được vấn đề vì dù nhà kho được trang bị robot tìm kiếm mà hàng hóa không được dán nhãn phân loại đầy đủ thì robot hiện đại đến đâu cũng phải chịu thua.

Dùng AI biến dữ liệu thành tài sản số để khai thác dài hạn

Nhu cầu của bạn đọc đều như nhau khi họ trả tiền để đọc nội dung riêng: tìm kiếm dễ dàng, thông tin được phân loại khoa học, có công cụ hiệu quả để giúp họ tìm ra thông tin cần nhanh chóng, chính xác. Vì vậy, dù chọn mô hình thu phí nào thì các tờ báo vẫn phải đáp ứng tốt nhất có thể cho các nhu cầu nói trên. Đây cũng là mục tiêu mà báo chí dữ liệu (*) hướng tới.

Muốn như vậy thì phải mọi việc phải bắt đầu từ kho dữ liệu bài báo. Với thực trạng dữ liệu phân mảnh như đã đề cập, việc cần làm trước là sắp xếp lại các thông tin ngổn ngang để biến kho tư liệu báo chí thành một thư viện số có giá trị cao có thể mang lại doanh thu lâu dài. Đây là phần không thể thiếu và khó thực hiện nhất trong chuyển đổi số báo chí nhưng may mắn là hiên nay trở ngại này đã có thể giải quyết bằng công cụ AI.

Trước đây, gán tag và phân loại dữ liệu là công việc cần nhiều nhân lực có chuyên môn cao, đòi hỏi rất nhiều chi phí lẫn thời gian, do đó hầu như không thể thực hiện được dù nhiều tờ báo đã từng mong muốn làm điều này. Hiện nay, nhờ công nghệ trí tuệ nhân tạo (AI) ngày càng mạnh và chi phí ngày càng thấp hơn, việc sắp xếp lại kho tư liệu báo chí hoàn toàn làm được với chi phí trong khả năng đầu tư của cơ quan báo chí.

Kho dữ liệu sau khi được sắp xếp, phân loại bằng công cụ AI sẽ trở thành một thư viện số với thông tin phong phú, đa dạng và có công cụ AI thông minh để hỗ trợ tìm kiếm. Việc tìm kiếm thông tin sẽ dễ dàng hơn với công cụ AI hoạt động 24/24 như một thủ thư cần mẫn và có thể đối thoại với bạn đọc để đưa ra kết quả chính xác hơn, đáp ứng tốt hơn nhu cầu tìm kiếm thông tin, hình ảnh của người sử dụng, đặc biệt là các thông tin mang tính tư liệu.

Dù phát triển theo mô hình nào thì việc cần làm đầu tiên là các báo cần xây dựng trên nền tảng kho dữ liệu đã tích lũy được trong mấy chục năm qua. Sau khi nền móng đã vững chắc thì có thể xây nhà theo thiết kế mong muốn, không thể làm ngược lại là thiết kế nhà trước khi có nền móng hoàn chỉnh.

------------------

(*) Báo chí dữ liệu (data journalism) là thuật ngữ chỉ báo chí sử dụng dữ liệu làm công cụ chính để thu thập, phân tích, giải thích và trình bày các câu chuyện tin tức. Việc kết hợp kỹ năng báo chí truyền thống với khả năng phân tích dữ liệu, hình ảnh hóa thông tin và công nghệ sẽ mang đến những nội dung sâu sắc, khách quan và dễ hiểu cho độc giả.

Mục Đồng

Nguồn Saigon Times: https://thesaigontimes.vn/ung-dung-ai-bao-chi-phai-bat-dau-tu-kho-du-lieu-da-chuan-hoa/
Zalo