OpenClaw giúp Scrapling vượt qua hệ thống của Cloudflare, thu thập dữ liệu trái phép
Scrapling thu hút những người dùng tác tử AI muốn bot của họ thu thập dữ liệu từ các trang web mà không cần sự cho phép.
Tại Thung lũng Silicon, dường như OpenClaw có mặt ở khắp nơi, thậm chí cả những nơi tác tử AI (trí tuệ nhân tạo) này không được thiết kế để hoạt động. Theo các bài đăng trên mạng xã hội, nhiều người dường như đang sử dụng OpenClaw để thu thập dữ liệu từ các website và truy cập thông tin, bất chấp các trang đó đã thực hiện biện pháp chống bot rõ ràng.
Một trong những cách họ làm điều này là thông qua phần mềm mã nguồn mở Scrapling, được thiết kế để vượt qua các hệ thống chống bot như Cloudflare Turnstile.
OpenClaw là tác tử AI có thể thực hiện nhiều nhiệm vụ, từ đặt chỗ ăn tối, theo dõi email, làm việc với các công ty bảo hiểm, làm thủ tục chuyến bay và thực hiện vô số tác vụ khác. Khác với chatbot truyền thống, OpenClaw có khả năng kết nối với nhiều dịch vụ trực tuyến, duy trì nhiệm vụ trong thời gian dài và chủ động hoàn thành các yêu cầu như nghiên cứu thông tin, soạn thảo văn bản, quản lý lịch làm việc hay xử lý email.
OpenClaw có thể chạy trực tiếp trên máy tính cá nhân, máy chủ hoặc nền tảng đám mây, giúp người dùng linh hoạt lựa chọn cách triển khai tùy theo nhu cầu và mức độ tin cậy về dữ liệu.
Một điểm khiến OpenClaw nhanh chóng thu hút sự chú ý của cộng đồng công nghệ là khả năng mở rộng rất cao. Nền tảng cho phép tích hợp nhiều mô hình AI khác nhau và bổ sung các kỹ năng do cộng đồng phát triển, giúp tác tử AI ngày càng làm được nhiều việc phức tạp hơn.
OpenClaw đã tăng trưởng bùng nổ kể từ khi được giới thiệu lần đầu vào tháng 11.2025, nhận hơn 100.000 lượt gắn sao trên kho mã GitHub và thu hút 2 triệu lượt truy cập chỉ trong một tuần.
Peter Steinberger, nhà sáng lập OpenClaw, gần đây đã gia nhập OpenAI. OpenClaw sẽ tồn tại trong một tổ chức phi lợi nhuận với tư cách là dự án mã nguồn mở mà OpenAI sẽ tiếp tục hỗ trợ.

Turnstile là hệ thống chống bot của Cloudflare
Turnstile là hệ thống xác minh người dùng do hãng Cloudflare phát triển, được thiết kế để phân biệt người dùng thật với bot mà không cần CAPTCHA truyền thống. Nó là giải pháp thay thế cho các CAPTCHA kiểu cũ như chọn hình ảnh hoặc nhập ký tự méo mó.
Khác với CAPTCHA thông thường yêu cầu người dùng phải tương tác rõ ràng, Cloudflare Turnstile hoạt động chủ yếu ở chế độ “vô hình”, phân tích nhiều tín hiệu kỹ thuật như hành vi trình duyệt, môi trường thiết bị, địa chỉ IP, cách di chuyển chuột và các đặc điểm hệ thống để xác định liệu truy cập đó đến từ con người hay bot. Trong nhiều trường hợp, người dùng không cần làm gì cả mà vẫn được xác minh.
Mục đích chính của Cloudflare Turnstile là ngăn bot thực hiện các hành vi như thu thập dữ liệu trái phép (scraping), tạo tài khoản hàng loạt, spam biểu mẫu hoặc tấn công tự động website. Khi phát hiện truy cập đáng ngờ, Cloudflare Turnstile có thể chặn truy cập, yêu cầu xác minh bổ sung hoặc từ chối hoàn toàn.
Cloudflare Turnstile đặc biệt quan trọng trong bối cảnh hiện nay vì các bot AI ngày càng tinh vi, có thể giả lập trình duyệt thật để vượt qua các hệ thống bảo vệ cũ.
Cloudflare là một trong những nhà cung cấp hạ tầng internet quan trọng nhất thế giới, chuyên cung cấp dịch vụ mạng phân phối nội dung (CDN), bảo mật web và định tuyến lưu lượng. Nói một cách khác, Cloudflare đóng vai trò như “đường cao tốc” giúp dữ liệu từ máy chủ của các dịch vụ lớn đến được người dùng nhanh, ổn định và an toàn hơn.
Cloudflare giúp tăng tốc tải trang bằng cách lưu và phân phối nội dung từ các máy chủ gần người dùng; bảo vệ website khỏi các cuộc tấn công mạng (DDoS, bot độc hại, khai thác lỗ hổng); giảm chi phí băng thông và tải cho máy chủ gốc.
Công ty Mỹ hiện xử lý khoảng 20% lưu lượng web toàn cầu, một con số rất lớn với bất kỳ đơn vị hạ tầng internet nào.
“Không còn ác mộng với Cloudflare”
Scrapling, được xây dựng bằng Python, hoạt động với nhiều loại tác tử AI. Thế nhưng, người dùng OpenClaw dường như đặc biệt ưa thích Scrapling.
Python là ngôn ngữ lập trình cấp cao, được sử dụng để viết phần mềm, xây dựng website, phân tích dữ liệu, tự động hóa tác vụ và phát triển trí tuệ nhân tạo.
Mới đây, các bài đăng lan truyền quảng bá Scrapling như một công cụ dành cho người dùng OpenClaw bắt đầu lan rộng trên mạng xã hội X. Kể từ khi phát hành, Scrapling đã được tải xuống hơn 200.000 lần.
“Không bị phát hiện là bot. Không cần bảo trì selector. Không còn ác mộng với Cloudflare. OpenClaw cho Scrapling biết cần trích xuất gì. Scrapling xử lý việc ẩn mình”, theo bài đăng lan truyền trên mạng về công cụ mã nguồn mở này.
Selector là “bộ chọn” dùng để chỉ định chính xác phần tử nào trên một trang web mà chương trình hoặc bot cần tìm hoặc lấy dữ liệu.
Cloudflare không mấy hào hứng với thông tin trên. Công ty Mỹ đã chặn các phiên bản trước đó của Scrapling, vì người dùng phần mềm mã nguồn mở này liên tục cố gắng vượt qua các biện pháp bảo vệ chống thu thập dữ liệu tự động. Cloudflare đang làm việc trên bản vá cho phiên bản mới nhất của Scrapling.
“Chúng tôi thay đổi, rồi họ lại thay đổi”, Dane Knecht, Giám đốc công nghệ của Cloudflare, tiết lộ. Ông nói kho dữ liệu trang web khổng lồ và khả năng theo dõi xu hướng đã giúp Cloudflare chiếm ưu thế.
“Chúng tôi đã nhận được tín hiệu rằng họ đang bắt đầu có khả năng vượt qua chúng tôi cao hơn. Đội ngũ kỹ sư vận hành bảo mật đã và đang làm việc trên hàng loạt biện pháp giảm thiểu mới”, Dane Knecht nói.

OpenClaw giúp Scrapling vượt qua hệ thống chống bot của Cloudflare, thu thập dữ liệu trái phép từ các website- Ảnh: MTG
Các mô hình ngôn ngữ lớn đã được huấn luyện trên kho dữ liệu internet và quá trình này liên quan đến rất nhiều việc thu thập dữ liệu. Ở một khía cạnh nào đó, người dùng Scrapling đang đi theo bước chân của những người xây dựng mô hình AI ban đầu, nhưng ở quy mô cá nhân hóa hơn.
Vài năm qua, chủ sở hữu nhiều website đã cố gắng thiết lập thêm biện pháp bảo vệ chống bot, để chặn các phần mềm như Scrapling hoặc tìm cách kiếm tiền từ các bot cố gắng truy cập vào trang của mình. Ngược lại, Cloudflare đã làm việc hết công suất để tiếp tục chặn các bot ngày càng mạnh mẽ hơn đang cố gắng vượt qua biện pháp bảo vệ này.
Vào tháng 7.2024, Cloudflare bắt đầu cung cấp cho khách hàng những công cụ bổ sung để chặn trình thu thập dữ liệu AI, trừ khi các bot trả tiền để truy cập. Trong vòng chưa đầy một năm, công ty tuyên bố đã chặn 416 tỉ lượt thu thập dữ liệu trái phép.
“Tôi không biết mình đang dấn thân vào chuyện gì”
Khi Scrapling lan truyền những ngày gần đây, những người đam mê tiền mã hóa đã tận dụng sự chú ý này bằng cách ra mắt memecoin $Scrapling. Karim Shoair, người tự nhận là nhà phát triển duy nhất của Scrapling, đã đăng bài về $Scrapling trên X. Những bài đăng này sau đó đã bị xóa.
Khi giá tăng vọt trong khoảng 5 giờ, $Scrapling nhanh chóng lao dốc do người dùng bán tháo memecoin này.
“Một lũ lừa đảo chết tiệt” là một bình luận trên trang Pump.Fun, nơi lưu trữ $Scrapling.
“Tôi không biết mình đang dấn thân vào chuyện gì khi người ta tạo ra đồng tiền đó và tôi đã ủng hộ nó. Song khi nhận ra, tôi không muốn có bất kỳ liên hệ nào với nó và số tiền tôi đã rút trước đó sẽ được quyên góp cho từ thiện. Tôi sẽ không được lợi gì từ $Scrapling”, Karim Shoair chia sẻ với tạp chí WIRED.
Sau sự kiện đó, tài khoản GitHub Projects Community không chính thức, với hơn 300.000 người theo dõi trên X, đã xóa các bài đăng quảng bá Scrapling và dường như tạo khoảng cách với dự án.
“Chúng tôi không ủng hộ, quảng bá hoặc tham gia vào tài sản tiền mã hóa. Chúng tôi không phát hành token, hoạt động giao dịch hoặc gây quỹ dựa trên tiền mã hóa”, tài khoản GitHub Projects Community cho biết trong một bài đăng trên X.
Bỏ qua các hoạt động liên quan đến tiền mã hóa, hầu hết nhà lãnh đạo hãng phần mềm coi tác tử AI và công cụ AI tự động là tương lai của web. Ngay cả Dane Knecht, người có nhiệm vụ chặn các bot thu thập dữ liệu trái phép, cũng muốn xây dựng một thế giới nơi con người và các tác tử AI được hưởng lợi từ dữ liệu trực tuyến, đồng thời tôn trọng mong muốn của chủ sở hữu website.
Ông nói: “Tôi nhìn thấy con đường phía trước cho một internet thân thiện với cả tác tử AI và con người”.



































