Các trang web tố Anthropic, startup AI, đã vượt qua các quy tắc và giao thức chống lấy trộm thông tin của họ #Anthropic #AI #lừathôngtin #BậtTắtTinNhắnRobot
Freelancer tố Anthropic, startup AI đứng sau các mô hình ngôn ngữ lớn Claude, đã phớt lờ giao thức “không crawl” trong robots.txt để lấy thông tin từ các trang web của họ. Trong khi đó, CEO của iFixit, Kyle Wiens, nói rằng Anthropic đã phớt lờ chính sách của trang web cấm sử dụng nội dung của họ cho việc đào tạo mô hình AI. Matt Barrie, giám đốc điều hành của Freelancer, cho biết The Information rằng ClaudeBot của Anthropic là “máy lấy trội nhất”. Trang web của ông allegedly nhận được 3,5 triệu lượt truy cập từ crawler của công ty trong vòng bốn giờ, tương đương “chắc khoảng năm lần số lượng của crawler AI ở vị trí thứ hai”. Tương tự, Wiens đăng trênX/Twitter rằng bot của Anthropic đã tấn công vào máy chủ của iFixit một triệu lần trong 24 giờ. “Bạn không chỉ lấy nội dung của chúng tôi mà không trả tiền, mà bạn còn làm tắt nguồn lực của devops của chúng tôi”, ông viết.
Vào tháng 6, Wired tố một công ty AI khác, Perplexity, đã crawl trang web của họ mặc dù có giao thức Robots Exclusion Protocol, hoặc robots.txt. Một tập tin robots.txt thường chứa hướng dẫn cho các web crawler về các trang họ có thể và không thể truy cập. Mặc dù việc tuân thủ là tùy ý, thường là bị bỏ qua bởi bot xấu. Sau khi bức xúc của Wired, một startup mang tên TollBit kết nối các công ty AI với nhà xuất bản nội dung báo cáo rằng không chỉ Perplexity mới vượt qua tín hiệu robots.txt. Mặc dù không đặt tên, Business Insider nói họ đã biết OpenAI và Anthropic đều bỏ qua giao thức.
Barrie cho biết Freelancer đã cố từ chối yêu cầu truy cập của bot ban đầu, nhưng cuối cùng buộc phải chặn hoàn toàn crawler của Anthropic. “Đây là hành vi lấy thông tin tàn bạo (làm) trang web trở nên chậm hơn cho mọi người sử dụng và cuối cùng ảnh hưởng đến doanh thu của chúng tôi,” ông thêm. Còn với iFixit, Wiens cho biết trang web đã đặt báo động với lượng truy cập cao, và nhân viên của ông đã bị đánh thức vào lúc 3 giờ sáng vì hoạt động của Anthropic. Crawler của công ty dừng việc lấy không gian từ iFixit sau khi thêm một dòng trong tập tin robots.txt không cho phép bot của Anthropic, cụ thể.
Startup AI cho biết với The Information rằng họ tôn trọng robots.txt và crawler của họ “tôn trọng tín hiệu đó khi iFixit triển khai nó.” Họ cũng nói rằng họ cố gắng “gây ít rối loạn nhất có thể bằng cách suy nghĩ cẩn thận về tốc độ (crawling) các miền giống nhau,” đó là lý do họ đang điều tra vụ việc.
Các công ty AI sử dụng crawler để thu thập nội dung từ các trang web mà họ có thể sử dụng để đào tạo các công nghệ AI tạo ra của họ. Họ đã trở thành mục tiêu của nhiều vụ kiện tụng vì thế, với nhà xuất bản cáo buộc họ vi phạm bản quyền. Để ngăn bạn quyền kiện, các công ty như OpenAI đã ký kết thỏa thuận với nhà xuất bản và trang web. Các đối tác nội dung của OpenAI, cho đến nay, bao gồm News Corp, Vox Media, Financial Times và Reddit. Wiens của iFixit dường như sẵn lòng ký kết thỏa thuận cho các bài viết trên trang web hướng dẫn sửa chữa, đồng thời nói với Anthropic trong một tweet rằng ông sẵn sàng thảo luận về việc cấp phép nội dung cho sử dụng thương mại.
Nếu bất kỳ yêu cầu nào truy cập vào điều khoản dịch vụ của chúng tôi, họ sẽ nói cho bạn biết rằng việc sử dụng nội dung của chúng tôi là cấm. Nhưng đừng hỏi tôi, hãy hỏi Claude!
Nếu bạn muốn thảo luận về cấp phép nội dung của chúng tôi cho sử dụng thương mại, chúng tôi ở đây. pic.twitter.com/CAkOQDnLjD
— Kyle Wiens (@kwiens) Tháng 7 24, 2024
Freelancer has accused Anthropic, the AI startup behind the Claude large language models, of ignoring its “do not crawl” robots.txt protocol to scrape its websites’ data. Meanwhile, iFixit CEO Kyle Wiens said Anthropic has ignored the website’s policy prohibiting the use of its content for AI model training. Matt Barrie, the chief executive of Freelancer, told The Information that Anthropic’s ClaudeBot is “the most aggressive scraper by far.” His website allegedly got 3.5 million visits from the company’s crawler within a span of four hours, which is “probably about five times the volume of the number two” AI crawler. Similarly, Wiens posted on X/Twitter that Anthropic’s bot hit iFixit’s servers a million times in 24 hours. “You’re not only taking our content without paying, you’re tying up our devops resources,” he wrote.
Back in June, Wired accused another AI company, Perplexity, of crawling its website despite the presence of the Robots Exclusion Protocol, or robots.txt. A robots.txt file typically contains instructions for web crawlers on which pages they can and can’t access. While compliance is voluntary, it’s mostly just been ignored by bad bots. After Wired’s piece came out, a startup called TollBit that connects AI firms with content publishers reported that it’s not just Perplexity that’s bypassing robots.txt signals. While it didn’t name names, Business Insider said it learned that OpenAI and Anthropic were ignoring the protocol, as well.
Barrie said Freelancer tried to refuse the bot’s access requests at first, but it ultimately had to block Anthropic’s crawler entirely. “This is egregious scraping (which) makes the site slower for everyone operating on it and ultimately affects our revenue,” he added. As for iFixit, Wiens said the website has set alarms for high traffic, and his people got woken up at 3AM due to Anthropic’s activities. The company’s crawler stopped scraping iFixit after it added a line in its robots.txt file that disallows Anthropic’s bot, in particular.
The AI startup told The Information that it respects robots.txt and that its crawler “respected that signal when iFixit implemented it.” It also said that it aims “for minimal disruption by being thoughtful about how quickly (it crawls) the same domains,” which is why it’s now investigating the case.
AI firms use crawlers to collect content from websites that they can use to train their generative AI technologies. They’ve been the target of multiple lawsuits as a result, with publishers accusing them of copyright infringement. To prevent more lawsuits from being filed, companies like OpenAI have been striking deals with publishers and websites. OpenAI’s content partners, so far, include News Corp, Vox Media, the Financial Times and Reddit. iFixit’s Wiens seems open to the idea of signing a deal for the how-to-repair’s website’s articles, as well, telling Anthropic in a tweet he’s willing to have a conversation about licensing content for commercial use.
If any of those requests accessed our terms of service, they would have told you that use of our content expressly forbidden. But don’t ask me, ask Claude!
If you want to have a conversation about licensing our content for commercial use, we’re right here. pic.twitter.com/CAkOQDnLjD
— Kyle Wiens (@kwiens) July 24, 2024