Работающая на основе ИИ поисковая система Perplexity использует скрытые боты и другие запрещённые приёмы для обхода запрета сканирования на сайтах. Об этом заявила в понедельник служба сетевой безопасности и оптимизации сервиса Cloudflare.

В блоге Cloudflare сказано, что компания получила жалобы от клиентов, которые запретили Perplexity собирать данные с помощью ботов, установив соответствующие настройки в файлах robots.txt сайтов и используя брандмауэры. Несмотря на эти меры, Perplexity продолжала получать доступ к контенту сайтов.
Исследователи обнаружили, что когда известные поисковые роботы Perplexity сталкивались с блокировками в файлах robots.txt или правилах брандмауэра, Perplexity обрабатывала сайты с помощью скрытого бота, который маскировал свою активность.
Незадекларированный поисковый робот использовал несколько IP-адресов, не указанных в официальном диапазоне Perplexity, чередуя их. Также мы наблюдали запросы с разных ASN с целью обхода блокировок. Такая активность наблюдалась на десятках тысяч доменов с миллионами запросов в день.
Такое поведение нарушает действующие более трёх десятилетий интернет-нормы. В 1994 году инженер Мартейн Костер предложил протокол исключения роботов (Robots Exclusion Protocol). Это машиночитаемый формат для информирования поисковых роботов о том, что им не разрешено посещать сайт.

В прошлом году генеральный директор Reddit Стив Хаффман заявил изданию The Verge, что остановить Perplexity, Microsoft и Anthropic было большой проблемой. «Microsoft, Anthropic и Perplexity действовали так, как будто весь контент в интернете доступен им бесплатно».
В Cloudflare заявили, что компания принимает меры, чтобы предотвратить доступ поисковых роботов к сайтам, использующим её сервис доставки контента. Perplexity исключили из списка проверенных ботов и добавили эвристические правила, которые блокируют скрытое сканирование.

