Cloudflare: Perplexity пользуется скрытыми краулерами для сбора информации с сайтов

Блоги

5 авг. 2025, 12:52 Блогер

Популярный сервис не выполняет заданные в файлах robots.txt правила и продолжает сканирование даже при запрете

Работающая на основе ИИ поисковая система Perplexity использует скрытые боты и другие запрещённые приёмы для обхода запрета сканирования на сайтах. Об этом заявила в понедельник служба сетевой безопасности и оптимизации сервиса Cloudflare.

Может быть интересно

В блоге Cloudflare сказано, что компания получила жалобы от клиентов, которые запретили Perplexity собирать данные с помощью ботов, установив соответствующие настройки в файлах robots.txt сайтов и используя брандмауэры. Несмотря на эти меры, Perplexity продолжала получать доступ к контенту сайтов.

Исследователи обнаружили, что когда известные поисковые роботы Perplexity сталкивались с блокировками в файлах robots.txt или правилах брандмауэра, Perplexity обрабатывала сайты с помощью скрытого бота, который маскировал свою активность.

Незадекларированный поисковый робот использовал несколько IP-адресов, не указанных в официальном диапазоне Perplexity, чередуя их. Также мы наблюдали запросы с разных ASN с целью обхода блокировок. Такая активность наблюдалась на десятках тысяч доменов с миллионами запросов в день.

Такое поведение нарушает действующие более трёх десятилетий интернет-нормы. В 1994 году инженер Мартейн Костер предложил протокол исключения роботов (Robots Exclusion Protocol). Это машиночитаемый формат для информирования поисковых роботов о том, что им не разрешено посещать сайт.

В прошлом году генеральный директор Reddit Стив Хаффман заявил изданию The Verge, что остановить Perplexity, Microsoft и Anthropic было большой проблемой. «Microsoft, Anthropic и Perplexity действовали так, как будто весь контент в интернете доступен им бесплатно».

В Cloudflare заявили, что компания принимает меры, чтобы предотвратить доступ поисковых роботов к сайтам, использующим её сервис доставки контента. Perplexity исключили из списка проверенных ботов и добавили эвристические правила, которые блокируют скрытое сканирование.

#cloudflare #perplexity

Источник: arstechnica.com

Написать комментарий (0)

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Комментарии

Популярные новости

Популярные статьи

Сейчас обсуждают

Комментарии

Популярные новости

Популярные статьи

Сейчас обсуждают

Блог

Авторы

Статистика разгона

Закладки