ИИ-скрейперы устроили пир на серверах Википедии

Специальный корреспондент
Собака

Собака

Пресс-служба
Ветеран пробива
Private Club
Регистрация
13/10/15
Сообщения
57.207
Репутация
64.070
Реакции
283.687
RUB
0
ИИ-компании безнаказанно грабят Wikimedia.

В последние месяцы боты для веб-скрейпинга превратились в настоящую проблему для проектов Wikimedia, включая Википедию и мультимедийный репозиторий Wikimedia Commons. Неутолимый интерес ботов к контенту объясняется использованием данных для обучения нейросетей, но последствия этого становятся всё более ощутимыми для инфраструктуры сообщества.

С начала 2024 года нагрузка на серверы фонда выросла на 50% — и не из-за всплеска активности обычных пользователей. Как сообщили представители Wikimedia Foundation, резкий рост потребления трафика связан с автоматизированными программами, которые массово скачивают изображения с Wikimedia Commons для машинного обучения.

Инфраструктура проектов Wikimedia изначально была рассчитана на резкие скачки трафика, вызванные интересом людей к значимым событиям. Однако нынешний уровень нагрузки, вызванный ботами, превзошёл все ожидания и представляет собой как техническую, так и финансовую угрозу. На сегодня около 65% самого ресурсоёмкого трафика приходится на таких скрейперов, несмотря на то, что на их долю приходится лишь треть всех просмотров страниц.

Причина в специфике кэширования: популярный контент распространяется по региональным дата-центрам, но боты игнорируют популярность страниц, заставляя систему постоянно обращаться к центральному хранилищу, увеличивая потребление ресурсов. Подобное поведение особенно дорого обходится при скачивании изображений — наиболее затратного типа данных на платформе. Другие ресурсы также столкнулись с агрессивными ботами, скачивающими контент в огромных объёмах.

Хотя традиционно поисковые боты считаются необходимостью для индексации и улучшения видимости сайтов, с ростом популярности генеративного ИИ ситуация изменилась. Новые алгоритмы, включая ChatGPT, используют массово собранный контент не только для обучения, но и в рамках коммерческих продуктов. Это может снизить востребованность оригинальных сайтов и снизить рекламные доходы.

В ответ на проблему, в ежегодном плане Wikimedia Foundation на 2025/2026 год заложена цель — снизить трафик от скрейперов на 20% по числу запросов и на 30% по объёму переданных данных. Организация подчёркивает, что в условиях ограниченных ресурсов приоритет должен отдаваться людям и активным участникам сообщества, а не алгоритмам.

Какие конкретные меры помогут достичь этих целей, пока неизвестно. Пока инженеры блокируют наиболее агрессивных ботов вручную, но кардинального решения ещё не найдено. А пока на рынке появляются специализированные инструменты, позволяющие противодействовать автоматическим сборщикам данных.

В 2023 году, после волны критики в адрес ИИ-компаний, разработчики таких систем, как Google, OpenAI и Anthropic, начали учитывать директивы в файле robots.txt, который позволяет сайтам ограничивать доступ к своим страницам. Однако такой механизм остаётся необязательным и легко обходится: боты могут маскироваться под известных поисковиков или просто менять имена, избегая блокировок.

Интересно, что несмотря на обострение проблемы, сама Википедия до сих пор не ограничивает доступ к своим ресурсам для скрейперов от Google, OpenAI и Anthropic в своём robots.txt. Википедия блокирует ряд мелких ботов, но крупных игроков по-прежнему пропускает. Wikimedia не ответила на запрос о комментариях по поводу такой избирательной политики.

В 2024 году заявления главы Microsoft AI Мустафы Сулеймана вызвали волну обсуждений. По его мнению, все, что публикуется в открытом доступе в Интернете, становится «‎свободным ПО» и может быть свободно скопировано и использовано любым желающим.






 
  • Теги
    ии возможности
  • Назад
    Сверху Снизу