«Корм» для ИИ: крупные компании охотятся за данными пользователей соцсетей

Крупнейшие компании, разрабатывающие искусственный интеллект (ИИ), начали агрессивно захватывать социальные сети или заключать сделки с ними, чтобы получить доступ к огромным массивам пользовательских данных. Об этом пишет обозреватель Bloomberg Дейв Ли. По его словам, такая информация стала критически важной для обучения ИИ-моделей, и теперь личные посты, фотографии и даже комментарии миллионов людей превращаются в «топливо» для алгоритмов.
Такие ИИ-системы, как ChatGPT, сталкиваются с одинаковой проблемой: после обработки практически всех знаний человечества, им требуется всё новый контент для дальнейшего обучения. Синтетические данные не всегда подходят, поскольку могут усиливать предвзятость или приводить к искажениям. И компании обратились к соцсетям как идеальному источнику «живого человеческого» контента: постов, фотографий, обсуждений и новостей. Миллионы пользователей ежедневно публикуют информацию, использование которой не связано с риском нарушения авторских прав, возникающего при использовании других источников.
«Пользователи социальных сетей уже давно являются "продуктом". Теперь они также являются своего рода "разработчиками продукта" благодаря своим публикациям», — пишет Ли.
Американская компания Meta** (владелец Facebook** и Instagram**) уже уведомила пользователей, что их публикации будут использоваться для обучения ИИ Llama. Миллиардер Илон Маск, чья компания xAI разрабатывает ИИ Grok, официально приобрёл X (бывший Twitter**), получив доступ к архивам твитов за почти 20 лет. Microsoft активно поощряет пользователей LinkedIn публиковать больше контента, хотя и не делится этими данными со своим партнёром OpenAI. Последняя, судя по слухам, даже рассматривает возможность создания собственной социальной сети.
Компании, у которых нет своих платформ, ищут обходные пути. Например, Perplexity, разрабатывающая ИИ-поисковик, пыталась купить TikTok, чтобы получить доступ к миллиардам видеороликов. Google, несмотря на провал с запуском собственной соцсети Google+, заключил сделку с Reddit, чтобы использовать его базу обсуждений для обучения своих моделей.
Все эти действия происходят за спиной пользователей, которые изначально публиковали контент для других целей. Компании тихо меняют политики конфиденциальности, легализуя использование данных для ИИ. Хотя в настройках некоторых платформ можно запретить использование своих данных для обучения алгоритмов, скорее всего, это уже запоздалая мера. ИИ требует «больше входных данных» и компании готовы добывать их любыми способами.