ЕС обязует разработчиков ИИ раскрывать данные обучения под угрозой штрафов

Новый проект директивы Европейской комиссии вводит обязательное раскрытие источников данных для больших языковых моделей, санкции — до 4% глобального дохода.

Сегодня Европейская комиссия опубликовала проект директивы, обязывающей компании, разрабатывающие большие языковые модели (LLM), раскрывать объём и происхождение данных, использованных для обучения. Документ, как ожидается, станет частью более широкого пакета мер по регулированию искусственного интеллекта. Под действие норм попадут все игроки, работающие на рынке ЕС, включая OpenAI, Google, Microsoft и Anthropic.

Согласно проекту, разработчики должны будут предоставить не только общий размер датасетов, но и детальную разбивку по типам источников: общедоступные веб-данные, лицензированные базы, пользовательский контент и синтетические данные. За невыполнение требований предусмотрены штрафы до 4% от мирового годового оборота компании. Особое внимание уделяется проверке на наличие предвзятости и соблюдение авторских прав.

Крупные технологические компании уже выразили обеспокоенность. Представитель OpenAI заявил, что компания «в целом поддерживает прозрачность, но раскрытие деталей может нарушить коммерческую тайну и ослабить конкурентные позиции». В то же время правозащитные организации приветствовали шаг, назвав его «необходимым для защиты прав потребителей и создателей контента».

Европейский парламент рассмотрит проект в ближайшие месяцы. Если директива будет принята, она вступит в силу в 2025 году. Эксперты отмечают, что это может стать самым строгим регулированием обучающих данных в мире и повлияет на всю индустрию — от стартапов до гигантов Кремниевой долины.

ЕС обязует разработчиков ИИ раскрывать данные обучения под угрозой штрафов

Комментарии