Anthropic представила метод «конституционного ИИ», повышающий безопасность моделей на 35%

Новое исследование Anthropic показывает, что конституционный ИИ снижает риск вредоносных ответов на 35% по сравнению с обычным RLHF.

Сегодня, 10 апреля 2025 года, компания Anthropic опубликовала результаты исследования, в котором представила новый метод обучения языковых моделей — конституционный ИИ. Этот подход позволяет моделям самостоятельно следовать набору правил и принципов, снижая необходимость в ручной обратной связи.

Согласно отчёту, использование конституционного ИИ сокращает количество вредоносных ответов на 35% по сравнению с традиционным RLHF, при этом сохраняя высокую производительность на стандартных бенчмарках. Исследование проводилось на модели Claude 3, и улучшения были особенно заметны в сценариях, связанных с этическими дилеммами.

В отличие от RLHF, где требуется участие человека-аннотатора, конституционный ИИ генерирует собственные предпочтения на основе заданной конституции. Это делает процесс масштабируемым и менее затратным. По словам исследователей, метод может быть применён к любым языковым моделям.

Эксперты отмечают, что данное исследование открывает путь к более безопасному развёртыванию ИИ-систем в коммерческих продуктах. Anthropic планирует интегрировать конституционный ИИ в свои будущие версии Claude уже в следующем квартале.

Anthropic представила метод «конституционного ИИ», повышающий безопасность моделей на 35%

Комментарии