Стэнфорд и OpenAI представили метод быстрого обучения ИИ с рекордной эффективностью

Новый алгоритм FastTrain сокращает затраты на обучение крупных нейросетей на 30% без потери производительности.

Сегодня исследователи из Стэнфорда и OpenAI опубликовали в журнале Nature статью, в которой описывают алгоритм FastTrain. Он позволяет обучать большие языковые модели в 1,5 раза быстрее, чем существующие подходы, потребляя на 35% меньше энергии. В экспериментах модели, обученные с помощью FastTrain, показали такие же или лучшие результаты на тестах MMLU и HellaSwag.

Ключевая инновация — динамическое разреживание внимания и адаптивный подбор гиперпараметров. Команда протестировала метод на моделях размером до 7 миллиардов параметров. Время обучения модели GPT-2 (1.5B) сократилось с 12 дней до 7,5 дней.

Профессор Стивен Вольф из Стэнфорда: «Это шаг к экологичному ИИ». OpenAI планирует интегрировать FastTrain в обучение GPT-5. Источники в компании заявили, что это может уменьшить выбросы CO2 на тысячи тонн.

Стэнфорд и OpenAI представили метод быстрого обучения ИИ с рекордной эффективностью

Комментарии