Low-rank self-play fine-tuning for small LLMs

17 May 2025, 15:30
12m
Клуб Выпусников

Клуб Выпусников

ТЦ Дирижабль, ул. Первомайская 3а
Машинное обучение и нейросети 17-Машинное обучение и нейросети

Speaker

Pavel Mun

Description

В работе исследуется проблема дообучения больших языковых моделей (LLM) в условиях ограниченных ресурсов. Под ограниченными ресурсами понимается видеопамять, человеческое участие и время обучения. В работе рассматриваются модели до 1.5B. Предлагается метод дообучения, основанный на внедрении адаптеров LoRA, малоранговых раложений матриц, в слои архитектуры трансформера, и использовании стратегии self-play - текущая итерация генерирует предсказания, а обучающаяся повышает качество с помощью разграничения настоящих предсказаний от сгенерированных. Метод может снизить количество обучаемых параметров в 10000, и память в три раза, также он не требует размеченных данных помимо используемых на этапе SFT.

Primary author

Co-author

Mr Andrey Grabovoy (MIPT, Moscow Russia)

Presentation materials