Улучшение Fine Tuning LLM c помощью Multi Token Prediction

18 May 2025, 15:30
12m
Клуб Выпусников

Клуб Выпусников

ТЦ Дирижабль, ул. Первомайская 3а
Машинное обучение и нейросети 18-Машинное обучение и нейросети

Speaker

Egor Mostovykh (MIPT)

Description

Abstract:

Мы расширяем результат статьи Gloeckle (2024), заключающийся в том, что LLM обученная с несколькими дополнительными головами (используя метод multi token prediction) получается лучшего качества. В нашей работе мы показываем, что используя multi token prediction, можно улучшить также качество Fine Tuning-а моделей. Также в данной работе улучшения появляются начиная с размера моделей 1B, в том время как в оригинале - начиная с 7B.

Primary author

Co-author

Presentation materials