Speaker
Egor Mostovykh
(MIPT)
Description
Abstract:
Мы расширяем результат статьи Gloeckle (2024), заключающийся в том, что LLM обученная с несколькими дополнительными головами (используя метод multi token prediction) получается лучшего качества. В нашей работе мы показываем, что используя multi token prediction, можно улучшить также качество Fine Tuning-а моделей. Также в данной работе улучшения появляются начиная с размера моделей 1B, в том время как в оригинале - начиная с 7B.
Primary author
Egor Mostovykh
(MIPT)
Co-author
Mr
Кирилл Богданов
(МФТИ)