Speaker
Description
Большие модели преобразования текста в изображение совершили значительный скачок в области искусственного интеллекта, обеспечив высококачественный и разнообразный синтез изображений из заданного текстового описания. Однако, когда возникает запрос на генерацию специфичного объекта, в нашем случае человека, модель не может сгенерировать его с необходимой точностью и передать его идентичность. Предлагается решение, которое будет способно генерировать изображения заданного человека в различных вариациях в высоком разрешении. В данной работе рассматриваются методы DreamBooth, IP-Adapter, а также предлагаются наши собственные методы. Они представляют собой различные модификации IP-Adapter'a и позволяют принимать на вход сразу несколько изображений, что улучшает качество генерации. Все методы сравниваются между собой.