
Инновационный практикум – обязательный предмет в 6 семестре у студентов ФПМИ, направленный на помощь студентам с профессиональной профориентационной подготовкой и разделенный на несколько треков по выбору в зависимости от интересов студентов.
Научный трек предназначен для студентов, планирующих дальнейшую работу в сфере научных исследований по тематике математики или Computer Science, выполнения фундаментальных и прикладных НИР и НИОКР в лабораториях и научных институтах.
Итоговая отчетность по предмету для студентов трека происходит в формате отчётной мини-конференции, на которой студенты рассказывают о результатах работы за семестр.
Конференция проходит очно в МФТИ (Долгопрудный) на зачетной неделе в МФТИ в мае.
Формулируется методика моделирования ансамбля траекторий временного ряда, в котором происходят случайные переключения между заданным набором состояний. Вводится промежуточный базис для прогнозирования направления перехода. Предложена модель предиктора перехода как минимального расстояния от текущего выборочного распределения до эталонов промежуточного базиса. Предложена структура программного комплекса, позволяющего проводить комплексный анализ нестационарных временных рядов, включая нахождение системы базисных эталонов в зависимости от длины окна сканирования.
Методы DL (глубокое обучение) исторически не выигрывали у классических ML-моделей на задачах с табличными данными, состоящими из категориальных, бинарных и числовых признаков. Более того, модели основанные на градиентном бустинге решающих деревьев (как СatBoost, XGBoost) зачастую значительно выигрывали нейросети. Однако современные модели, основанные на полносвязных сетях (MLP) начали превосходить стандартные GBDT-архитектуры.
В данной работе исследуется применение в Tabular DL новой архитектуры нейросетей — Kolmogorov-Arnold Networks (KANs) [1]. Эти модели основаны на теореме Колмогорова-Арнольда о представлении многомерной функции в виде суммы и композиции одномерных функций. Но в отличии от MLP, линейные весы и фиксированные активации заменены на обучаемые одномерные функции активации, параметризованные сплайнами. Гипотетически такой подход повышает точность аппроксимации сложных зависимостей и адаптивность модели.
Предлагается метод цифровой генерации редких специфических гистологических окрасок (Masson’s Trichrome, PAS, Ki-67 и др.) на основе стандартных гематоксилин-эозиновых (H&E) изображений с использованием генеративно-состязательных сетей (GAN). Показана возможность преодоления проблемы отсутствия точного пространственного соответствия между парами изображений при помощи архитектуры CycleGAN. Дополнительно изучено влияние выбора оптимизатора на устойчивость и качество обучения модели, выявлены преимущества ExtraAdam и OptimisticAdam в контексте решаемой задачи.
В этом отчете будет представлено исследование влияния техники рестартов на оптимизацию обучения сверхпараметризованных моделей. Исследуется теоретическая связь между обобщенной (L_0, L_1)-гладкостью функций потерь и явлением двойного спуска, характерным для сверхпараметризованных моделей. Основная гипотеза исследования состоит в том, что рестарты в градиентных методах могут выполнять роль механизма имплицитной регуляризации, способствующего обнаружению решений с повышенной обобщающей способностью.
Будут представлены результаты экспериментов на модифицированной архитектуре ResNet-18 с расширенными полносвязными слоями, демонстрирующие возможность обнаружения таких [с повышенной обобщающей способностью] решений.
Проведено больше экспериментов, уделяя особое внимание сравнению разных критериев для проведения рестартов, а также, ожидается, что будет сформулирована гипотеза о том, какой из критериев будет показывать лучшие результаты, в сравнении с другими.
Исследование использования техники рестартов в комбинации с методами понижения размерности и на других архитектурах.
Crucial for large-scale models, federated learning faces two major challenges: privacy preservation and high communication costs. While SignSGD addresses the communication issue by transmitting only gradient signs, its only earlier proposed private version lacks proper privacy guarantees and convergence analysis. We construct a new variant of DP-SignSGD that combines Gaussian noise with Bernoulli subsampling to achieve true differential privacy. Our approach satisfies $(\alpha, \varepsilon_R)$-Rényi differential privacy, which can be readily converted to standard $(\varepsilon, \delta)$-privacy guarantees. We demonstrate the algorithm's performance on logistic regression problem and classification of handwritten digits with MLP and CNN. The main challenge remains the tradeoff between precision of a single iteration and the maximum number of privacy-preserving iterations. Our analysis suggests that the sign mechanism's binary output and potential gradient privacy may provide additional privacy guarantees beyond our current calculations. The algorithm can be readily adapted to tighter privacy bounds, and we identify the need for theoretical convergence guarantees as the primary direction for future research.
Оптимизация транспортных сетей – это задача, направленная на эффективное управление потоками (грузов, данных и т.д.) с целью минимизации издержек, времени или загруженности сети, либо максимизации её пропускной способности. В данной работе исследуются различные модификации алгоритма Гарга-Кённемана, для решения данных задач, и анализируется его связь с методами онлайн-оптимизации. В частности, алгоритм рассматривается как онлайн-подход к решению офлайн-задачи оптимизации. Предлагаются и изучаются следующие модификации в среде алгоритма: замена поиска кратчайших путей на поиск почти кратчайших, включая их нахождение с помощью параллельных алгоритмов; использование случайно взвешенных путей и методы их генерации; внедрение адаптивного выбора шага для улучшения производительности.
Данная работа является частью большой статьи Д.А. Пасечнюка, в которой теоретическая верхняя граница максимально допустимого уровня аддитивного шума (MALN) в выпуклой, непрерывной по Липшицу оптимизации нулевого порядка используется, чтобы установить соответствующие верхние границы для классов сильно выпуклых и гладких задач. В этой работе неконструктивно была получена граница для гладкого случая с помощью техники $l_2$-сглаживания (усреднения функции по шару в $l_2$ норме).
В работе исследуется проблема дообучения больших языковых моделей (LLM) в условиях ограниченных ресурсов. Под ограниченными ресурсами понимается видеопамять, человеческое участие и время обучения. В работе рассматриваются модели до 1.5B. Предлагается метод дообучения, основанный на внедрении адаптеров LoRA, малоранговых раложений матриц, в слои архитектуры трансформера, и использовании стратегии self-play - текущая итерация генерирует предсказания, а обучающаяся повышает качество с помощью разграничения настоящих предсказаний от сгенерированных. Метод может снизить количество обучаемых параметров в 10000, и память в три раза, также он не требует размеченных данных помимо используемых на этапе SFT.
В данной работе исследуется применение методов оценки неопределенности для повышения качества детекторов машинно-сгенерированного текста при обработке данных, содержащих атаки, такие как омоглифы, перефразирование и зашумление. Эти атаки не только позволяют обходить детекцию, но и служат для тестирования устойчивости детекторов. Мы проверяем гипотезу о том, что методы оценки неопределенности могут обеспечить более устойчивый подход, устраняя необходимость постоянного дообучения при различных видах атак. Предлагается подход, сочетающий оценку неопределенности с классификаторами на основе скрытых представлений языковых моделей. Эксперименты на датасетах M4GT и RAID демонстрируют конкурентоспособную точность (ROC-AUC 0.8977) при значительно меньших вычислительных затратах по сравнению с тонкой настройкой больших языковых моделей (fine-tuning LLM).
В работе предлагается стратегия дообучения LLM Последнего слова сначала, которая переносит ключевое для рифмовки слово в начало каждой строки, сохраняя при этом левосторонний порядок генерации и тем самым позволяя использовать преимущества предварительно обученных моделей. Эксперименты на корпусе песенных текстов на английском, что данная стратегия значительно повышает точность рифмовки и читабельность по сравнению с существующим подходом обратного языкового моделирования, при этом требуя меньше данных и вычислений.
В данной работе рассматривается задача классификации многомерного временного ряда, представляющего собой электроэнцефалограмму головного мозга человека. Стандартные подходы, использующие двухмерные свертки, не могут учесть пространственную структуру сигнала, поскольку датчики, считывающие показатели, находятся на сферической поверхности. В качестве решения предлагается использовать графовое представление функциональных групп, а для моделирования использовать нейронную диффузию.
Идентификация человека по походке является перспективным методом биометрической аутентификации, позволяющим распознавать личность на расстоянии без физического контакта. Проект направлен на разработку инструмента, который использует методы машинного обучения для анализа статических и динамических характеристик движения для идентификации. С помощью стереокамеры Realsense и алгоритма YOLOv11x-pose извлекаются ключевые точки, что позволяет вычислить геометрические характеристики скелета человека(длины ребер и углы между ними, а также потом первые и вторые производные - всего 84 признаков). Применение нейросетевых архитектур, таких как LSTM, MLP, CNN обеспечивает высокие метрики F1-score, что говорит о надежности распознавания. В дальнейшем планируется использование трансформеров для повышения точности моделей.
В работе исследуются различные уязвимости в написании smart contacts на блокчейне Ton. Авторами разработан инструмент, позволяющий находить и предотвращать проблемы в коде до развертывания контрактов в основной сети.
В работе исследуются различные уязвимости в написании smart contacts на блокчейне Ton. Авторами разработан инструмент, позволяющий находить и предотвращать проблемы в коде до развертывания контрактов в основной сети.
В данной работе рассматривается модификация безградиентного метода Stochastic Three Points (STP). Ожидается получить ускорение в теоретических оценках сходимости, а также улучшение (в среднем) на практике.
В работе исследуется возможность использования языковых моделей (LLM) для автоматической разметки семантических ролей (Semantic Role Labeling, SRL) в русскоязычных текстах. Предложен подход на основе few-shot обучения с использованием корпуса FrameBank. Проведено сравнение эффективности модели Gemini 2.5 Flash с традиционными методами SRL.
Данная работа посвящена сравнительному анализу эффективности технологий параллельного программирования MPI и OpenMP для вычислительных задач. В работе исследуются особенности архитектуры и масштабируемость этих технологий на многопроцессорных и многопоточных системах, применение MPI для распределенных вычислений и OpenMP для параллельной обработки в рамках общей памяти.
В работе исследуются способы решения задачи Query Optimization. Рассматриваются конкретные решения, использующие метод многоруких бандитов. Среди таких решений выделяется одно конкретное с названием Bao, использующее семплирование Томпсона. Данное решение требует проверки на практике, а также исследования на возможность доработки. Проверка производится с помощью датасета, построенного на базе данных IMDB.
This paper studies the targeted college admission problem,
where students are matched to schools and firms simultaneously. We analyze conditions for stable matchings, demonstrating existence under structured preferences (e.g., homogeneous firm-school rankings or fixed capacities) and providing counterexamples where stability fails. An adapted
deferred acceptance algorithm is proposed for cases where stability is guaranteed.
В своем докладе я планирую обозреть результаты про то, как устроено распределение 2-групп Зельмера квадратичных скручиваний у эллиптических кривых. Начну с определений, в основном я буду говорить про результат Суиннертона-Даера (2008), который стал отправной точкой, а в конце сформулирую современные результаты (2017, 2022). Также эта тема очень тесно связана с классической задачей о конгруэнтных числах(те, которые являются площадью треугольника с рациональными сторонами), и последние результаты имеют прямое приложение к ней.
Строится исчисление концов метрических пространств относительно грубых и других аналогичных отображений. Получены формулы, связывающие концы метрических пространств при наличии накрытия (грубого или обладающего свойством поднятия путей) одного пространства другим. Доказано, что при таких отображениях количество концов не увеличивается. Важный пример применения этих результатов – исследование числа концов в диаграммах сопряженности и других графах, порождаемых действием группы на себя.
Для простого $p\geq 3$ кривая Ферма $x^p+y^p=z^p$ разветвлённо накрывает прямую. Промежуточные кривые при этом накрытии - кривые Фаддеева. Они также описываются уравнениями $y^p=x^k(x+1)$, где $k\in\{1,2,\ldots,p-2\}$. В этой работе рассмотрены некоторые свойства групп автоморфизмов кривых Фаддеева. Кроме того, приведён достаточно простой и естественный способ выпуклой триангуляции треугольника Ньютона кривых Фаддеева на $p$ целочисленных треугольников, что задаёт разрешение особенностей многообразий вида $\mathbb{C}^3/\Gamma$, где $\Gamma$ - циклическая подгруппа $SL_3(\mathbb{C})$ порядка $p$.
В работе рассматриваются некоторые свойства скалярного произведения на пространстве квадратично интегрируемых по банаховой мере функций.
В частности, мы исследовали, что
функции $\{\exp{(i\alpha x )},\, \alpha\in\mathbb{R} \}$ образуют континуальную ортонормированную систему, и что
ядро преобразования Фурье по банаховой мере, действующего в пространство со считающей мерой, является аннулятором замыкания пространства конечных линейных комбинаций функций из $\{\exp{(i\alpha x )},\, \alpha\in\mathbb{R} \}$.
В задаче построения голограмм возникает задача восстановления аргументов компонент некоторого комплексного вектора, если известны их модули и то, что этот вектор минимизирует определенную функцию. Для решения этой задачи Gershberg и Saxton в свое время предложили алгоритм, который сходится достаточно медленно. Моя задача заключается в том, чтобы адаптировать этот алгоритм к похожей, но несколько более сложной задаче и предложить методы его ускорения.
Есть функции, которые графу сопоставляют число. Например, числа рёбер, вершин, независимости и компонент связности. Конкретно эти 4 объединены некоторыми общими свойствами.
Можно задать естественный вопрос:
А для каких наборов характеристик существует такой граф?
На этот вопрос даёт ответ теорема Турана.
Но что будет, если рассматривать некоторый класс графов?
Например, дистанционные или планарные?
Доклад будет про диофантовы приближения на квадратичных поверхностях, по разным нормам. Предполагаемый результат - уменьшение некоторых констант, а также обобщение некоторой теоремы о приближении по одной норме, с заменой на приближение одновременно по нескольким нормам.
Abstract:
Мы расширяем результат статьи Gloeckle (2024), заключающийся в том, что LLM обученная с несколькими дополнительными головами (используя метод multi token prediction) получается лучшего качества. В нашей работе мы показываем, что используя multi token prediction, можно улучшить также качество Fine Tuning-а моделей. Также в данной работе улучшения появляются начиная с размера моделей 1B, в том время как в оригинале - начиная с 7B.
Несмотря на значительные успехи глубокого обучения в обработке изображений и текстов, его применение к табличным данным традиционно сталкивалось с существенными ограничениями. Ансамблевые методы, такие как XGBoost и CatBoost, долгое время демонстрировали превосходство над нейронными сетями в задачах обработки табличных данных, сочетающих категориальные, числовые и бинарные признаки. Однако в последние годы достижения в области Tabular Deep Learning позволили моделям на основе многослойных перцептронов (MLP) превзойти традиционные подходы.
В данной работе мы исследуем перспективы применения новой архитектуры - сетей Колмогорова-Арнольда (KANs), основанной на фундаментальной теореме о представлении многомерных функций в виде суперпозиции одномерных. В отличие от классических MLP, использующих фиксированные активационные функции, KANs заменяют линейные преобразования на параметризованные сплайнами обучаемые одномерные функции, что потенциально обеспечивает: (1) более точную аппроксимацию сложных зависимостей, (2) повышенную адаптивность к особенностям данных, и (3) улучшенную обобщающую способность модели.
Абстракт. Задача визуального определения местоположения (visual place recognition) является ключевой для обеспечения надежной локализации и навигации автономных роботов. Однако использование визуальных данных сопряжено с трудностями, связанными с изменением ракурса камеры и частичными изменениями окружающей сцены, например, из-за перемещения объектов. Алгоритм SegVLAD предлагает решение этих проблем, формируя эмбеддинги не для всего изображения целиком, а для его отдельных сегментов. В оригинальной версии SegVLAD визуальные признаки извлекаются с помощью DINOv2, а агрегация осуществляется методом VLAD. В данной работе предпринимается попытка улучшения этого подхода путём замены данной связки на более современный метод Bag of Queries, специально разработанный для задач визуального определения местоположения.
В современном мире активно используются языковые модели и не менее важно их правильное дообучение (fine-tuning), например, техника low rank adaptation (LoRA), которая добавляет к выделенным слоям тренируемые параметры. Однако LoRA требует много памяти для достижения точных результатов, потому что на все слои добавляются адаптеры одинаковых рангов, и интуиции, на какие слои ее необходимо добавлять. В данной статье мы презентуем новый метод дообучения больших языковых моделей SimplexLoRA, который обходит обе эти проблемы с помощью адаптивного изменения рангов адаптеров. В результате работы метода ранги адаптеров на самых важных слоях становятся больше, а количество обучаемых параметров не изменяется. Мы провели эксперименты на бенчмарке GLUE, которые демонстрируют эффективность нашего подхода, и представим результаты на защите работы.
Language models have become central to many AI applications. Effective fine-tuning
is essential to adapt these models to specific tasks. Traditional methods like Low-Rank
Adaptation (LoRA) add fixed-rank adapters to all layers, often resulting in memory
inefficiency due to non-optimal layer selection. We propose SimplexLoRA, a novel
fine-tuning framework that adaptively scales adapter ranks using simplex-constrained
weighting, optimizing both memory usage and performance.
In this paper, we address the problem of detecting manipulations in biological images. Ensuring the integrity of biological image data is essential for reliable scientific research. The study focuses on developing a model for pairwise image comparison using contrastive learning, demonstrating high pairwise comparison metrics to detect manual modifications or more subtle alterations. The proposed method outperforms state-of-the-art models, including SimCLR and Barlow Twins, in the task of biological image comparison on complex cell datasets. This work contributes to automated fraud detection and data validation in biological research.
Тезис:
В связи с улучшением качества машиносгенерированных изображений становится очень сложно отличать реальное изображение от сгенерированных. Существующие на данный момент решения имеют низкую обобщающую способность. В этой статье рассматриваются разные модели, в том числе несвязанные с нейронными сетями. Также используется вся существующая информацию и модели, для подбора наилучшего решения. Дополнительно строится модель, которая сначала проверяет метод генерации, потом уже использует конкретную модель для этого метода генерации. Помимо этого, используются методы графических редакторов, на основе искусственного интеллекта.
Аннотация:
В современном мире в связи с развитием генераторов изображений человеческому глазу стало уже слишком сложно отличать настоящие изображение от машиносгенерированное. Ещё сложнее человеку отличить реальное изображение от реального, но с использованием графического редактора. В связи с доступностью этих сервисов стали очень распространены разные виды мошенничества, использующие машиногенерацию. Таким образом задача детекции машинносгенерированных изображений стала очень важна.
На данный момент не существует общего подхода к решению этой задачи, устойчивого относильно появления новых моделей. Например, появление диффузионных моделей генерации изображений свело сущесвтующие на тот момент методы к точности около 60 процентов. Таким образом, существующие на данный момент методы имеют низкую обобщающую способность. Актуальные научные статьи на эту тему можно поделить на три типа: построение устойчивой модели с помощью добавления новых типов генерации в фазу обучения, решение задачи с помощью методов, не использующих AI (с помощью классических методов и рассмотрения спектра света), создание новых более мощных датасетов для данный задачи.
AI-модели обучается на всё более новых и новых датасетах, включая в себя новые способы генерации, создаются способы онлайн-обучения, что улучшает постепенно качество, но концептуально не отличается от предыдущих методов и не обеспечивает устойчивость в случае, если появится более инновационный метод генерации. До появления диффузионных моделей высокое качество показывал метод, рассматривающий спектр по Фурье. Но на диффузионных моделях не показывает уже высокого качества.
Таким образом, в этой статье проводится попытка объединить существующие методы и найти новый способ детекции машиносгенерированных изображений. Новизна заключается в объединении методов и построении модели, предполагающей сначала тип генерации, а потом проверяющей на генерацию сгенерировано ли изображение уже непосредственно с предположением определенного типа генерации.
Преимущество этого подхода заключается в подборе оптимальной модели для конкретного класса генирации, проблема заключается в высокой цене ошибки: если произойдет ошибка в предсказании класса генерации, то будет использоваться заведомо плохо подходящая модель
В качестве векторизатора мы используем предобученный, который используется во множестве разных исследований для разных целей и задач, в том числе используется в качестве векторизатора для задач классификации.
В наше время понимание того, как мозг воспринимает и обрабатывает внешние раздражители, имеет ключевое значение для развития нейронауки и совершенствования методов диагностики. В данной работе мы исследуем взаимосвязь между восприятием человеком окружающего мира и сигналами, регистрируемыми фМРТ-сканером. Анализ направлен на выявление корреляции между последовательностью фМРТ-изображений и звуковым сигналом. Предлагается методика прогнозирования фМРТ-ответов на основе акустической последовательности. Для решения задачи предсказания сложных, нелинейных временных рядов, находящихся под воздействием внешних факторов и обладающих множественными периодичностями, применяется линейная регрессия.
В задачах промышленного контроля качества с использованием компьютерной томографии (КТ) критически важна точная сегментация внутренних дефектов объектов, таких как пористость, трещины и инородные включения. Несмотря на широкое распространение в медицине, современные нейросетевые архитектуры ещё не получили должного распространения в промышленной КТ.
В рамках данной работы был проведён анализ применимости архитектур nnU-Net и Unet++, изначально предназначенных для медицинской сегментации, к промышленным задачам. Модели были обучены на открытых медицинских датасетах, после чего произведено сравнение с популярными решениями от Ultralytics (YOLOv8-seg). Результаты показали значительное преимущество nnU-Net по точности и универсальности на ограниченных объемах данных без необходимости ручной настройки.
Модель IoU (%) Dice (%) Precision (%) Время инференса (GPU)
YOLOv8-seg 75.4 81.2 78.5 ~80 мс/срез
Unet++ 82.6 86.1 84.3 ~130 мс/срез
nnU-Net 88.7 91.5 89.2 ~180 мс/срез
Основной функцией потерь при обучении являлась Dice Loss, в ряде экспериментов дополненная Focal Loss для повышения чувствительности к мелким дефектам. Также была протестирована Tversky Loss, позволяющая регулировать вклад ложно-положительных и ложно-отрицательных ошибок — что важно при промышленной оценке.
Следующим этапом проекта является переобучение nnU-Net на промышленных КТ-данных, с возможной модификацией архитектуры под особенности промышленных артефактов (шумы, плотные материалы, неоднородности), что позволит уйти от медицинских предпосылок в сторону производственных применений.
Исходя из результатов в таблице, нейросетевые методы, особенно nnU-Net, обладают высоким потенциалом в задачах промышленной сегментации, при этом требуется дальнейшая адаптация и тестирование на специализированных КТ-датасетах.
Устная речь широко используется психиатрами для описания психического состояния пациентов, например выявления депрессии. Наиболее распространенный способ оценки степени депрессии это шкала Гамильтона(HDRS). Результаты ее применения все равно достаточно субъективны, поэтому возможность использования методов машинного обучения крайне актуальна. Доступность предобученных больших мульти-язычных моделей типа wave2vec2 и новых методов анализа спектрограмм позволяет выполнять анализ речевого высказывания с учетом контекста, без усреднений параметров, как в существующих подходах.
Устная речь широко используется психиатрами для описания психического состояния пациентов, например выявления депрессии. Наиболее распространенный способ оценки степени депрессии это шкала Гамильтона(HDRS). Результаты ее применения все равно достаточно субъективны, поэтому возможность использования методов машинного обучения крайне актуальна. Доступность предобученных больших мульти-язычных моделей типа wave2vec2 и новых методов анализа спектрограмм позволяет выполнять анализ речевого высказывания с учетом контекста, без усреднений параметров, как в существующих подходах.
В то время как ансамблевые методы традиционно обучают модели независимо, в этой статье исследуется смешанный подход,
который сочетает независимое обучение с оптимизацией совместных потерь. Удивительно, но эта идея имеет потенциал
в нескольких вариантах ансамблевого обучения. Наше направление относится к федеративному обучению (FL),
где мы стремимся обучать ансамбль как глобальную модель. Мы предлагаем новый алгоритм для этих задач.
С помощью обширных экспериментов мы демонстрируем, что наши предлагаемые подходы превосходят известные бейзлайны в сценариях FL с
экстремальной неоднородностью данных.
Пока традиционные методы ансамблирования обучают модели независимо, в данный работе исследуется гибридный подход, комбинирует независимое обучение с "joint loss"-оптимизацией. Неожиданно эта идея имеет потенциал в нескольких вариантах обучения ансамблей. Первый -- это "aligned training", где члены обучаются строить наиболее скоординированные прогнозы. Второе направление относится к федеративному обучению, где мы стремимся обучать ансамбль как глобальную модель. Мы предлагаем новый алгоритм для решения этих задач, через эксперименты показывая, что он превосходит бейзлайны в сценариях федеративного обучения при высокой неоднородности данных.
Работа посвещена проблеме эквифинальностей моделей в области гидрологического прогнозирования. Исследуются классические модели машинного обучения на их восприимчивость к важным статическим характеристикам датасетов.
Вариационные неравенства (VI) появились как универсальная структура для решения широкого круга задач.Стохастические методы оказались мощными инструментами для решения таких задач, но они часто страдают от неустранимой дисперсии, что требует разработки методов снижения дисперсии. В этой работе мы предлагаем новый алгоритм со сниженной стохастической дисперсией для решения стохастических вариационных неравенств.
In [1], an information-theoretic model of massive uncoordinated multiple access was introduced and a random coding bound was obtained that can be applied in both asymptotic and non-asymptotic regimes. An improvement for the asymptotic regime was proposed in [2] using Gordon’s lemma on the minimum of a Gaussian process. In this work, we are going to prove a non-asymptotic analogue of the second bound that behaves similarly in the asymptotic regime.
Мы предлагаем новый стохастический алгоритм ExtraSAGA для решения вариационных неравенств, сочетающий преимущества ExtraGradient и SAGA с редукцией дисперсии. Теоретически доказана сходимость метода, а его эффективность подтверждена различными экспериментами. Работа расширяет возможности применения VI в оптимизации и машинном обучении.
В ходе рассмотрения топологических путей решения двойственной задачи линейного программирования возникло несколько проблем. Одна из них заключается в том, что отстутствует чёткий алгоритм для нахождения сбалансированного множества в Теореме Комии. В данном докладе будет рассмотрено алгоритмическое доказательство более слабой Теоремы KKMS, но важной для понимания, как можно было обобщить приведённый в ней алгоритм.
In Machine Learning, the non-smoothness of optimization problems, the high cost of communicating gradients between workers, and severely corrupted data during training necessitate further research of optimization methods under broader assumptions. This paper explores the efficacy of sign-based methods, which address slow transmission by communicating only the sign of each stochastic gradient. We investigate these methods for $(L_0, L_1)$-smooth problems, which encompass a wider range of problems than the $L$-smoothness assumption. To address the problem of data accuracy, we introduce the convergence bounds for $(L_0, L_1)$ -SignSGD and -M-SignSGD under heavy-tailed noise, defined as noise with bounded $\kappa$-th moment $\kappa \in (1,2]$.
В данной работе рассмотрены классические методы разделения операторов для решения ОДУ. Были получены общие локальные ошибки классических методов, а также оценки на норму коммутаторов, которые позволили оценить данные ошибки сверху. Также был построен обобщенный симметричный метод в случае разбиение исходного дифференциального уравнения на $N$ векторных полей, проведены оценки локальной ошибки и исследована стабильность нового метода.
Работа посвящена исследованию уязвимостей LLM-агентов, интеграция которых в бизнес-процессы (клиентская поддержка, управление данными) сопровождается рисками утечек информации, финансовых потерь и репутационного ущерба. На основе анализа 15+ научных работ (2023–2025 гг.) и реальных инцидентов (взлом ChatGPT, манипуляция агентом Microsoft Tay) систематизированы ключевые типы атак: джейлбрейки, эксплуатация API и непрямое внедрение вредоносных промптов через сторонние ресурсы. Критически оценен бенчмарк Agent Security Bench (ASB), чьи методы предполагают знание внутренней архитектуры агентов, что ограничивает их применимость. В качестве альтернативы предложена концепция унификации проверочных агентов, основанная на формализации атак и динамической генерации тестовых сценариев. Несмотря на незавершенность реализации фреймворка, работа формирует основу для создания адаптивных систем защиты, способных эволюционировать вместе с угрозами.
\section{Аннотация}
В данной работе рассматривается применение сетей Колмогорова-Арнольда (далее - KAN) в задачах computer vision. Были рассмотрены классические датасеты, такие как MNIST, CIFAR10, CIFAR100, показана неэффективность использования KAN в качестве выходного слоя в задачах классификации. Также был выделен класс задач, в котором использоание KAN - наиболее эффективно. Эксперименты на датасете DIBCO показали улучшение качества бинаризации документов при добавлении линейных KAN-слоёв в UNET архитектуру.
В работе рассматриваются различные формы применения periodic embeddings с такими моделями, как MLP. Проводятся эксперименты по обучению периодических весов на разных датасетах и моделях.
Генеративные модели большого масштаба продемонстрировали выдающиеся результаты в задаче синтеза изображений по текстовому описанию. Одним из ключевых направлений их применения является генерация персонализированных изображений. Распространённые подходы к персонализации, как правило, предполагают использование дополнительных входных данных, таких как элементы контроля или множество ракурсов объекта. В данной работе мы предлагаем метод, обеспечивающий высококачественную генерацию персонализированных изображений исключительно на основе текстового ввода, без необходимости в дополнительной информации. Основная идея заключается в обучении латентного вектора в рамках вариационного автокодировщика (VAE), который кодирует сведения о телосложении и пропорциях человека. Наша модель, $\textit{Body Lightning ID Diffusion}$ (BoLID), расширяет архитектуру IP-Adapter, сохраняя неизменной основную диффузионную модель. Вместо изменения базового генератора мы обогащаем латентное представление до обучения адаптеров. Последние могут быть обусловлены как выученным латентным вектором, так и входным изображением. Предлагаемый подход демонстрирует конкурентоспособные результаты по стандартным метрикам оценки качества, таким как Fréchet Inception Distance (FID) и Inception Score (IS).
В данной работе рассматривается применение мультимодальных языковых моделей (MLLM) к задаче визуального вопросно-ответного анализа (Video Question Answering, VideoQA) на основе видеоданных. Предложеный модульный подход включает отбор ключевых кадров с использованием CLIP, построение графа сцены по пространственно-семантическим отношениям между объектами с помощью MLLM и генерацию ответа на вопрос пользователя. Проведено экспериментальное сравнение различных MLLM и методов представления визуальных объектов.
Исследование посвящено улучшению методов прогнозирования и классификации временных рядов с длинными и сложными зависимостями. Предложен гибридный подход, основанный на контрастивном обучение для преобразования данных в векторное представление, который объединяет несколько методов. Он адаптивно учитывает корреляцию данных, эффективно обрабатывает сложные зависимости и минимизирует вычислительные затраты для слабоскоррелированных наборов.
Understanding how a neural network’s loss landscape changes as we add more training data is important for efficient training. Although larger datasets reshape this high-dimensional surface, the point when extra data stop making a big difference is unclear. We show that near a local minimum the loss landscape stabilizes once the dataset exceeds a certain size. To study this, we project the full parameter space onto a lower-dimensional subspace formed by the Hessian’s top eigenvectors, highlighting the most important curvature directions. Within this subspace, we use Monte Carlo sampling to estimate how the loss changes more precisely. Experiments on standard image classification tasks demonstrate that our low-dimensional analysis pinpoints when the landscape stops evolving, offering practical guidance for balancing training cost with performance improvements.
Задача линейного программирования (ЛП)(1) является одной из самых распространенных задач, к которой можно свести очень большой класс проблем. Она имеет эффективный метод решения - Simplex-method, однако асимптотика его решения при некоторых условиях может вырождаться в экспоненциальную, что является неэффективно, однако в среднем она имеет линейную асимптотику, что приемлемо для этой задачи. Также есть решения, основанные на методе внутренней точки, они даже работают быстрее для разреженных задач с большой размерностью. В текущей работе предлагается алгоритм ускорения данного метода, основанный на требовании оптимальности(3) решения, что можно переписать следующим образом.
В работе предлагается обобщение метода кубической регуляризации Ньютона на случай $(L_0, L_1, L_2)$-гладкости третьего порядка. Показано, как адаптивный выбор параметра регуляризации позволяет обеспечить сходимости без предположения о глобальной ограниченности $\nabla^3 f(x)$. Представлены теоретические выкладки, оценка остаточного члена с помощью неравенства Гронуолла.
В работе исследуется асимптотическое поведение функции Беллмана ( V(t, x) ) в задачах оптимального управления с особыми режимами второго порядка. Основное внимание уделено построению оценок сингулярных составляющих решения уравнения Гамильтона-Якоби-Беллмана (HJB) вблизи особых траекторий, а также анализу устойчивости таких решений. Предложен метод регуляризации вырожденного гамильтониана и асимптотического разложения функции стоимости, что позволяет получить явные оценки вида ( V(t, x) ~ dist(x, Gamma)^3/2. Работа вносит вклад в теорию сингулярных возмущений и методы численного решения HJB-уравнений.
В настоящее время важной задачей математической оптимизации стало федеративное обучение, когда данные и/или части оптимизируемой функции распределены между множеством клиентских устройств и сервером, содержащим большую часть данных и обладающим наибольшими вычислительными мощностями. В такой ситуации ключевым становится не количество итераций алгоритма, а количество коммуникаций между клиентом и сервером, причем, используя знания о гомогенности данных на устройствах и сервере, можно варьировать количество коммуникаций по тем или иным данным, сокращая количество “тяжелых” коммуникаций. В нашей работе к такой задаче с коммуникационно тяжелым композитом строится стохастический проксимальный метод со смещенным аппроксиматором, в попытке добиться как наилучших оценок сходимости, так и разделения сложностей, а также проводятся численные эксперименты.
В последние годы одной из ключевых задач математической оптимизации стало федеративное обучение — сценарий, в котором данные и/или компоненты оптимизируемой функции распределены между множеством клиентских устройств и центральным сервером, обладающим наибольшими вычислительными ресурсами и часто хранящим основную часть данных. В таких условиях важную роль играет не столько количество итераций алгоритма, сколько число коммуникационных раундов между клиентами и сервером. При этом, используя информацию о гомогенности распределения данных, можно адаптивно регулировать частоту обменов, уменьшая количество ресурсоёмких коммуникаций. В данной работе рассматривается задача с коммуникационно затратным композитом; для её решения предлагается стохастический проксимальный метод со смещённым аппроксиматором, направленный на достижение оптимальных оценок сходимости при сохранении разделения сложностей. Также представлены результаты численных экспериментов, подтверждающие эффективность предложенного подхода.
Проект посвящен разработке методов локализации робота в условиях отсутствия спутниковых сигналов с использованием графа 3D-сцены. Основная задача включает отслеживание перемещения объектов по последовательности изображений и прогнозирование изменений сцены. В работе проведен анализ современных методов трекинга, таких как CoTracker3 и SAM-2, выбрана оптимальная модель, а также разработан алгоритм для трекинга и визуализации результатов, проведено сравнение методов. Результаты проекта планируется внедрить в практику совместно с Центром робототехники Сбера.
This work investigates a hybrid approach to financial forecasting that integrates sentiment analysis of investor-generated content with traditional technical indicators. Experimental results showed that incorporating sentiment data significantly improves predictive accuracy when combined with technical features. Two neural network models: RuBERT and FISHQA—are compared for their effectiveness in classifying sentiment within Russian-language financial texts. The study confirms that domain-specific sentiment analysis can enhance model interpretability and forecasting performance in financial analytics.
Разработан zero-shot алгоритм генерации семантического графа сцены (SG) для одиночных RGB-изображений, предназначенный для визуальной локализации роботов. Пайплайн RAM++ → YOLO-World → MobileSAM извлекает маски объектов; далее numpy C-расширение формирует граф контактов, а jina-CLIP-v1 выбирает предикаты по косинусному сходству без дообучения. На Visual Genome достигнут mR@100 = 8.9 % (задача PredCls) — уровень IMP (2017). Подготовлен открытый обзор 22 SOTA-статей. Пайплайн был протестирован на новом датасете Sber Office.
В работе рассматривается задача обработки изображений, полученных со сканера паспорта РФ с разными типами оптической подсветки. Целью исследования является устранение бликов и других артефактов, мешающих анализу защитных элементов документа. Воспроизведён бейслайн-метод, изначально реализованный в драйверах сканера, который позволял частично улучшить качество изображения, но не решал задачу выделения гербов. В рамках проекта был разработан новый метод, основанный на анализе цветовых квантилей яркости, а также начата работа над обучаемыми решениями с использованием методов машинного обучения.
В работе рассматривается метод распознавания рукописных символов на графовом представлении изображений с использованием сверточных графовых нейросетей. Предложенный подход позволяет сократить объем памяти и повысить эффективность по сравнению с классическими сверточными сетями.
В данной работе рассматривается распознавание текста на основе скелетного представления линий с шириной. Сравниваются различные подходы построения графовых моделей для классификации символов. При этом учитываются размеры моделей поскольку цель работы - сделать оптимальную по потребляемым ресурсам модель
Representing molecular structures effectively in chemistry remains a challenging task, with both string- and graph-based approaches commonly employed. Language models and graph-based models are extensively utilized within this domain, consistently achieving state-of-the-art results across an array of tasks. However, the prevailing practice of representing chemical compounds in the SMILES format -- used by most data sets and many language models -- presents notable limitations as a training data format. In this study, we present a novel approach that decomposes molecules into substructures and computes descriptor-based representations for these fragments, providing more detailed and chemically relevant input for model training. We train a language model on this substructure and descriptor data and propose a bimodal architecture that integrates this language model with graph-based models including RoBERTa, Graph Isomorphism Networks (GIN), Graph Convolutional Networks (GCN) and Graphormer. Our framework shows notable improvements over traditional methods in various tasks such as Quantitative Structure-Activity Relationship (QSAR) prediction.
Ищется оптимальная конструкция кодов-векторов для передачи сообщений с минимумом ошибок. Рассматривается случай сферы внутри n-мерного пр-ва, n+1 вектора и белого гауссовского шума. Утверждается, что тогда наилучшим расположением будут вершины правильного n-мерного симплекса.
В докладе будет рассказано об общих идеях нескольких работ последних лет, в которых улучшаются верхние оценки для диагональных чисел Рамсея. Основное внимание будет уделено следующим двум теоремам.
1. Для всех достаточно больших $k \in \mathbb{N}_1$ имеет место неравенство $R_2(k) \leq 3.8^{k + o(k)}$.
2. Для каждого $r \in \mathbb{N}_1$, $r \geq 2$ существует такое $\delta = \delta(r) > 0$, что для всех достаточно больших $k \in \mathbb{N}_1$ имеет место неравенство $R_r(k) \leq e^{-\delta k}r^{rk}$.
Данная работа посвящена исследованию вычислительной сложности настольных и компьютерных игр. Основной результат заключается в доказательстве PSPACE-полноты игры Diamond Rush с использованием подхода, изложенного в книге Games, Puzzles, and Computation авторов R.A.Hearn и E.D.Demaine.
В данной работе изучаются оценки чисел Рамсея, обобщённые на случай произвольных последовательностей графов. Вводятся обобщения классического числа Рамсея: $R_{\min}(\{G_n\}, k)$ — минимальное число $m$ для натурального $k$, при котором в любом остовном подграфе $G$ или его дополнении $G_m \setminus G$ содержится индуцированный подграф изоморфный некому индуцированному подграфу $G_m$ на $k$ вершинах. Аналогично вводится $R_{\max}(\{G_n\}, k)$.
Экстракторы - это функции, преобразующие источники случайности в близкие к равномерным. Существование экстракторов с хорошими параметрами может быть доказано вероятностным методом, но для приложений нужны явные конструкции. В работе представлены современные результаты по явным конструкциям экстракторов с одним и двумя независимыми источниками. Изложена конструкция экстрактора с одним источником, близкая к неявной с точностью до константы. Также изложена недавняя конструкция экстрактора для двух источников с мин-энтропией $k= O(\log n)$.
В работе рассматриваются числа ван дер Вардена для многомерных арифметических прогрессий. Дано определение многомерной прогрессии и обосновано существование соответствующих чисел w(l₁; l₂; … ; lₘ; r). Приводится верхняя оценка этих чисел на основе классической теоремы ван дер Вардена и теоремы Гауэрса.
Распространенным способом съемки гиперспектрального изображения (ГСИ) является линейное сканирование, при котором камера движется относительно сцены, и изображение регистрируется построчно. При такой съемке с борта летательного аппарата камера движется нестабильно, что приводит к искажениям на результирующем ГСИ. Для компенсации этих искажений используют гиростабилизированный подвес камеры, а также методы ректификации ГСИ на основе данных телеметрии, однако точность результата может быть всё еще недостаточной из-за погрешностей датчиков. В этом случае качество изображения может быть улучшено при помощи геометрической коррекции с использованием опорного изображения той же сцены, снятого одним кадром на RGB-камеру, установленную на летательном аппарате рядом с ГС-камерой. В работе предложен метод геометрической коррекции ГСИ по опорному RGB-снимку на основании алгоритма динамического программирования dynamic time warping. Качество метода было проверено с использованием датасета, аугментированного по открытым данным проекта AVIRIS. Алгоритм позволяет улучшить качество изображений в модели одномерных сдвигов и в модели комбинации сдвигов и вращений полос в плоскости изображения.
Работа посвящена исследованию динамики мнений пользователей социальной сети ВКонтакте. На основе лонгитюдных данных предлагается провести имитационное моделирование, чтобы выявить влияние структуры социального окружения на изменение взглядов, особенно у пользователей с умеренными позициями.
В данной работе исследуется методика применения обновлений к разделам ARINC-653 совместимой операционной системы реального времени (ОСРВ) без перезагрузки. Будет описан имеющийся в рассматриваемой ОСРВ программный интерфейс для применения горячих обновлений и будут исследованы способы его использования для обновлений различного объёма.
Данная работа ставит своей целью создание инструмента общего назначения для автоматизированного динамического анализа поведения ПО под Android. Разработанный инструмент основан на фреймворке Frida и предназначен для отслеживания вызовов Java-методов (call monitoring) в целевых процессах, с фокусом на Android API, но с возможностью трассировки и пользовательского кода. В отличие от классических низкоуровневых механизмов, таких как ptrace, предложенный инструмент представляет собой более высокоуровневую альтернативу, адаптированную к архитектуре Android. Последняя характеризуется строго модульной структурой в виде Java-пакетов, что позволяет сделать процесс перехвата унифицированным.
Frida — это кросс-платформенный фреймворк с открытым исходным кодом для внедрения JavaScript-кода в исполняемые процессы, широко используемый для динамического анализа. Он позволяет перехватывать вызовы методов, модифицировать поведение приложения во время исполнения и предоставляет свой API для работы с Java.
В ходе работы проводится обзор существующих решений, таких как frida-trace, House (от NCC Group) и Mobile Security Framework. Все они также за основу используют Frida, но обладают рядом ограничений – от отсутствия поддержки современных версий Android до сложности конфигурации и недостаточной гибкости при мониторинге. Предложенный инструмент устраняет эти недостатки, предоставляя пользователю готовую инфраструктуру для сбора и анализа данных без необходимости глубоких изменений в коде или сложной ручной настройки.
Инструмент работает по следующему принципу: пользователь подключается к выбранному процессу, загружает скрипты Frida, сгенерированные по набору конфигураций, после чего начинается мониторинг вызовов. Перехваченные данные логгируются, сохраняются в базу данных и отображаются в интерфейсе. Далее пользователь может выгрузить отчет для дальнейшего анализа. Такой подход позволяет использовать инструмент в различных сценариях – от поиска вредоносного содержания в сторонних приложениях до отладки и проверки собственного кода.
Создание скриптов для Frida, через которые и работает фреймворк, проходит посредством их генерации по простым конфигурациям, описанным в JSON-формате. Это позволяет избавить конечного пользователя от необходимости самостоятельно писать их на языке JavaScript и вникать в устройство API Frida. Данное решение в том или ином виде применяется и в других аналогичных средствах и позволяет при работе с инструментом сконцентрироваться на решении типовых задач.
В ходе исследования был составлен список некоторых методов Android API, которые потенциально могут работать с чувствительными данными. Разработанный инструмент был протестирован с использованием этого списка на ряде реальных приложений, включая образцы вредоносного ПО. Результаты показали его эффективность в обнаружении подозрительной активности и пригодность как для отладки, так и для практического использования исследователями безопасности.
В работе исследуются методы построения моделей временных рядов для прогнозирования нагрузочных характеристик серверов в кластере с целью оптимизации баланса между затратами на аренду вычислительных ресурсов и скоростью обработки запросов. Рассматриваются подходы к краткосрочному и долгосрочному прогнозированию на основе синтетических и реальных данных.
Работа посвящена теме механизма аннотации типов в языках программирования. Проведена имплементация механизма в развивающийся язык Étude, представлено сравнение языка с альтернативами. Исследовано влияние механизма аннотации типов на продуктивность при написании кода.
В настоящее время при изучении поведения людей в социальных группах все чаще используются большие языковые модели (LLM). Классические многоагентные модели не могут описывать всю комплексность человеческого поведения: к примеру, общение между агентами они описывают как обмен некоторыми численными характеристиками, упрощенно имитирующими взгляды или аргументы реальных людей, что крайне далеко от естественного языка, который используется в коммуникациях. LLM предоставляют достаточно экономичный способ моделировать социально-го взаимодействия без использования информации о настоящих людях, при этом достаточно правдоподобно воспроизводя реальный обмен мнениями. Более того, такой подход освобождает ученых от проведения дорогостоящих и сложных в организации и реализации лабораторных и натурных экспериментов.
Разрабатывается метод автоматической калибровки томографической установки. По набору снимков будут определятся наиболее важные геометрические параметры установки. На данный момент введён в рассмотрение наклон оси фантома, что дало уменьшение ошибки аппроксимации в 2 раза. Планируется ввести в рассмотрение другие параметры и предложить метод представление результатов в более удобном виде.
В настоящей работе рассматривается задача предкомпенсации изображений, направленная на улучшение восприятия цифровых изображений на дисплеях у пользователей с рефракционными аномалиями зрения. Предложен новый метод предкомпенсации, основанный на использовании алгоритма полуквадратичного разделения (HQS) для решения задачи оптимизации функционала, характеризующего качество предкомпенсации. Экспериментальные исследования на наборе данных SCA-2023 продемонстрировали существенное повышение скорости работы и сопоставимое качество ретинальных изображений по сравнению с существующими state-of-the-art методами.
В работе представлены результаты исследования методов сжатия данных для задач метеорологии и климатического моделирования. Проведён сравнительный анализ алгоритмов сжатия с потерями и без потерь, адаптированных к форматам NetCDF и HDF5. На основе метрик сохранения информации и вычислительной эффективности предложены рекомендации по выбору методов для различных типов данных. Результаты исследования показывают, что алгоритмы сжатия без потерь (lossless), несмотря на ограниченную степень сжатия, сохраняют свою значимость при работе с точными параметрическими данными. Оптимальное решение достигается за счет комбинации lossless- и lossy-методов, что позволяет найти баланс между степенью сжатия и сохранением информативности данных. Разработанные в ходе исследования методики обеспечивают коэффициент сжатия до 120:1 при сохранении 95% полезной информации.
В работе представлены результаты исследования методов сжатия данных для задач метеорологии и климатиче-
ского моделирования. Проведён сравнительный анализ алгоритмов сжатия с потерями и без потерь, адаптиро-
ванных к форматам NetCDF и HDF5. На основе метрик сохранения информации и вычислительной эффектив-
ности предложены рекомендации по выбору методов для различных типов данных. Результаты исследования
показывают, что алгоритмы сжатия без потерь (lossless), несмотря на ограниченную степень сжатия, сохраня-
ют свою значимость при работе с точными параметрическими данными. Оптимальное решение достигается за
счет комбинации lossless- и lossy-методов, что позволяет найти баланс между степенью сжатия и сохранением
информативности данных. Разработанные в ходе исследования методики обеспечивают коэффициент сжатия
до 120:1 при сохранении 95% полезной информации.
Работа посвящена адресной кластеризации как первому этапу де-анонимизации пользователей Bitcoin. Оценивается совокупность классических и дополнительных эвристик, причём их вклад измеряется изменением коэффициента кластеризации r = |C| / |S|.