Speaker
Description
В данной работе исследуется применение методов оценки неопределенности для повышения качества детекторов машинно-сгенерированного текста при обработке данных, содержащих атаки, такие как омоглифы, перефразирование и зашумление. Эти атаки не только позволяют обходить детекцию, но и служат для тестирования устойчивости детекторов. Мы проверяем гипотезу о том, что методы оценки неопределенности могут обеспечить более устойчивый подход, устраняя необходимость постоянного дообучения при различных видах атак. Предлагается подход, сочетающий оценку неопределенности с классификаторами на основе скрытых представлений языковых моделей. Эксперименты на датасетах M4GT и RAID демонстрируют конкурентоспособную точность (ROC-AUC 0.8977) при значительно меньших вычислительных затратах по сравнению с тонкой настройкой больших языковых моделей (fine-tuning LLM).