![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
В данном исследовании рассматривается способность больших языковых моделей (БЯМ) оценивать приемлемость предложений по градуальной шкале. Ранее способность БЯМ оценивать приемлемость языковых выражений выявлялась в бинарных задачах. Мы представляем новый бенчмарк, данными для которого послужили результаты синтаксических экспериментов, посвященных вариативному согласованию в русском языке. Датасет включает 7013 предложений с оценками по шкале от 1 до 7, в которых представлены феномены вариативного согласования, соответствующие различным уровням приемлемости. С использованием датасета мы провели тестирование двух БЯМ на задаче градуальной оценки приемлемости в двух режимах диалога. Режим zero-shot включал только инструкцию, в режиме few-shot были добавлены тренировочные предложения и их оценки. Результаты показывают, что результат работы модели GigaChat-Pro, обучавшейся преимущественно на русскоязычных данных, зависит от режима тестирования: качество повышается в режиме few-shot. Качество мультиязычной модели Mistral Large выше и не зависит от типа инструкции. Mistral выявляет почти все значимые контрасты в одном из рассмотренных экспериментов, тогда как ответы модели GigaChat близки к случайным. Представленный корпус может быть использован не только для ранжирования БЯМ, но и для дообучения и улучшения качества русскоязычной генерации.