![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
Проект направлен на исследование методов адаптации и переноса знаний в больших языковых моделях с целью повышения вычислительной эффективности в условиях ограниченных вычислительных ресурсов, а также качества при работе на русском языке и конкретных предметных областях.
In the era of digitalization and exponential data growth, artificial intelligence and natural language processing (NLP) are becoming key technologies for knowledge extraction and process automation. Large Language Models (LLMs) such as GPT demonstrate impressive results in a wide range of NLP tasks, but their practical application is limited due to significant computational requirements. In addition, despite successful application in general domains, such models often lose quality when transferred to another language (other than English) and to a specific domains. This project aims to develop new knowledge transfer methods that will improve the computational efficiency and quality of multilingual LLMs as applied to the Russian language, as well as methods for adapting language models to specific subject areas, in particular, jurisprudence. The project will make advanced NLP technologies more accessible to organizations with limited computing resources and facilitate the integration of these technologies into various fields of activity. The project will research and develop methods for optimizing tokenization, combining multiple language models, model compression, and efficient training, which will significantly improve the accessibility and applicability of language models in real-world applications. The project involves close interaction between theoretical research and practical experiments, including analysis of existing methods of knowledge transfer, model compression and their adaptation to modern large models. Experimental verification and validation of the developed methods on applied problems, such as named entity extraction, automatic annotation and question-answering systems, will confirm their practical value and potential for large-scale implementation.
В результате выполнения проекта будут разработаны новые методы адаптации больших языковых моделей, оптимизации токенизации моделей, повышения качества моделей в конкретных предметных областях. Разработанные методы позволят создавать новые более вычислительно эффективные языковые модели без существенной потери качества из существующих мультиязычных больших языковых моделей в условиях ограниченных вычислительных ресурсов, так как обучение таких моделей с нуля возможно только при наличии суперкомпьютеров, оснащенных современными графическими ускорителями (требуются сотни и тысячи видеокарт). Будет разработан новый стенд для оценки языковых моделей (далее - “бенчмарк”), ориентированный на тематики, актуальные для российской действительности - общества и бизнеса, а также на лингвистические особенности русского языка. С использованием разработанных методов будут обучены и выложены в открытый доступ новые модели, которые будут более вычислительно эффективными, но с минимальной потерей качества относительно исходных версий моделей. Наличие таких моделей позволит бОльшему количеству исследователей применять большие языковые модели на русском языке в задачах обработки естественного языка.
Коллектив имеет значительный опыт в адаптации больших языковых моделей для русского языка и предметных областей, а также в создании ресурсов и датасетов: Тихомиров М.М. разработал модель RuCyBERT для извлечения именованных сущностей в области IT/информационной безопасности, улучшив результаты на 10% по сравнению с базовыми методами. Тихомиров М.М. и Чернышев Д.И. разработали методологию (опубликовав серию из 3х работ) по адаптации больших языковых моделей на русский язык с заменой токенизации. На основе разработанной методологии обучили модели RuadaptQwen2.5, которые за счет улучшенной токенизации получили ускорение генерации русскоязычного текста до 100% при этом сохраняя свое исходное качество работы, как на русском, так и на английском языках. Чернышев Д.И. разработал метод ClusterVote для построения псевдо-аннотаций в мультидокументном аннотировании, что улучшило качество аннотирования моделей BART и Pegasus. Создал метрики оценки «понимания» моделей (approximate oracle test, relevant attention evaluation), которые коррелировали с адаптацией на 5 предметных областях. Предложил метод Biased Encoder Mixture для управления релевантностью и стилистикой генерации, установив новые SOTA на датасете CNN/Daily Mail. В работах И. Рожкова и Н. Лукашевич были выполнены эксперименты по извлечению вложенных именованных сущностей с помощью вопросно-ответных подходов, исследованы различные техники задания вопросов (prompts). Исследования были выполнены на датасетах NEREL и NEREL-BIO, также исследовалось влияние типов вопросов на перенос моделей между предметными областями. Ярошенко П. В. является специалистом в области лингвистической семантики. В 2023 году успешно защитила кандидатскую диссертацию по специальности 5.9.8 - Теоретическая, прикладная и сравнительно-сопоставительная лингвистика», где была предложена классификация лексики, связанной с сенсорным восприятием. Имеет опыт применения больших языковых моделей в задачах обработки естественного языка.
грант РНФ |
# | Сроки | Название |
1 | 4 апреля 2025 г.-31 декабря 2025 г. | Методы адаптации больших языковых моделей на русский язык и конкретные предметные области. Этап 1 |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".