![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
В рамках данной НИР исследуются подходы к автоматической обработке текстов и речи на основе машинного обучения, статистических методов и больших объемов знаний о языке и мире, а также способы комбинирования различных подходов для улучшения качества решения задач.
Within the framework of this research, approaches to automatic text and speech processing are being investigated.
Публикация 2 статей, представление докладов на международных конференциях
Под руководством Н.В. Лукашевич разработана совокупность лингвистических и терминологических ресурсов, которые применяются в различных приложениях автоматической обработки текстов Создан тезаурус русского языка РуТез, предназначенный для различных приложений автоматической обработки текстов. Принципы разработки тезаурусов и лингвистических онтологий для автоматической обработки текстов были неоднократно использованы для создания тезаурусов и онтологий в разнообразных предметных областях, включая Онтологию по наукам и технологиям ОЕНТ (грант РФФИ 05-07-90391-в), онтологию в области авиации АВИА-ОНТОЛОГИЯ (грант РФФИ 02-07-90279-в), Тезаурус по компьютерной безопасности, Банковский тезаурус (сделан по заказу Центрального Банка Российской Федерации) и др. В настоящее время для улучшения качества результатов многих приложений автоматической обработки текстов важным является комбинирование знаний, описанных лексико-семантических ресурсах, с одной стороны, и статистических методов (вероятностных тематических моделей, методов дистрибутивной семантики, методов машинного обучения и др.), с другой стороны. Ранее был представлен подход к интеграции знаний, описанных в тезаурусе, (словосочетаний, терминов, отношений) и статистических тематических моделей. Было показано, что статистические темы, созданные на основе предложенной технологии, получаются более связными, понятными людям, более различимыми между собой. Ранее были предложены комбинированные подходы для использования знаний и тмематических вероятностных моделей; словарные ресурсы были использованы в методе машинного обучения CRF для распознавания именованных сущностей, тезаурусные отношения были использованы в методе label propagation по отношениям тезауруса для улучшения извлечения оценочных слов по корпусу текстов.
МГУ имени М.В.Ломоносова | Координатор |
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2020 г.-31 декабря 2020 г. | Компьютерная лингвистика. Корпусная лингвистика |
Результаты этапа: В 2020 году были проведены исследования в следующих направлениях сферы компьютерной и корпусной лингвистики: - исследование методов порождения обучающей коллекции для разрешения лексической неоднозначности на основе машинного обучения; - исследование методов извлечения новых устойчивых словосочетаний для пополнения тезауруса, что характеризуется тем, что такие словосочетания обладают относительно низкой частотностью в корпусе, поскольку большая доля известных словосочетаний уже внесена в тезаурус, - контрастивное исследование конструкций, выступающих как одно из средств кодирования таксиса непосредственного (= контактного) предшествования, например, "Не успел Х P1, как/а P2", - исследования по мультиканальной коммуникации, то есть передачи значимой информации при помощи вербального компонента, просодии, движений глаз, жестов рук, жестов головы и т.д. - создание новой версии словаря оценочной лексики RuSentiFrames. Было опубликовано 10 статей, представлено 10 докладов на российских и международных конференциях. | ||
2 | 1 января 2021 г.-31 декабря 2021 г. | Компьютерная лингвистика. Корпусная лингвистика |
Результаты этапа: В 2021 году были проведены исследования в следующих направлениях сферы компьютерной и корпусной лингвистики: - улучшение качества методов в задачах анализа тональности текстов на русском языке, - сопоставительное исследование семантической близости слов по тезаурусу русского языка РуТез и в психосемантическом эксперименте, - исследование семантики жестовых номинаций, - изучение количественных корреляций по корпусным данным для хеттского языка, - работы по созданию русского интонационного корпуса с применением современных методов функционального исследования интонации и современных средств ее фонетического анализа. - работы по переводу в формат семантической разметки осетинского словаря, Было опубликовано 9 статей, три из них индексируется в реферативной базе Скопус, сделано 3 доклада. | ||
3 | 1 января 2022 г.-31 декабря 2022 г. | Компьютерная лингвистика. Корпусная лингвистика |
Результаты этапа: В 2022 году в НИР ”Компьютерная лингвистика. Корпусная лингвистика” были выполнены исследования в следующих направлениях: 1) Семантическая разметка корпуса русскоязычных текстов и эксперименты с методами автоматического разрешения лексической неоднозначности; 2) Автомати- ческое кросс-языковое связывание англоязычного семантического ресурса FrameNet со словами русского языка; 3) Исследования в области автоматической кластеризации слов заданных семантических полей на основе корпуса текстов; 4) Исследования в области автоматического анализа звучащей речи; 5) Корпусные исследования поэтических произведений. Опубликованы 9 статей, 1 статья индексируется в Международной базе Скопус. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".