![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
Фундаментальные исследования в области методов поддержки извлечения знаний из слабоструктурированных данных большого размера, а также использования накопленных знаний для анализа разнородных информационных потоков средствами информационных систем. Эффективное семантическое расширение запроса при поиске на основе явных или неявных знаний является одной из фундаментальных проблем построения информационных систем. Онтологии являются одним из известных инструментов для явного представления знаний. Описание знаний, содержащихся в больших потоках информации, требует разработки онтологических ресурсов большого размера (сотни тысяч терминов), которые обладают особыми структурными свойствами для удовлетворения требований обеспечения покрытия терминологии предметной области, сохранения единообразия описания и непротиворечивости логического вывода. Новизна заключается в исследовании методов понимания содержания текстов на основе сочетания уникальных особенностей больших лингвистических онтологий и возможностей статистических методов машинного обучения, включая нейросетевые методы. С одной стороны, предполагается использование современных методов машинного обучения - методов дистрибутивной семантики и больших предобученных языковых моделей для разработки методов улучшения структуры и пополнения больших онтологий. С другой стороны, планируется исследовать методы использования знаний, описанных в онтологических ресурсах, прежде всего в больших лингвистических онтологиях, для улучшения результатов и улучшения интерпретируемости результатов применения методов машинного обучения, включая вероятностное тематическое моделирование и глубокое обучение нейронных сетей. Целью исследований является решение актуальных задач разработки методов поддержки аналитического исследования больших данных, в том числе методов человеко-машинного взаимодействия.
Fundamental research in the sphere of methods for supporting the knowledge extraction from poorly structured big data, as well as the use of accumulated knowledge for the analysis of heterogeneous information flows. Ontologies are one of the well-known tools for knowledge represention. Description of the knowledge contained in large information flows requires the development of large ontological resources that have special structural properties to maintain the integrity and consistency of the logical conclusion. The novelty lies in the study of methods for understanding of the texts content based on a combination of unique features of large linguistic ontologies and the possibilities of statistical methods of machine learning, including neural network methods. On the one hand, it is proposed to use modern machine learning methods, including neural network approaches using distributive semantics and pre-trained language models to develop methods for improving the structure and enrichment of large ontologies. On the other hand, it is planned to study methods for using the knowledge described in ontological resources, primarily in large linguistic ontologies, to improve results and improve the interpretability of the results of machine learning methods, including probabilistic thematic modeling and deep learning of neural networks. The goal is to solve urgent problems of developing methods for supporting analytical research of big data, including methods of human-machine interaction. Models and algorithms will be developed, as well as linguistic resources and trained neural network models that would be available to scientific community for non-commercial use.
В 2020 году планируется: (а) разработать модели и методы пополнения больших лингвистических онтологий с использованием методов машинного обучения; (б) в сотрудничестве с коллегами из Сколтеха организовать и провести научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий, в том числе сформировать обучающее и тестовое множество данных; (в) разработать и опубликовать обновленную версию лингвистической онтологии RuWordNet, рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet; (г) исследовать возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов, формирования «абстрагированных» аннотаций (не повторяя текст исходных документов); (д) провести исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Практическая значимость ожидаемых результатов заключается в снижении трудоемкости для формирования больших онтологических ресурсов для новых предметных областей, создании новых инструментов для информационно-аналитических систем. Формы завершения: Отчет, WoS=1, Scopus=7, другие=2.
(1) Разработана модель большой лингвистической онтологии РуТез. По методологии РуТез создано несколько больших лингвистических онтологий. С 2003 года развивается лингвистическая Онтология по естественным наукам и технологиям, предназначенная для анализа научно-технических документов. На основе РуТез создан тезаурус русского языка в соответствии с концепцией WordNet (RuWordNet). (2) Разработаны алгоритмы автоматизированной лингвистической обработки текстов на основе модели тематического представления содержания текста, включая: (а) автоматическое выявление терминологии для формирования новой онтологии или пополнения существующей; (б) выявление объектов и событий; (в) автоматическое рубрицирование; (г) автоматическое аннотирование; (д) определение тональности текстов. В работах 2017-2018 гг. представлен подход к интеграции онтологических знаний и статистических тематических моделей. Показано, что статистические темы, созданные на основе предложенной технологии, получаются более связными, понятными людям, более различимыми между собой. Для задачи извлечения редких типов именованных сущностей исследованы подходы на основе использования методов машинного обучения, в том числе нейросетевые - с использованием методов CRF, biLSTM+CRF, предобученных языковых моделей типа BERT. (3) Разработан программно-аппаратный стенд, реализующий основные функции информационно-аналитической системы для обработки, накопления и анализа больших потоков новостной информации. (4) На основе описанных методов были выполнены работы по разработке онтологических ресурсов и тематических рубрикаторов в интересах Центрального банка РФ (2011, 2014 гг.), (НП «Гидроэнергетика России», ОАО «Русгидро», 2013-2015 гг.). Лукашевич Н.В. и Добров Б.В. названы в top-10 рейтинга российских исследователей в области автоматической обработки естественного языка (альманах "Автоматическая обработка естественного языка, автоматическое распознавание и синтез речи", Центром компетенций НТИ на базе МФТИ).
2017: 1) Показано улучшение качества извлечения именованных сущностей при использовании дополнительных признаков на основе кластеров слов, полученных с помощью программы word2vec на большом новостном корпусе; 2) Исследованы подходы к извлечению именованных сущностей из сообщений Твиттера, связанных с исламом; 3) Исследованы методы извлечения ключевых слов из текстов с использованием нейронных сетей. Алгоритм был обучен на терминах Онтологии по естественным наукам и технологиям (ОЕНТ); 4) Исследованы методы интеграции лингвистических онтологий в задачу вероятностного тематического моделирования, что ведет к улучшению понятности и связности порождаемых статистических тем. 2018: 1) Разработаны алгоритмы графового представления содержания текста с использованием терминов лингвистических онтологий и именованных сущностей; 2) Организация открытого тестирования по автоматическому распознаванию значений слов для русского языка; 3) Исследованы подходы дистрибутивной семантики для извлечения устойчивых словосочетаний; 4) Поставлена задача извлечения оценочных отношений из текстов. Исследованы подходы на основе машинного обучения, включая нейронные сети к данной задаче. 2019: 1) Разработаны методы формирования когнитивных схем анализа отдельных текстов с учетом как тематических (онтологических) отношений между объектами, так и дистрибутивных - по встречаемости в отдельных предложениях; 2) Разработаны методы формирования когнитивных схем для выборки документов, релевантных запросу в информационно-поисковой системе; 3) Разработаны методы анализа временных рядов упоминаемости текстовых объектов в документах поисковой выборки путем выявления наиболее характерных "составляющих", аналогичных XYZ-статистикам.
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2017 г.-31 декабря 2017 г. | Методы автоматизированного пополнения больших лингвистических онтологий и перечней именованных объектов по большому архиву новостных текстов |
Результаты этапа: 1. Показано улучшение качества извлечения именованных сущностей при использовании дополнительных признаков на основе кластеров слов, полученных с помощью программы word2vec на большом новостном корпусе. 2. Исследованы подходы к извлечению именованных сущностей из сообщений Твиттера, связанных с исламом. 3. Исследованы методы извлечения ключевых слов из текстов с использованием нейронных сетей. Алгоритм был обучен на терминах Онтологии по естестевенным наукам и технологиям (ОЕНТ) 4. Исследованы методы интеграции лингвистических онтологий в задачу вероятностного тематического моделирования, что ведет к улучшению понятности и связности порождаемых статистических тем. | ||
2 | 1 января 2018 г.-31 декабря 2018 г. | Методы интеграции в тематическое представление содержания документа именованных сущностей и терминоподобных словосочетаний |
Результаты этапа: 1) Разработаны алгоритмы графового представления содержания текста с использованием терминов лингвистических онтологий и именованных сущностей 2) Организация открытого тестирования по автоматическому распознаванию значений слов для русского языка. 3) Исследованы подходы дистрибутивной семантики для извлечения устойчивых словосочетаний. 4) Поставлена задача извлечения оценочных отношений из текстов. Исследованы подходы на основе машинного обучения, включая нейронные сети к данной задаче. | ||
3 | 1 января 2019 г.-31 декабря 2019 г. | Методы построения и анализа когнитивных схем и временных рядов, формируемых концептами лингвистических онтологий и именованными сущностями |
Результаты этапа: 1) Разработаны методы формирования когнитивных схем анализа отдельных текстов с учетом как тематических (онтологических) отношений между объектами, так и дистрибутивных - по встречаемости в отдельных предложениях 2) Разработаны методы формирования когнитивных схем для выборки документов, релевантных запросу в информационно-поисковой системе 3) Разработаны методы анализа временных рядов упоминаемости текстовых объектов в документах поисковой выборки путем выявления наиболее характерных "составляющих", аналогичных XYZ-статистикам |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".