![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
В современном мире всё больше и больше информации становится доступно в цифровом виде. Коллекции размеченных изображений, текстов, звуковых записей, видеопоследовательностей и проч. с количеством элементов порядка нескольких миллионов и более становятся массово доступными. Поэтому являются актуальными все виды задач, связанные с обработкой и анализом такого большого массива информации. В частности, здесь необходимо разрабатывать новые методы решения задач машинного обучения, адаптированные для применения в условиях данных большого объёма. Не менее актуальными являются задачи визуализации такой информации и результатов её обработки. В связи с большим разнообразием видов обрабатываемых данных необходимо разрабатывать типовые подходы по эффективному сведению разнообразных задач анализа данных к стандартным задачам машинного обучения. При этом разрабатываемые инструментальные средства решения прикладных задач должны обладать высокой долей автоматизации без необходимости тонкой настройки параметров пользователем. Решению этих сложных теоретически и важных практически проблем посвящена данная НИР.
In modern times, more and more information becomes available in digital form. Today we have an easy access to collections of annotated images, texts, audio and video recordings with millions of items. Therefore, it is important to solve different information processing and analysis problems in this new big data scenario. In particular, we need to develop new machine learning algorithms applicable for processing huge amount of information. Also new visualization techniques for big data collections and results of their processing are highly demanded. Today information in these collections is presented in different forms and formats. Hence, we need to develop diverse approaches for typical reduction of this raw information to standard machine learning problems. At the same time, developing algorithmic solutions for solving applied data analysis problems should be easily used by non-experts and should require little tuning of different parameters required by users. This research is aimed at solving these complex theoretical and important practical problems.
1. Создание нового поколения методов, инструментальных средств и интеллектуальных информационных технологий для решения типовых задач распознавания образов и поиска зависимостей в разнородных и сложноорганизованных данных 2. Развитие реляционной теории распознавания и классификации 3. Эффективное применение алгоритмов машинного обучения для решения прикладных задач анализа данных из различных предметных областей 4. Разработка новых методов оптимизации для обучения моделей машинного обучения в условиях данных большого объёма 5. Разработка новых методов анализа формы объектов на изображениях и их применение для решения прикладных задач обработки изображений 6. Работы по созданию нейрокомпьютерного интерфейса (BCI) для управления динамическими объектами 7. Разработка автоматических методов подбора структурных параметров в алгоритмах машинного обучения 8. Разработка методов визуализации информации в различных математических моделях обработки данных.
МГУ имени М.В. Ломоносова | Координатор |
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2016 г.-31 декабря 2016 г. | Алгебраические, логические и статистические методы машинного обучения и их применение в прикладных задачах анализа данных |
Результаты этапа: В результате проведённых в 2016 году исследований по проекту были получены следующие основные результаты: 1. Было показано, что в задаче анализа сигналов кровяного давления метрики DTW и TWED повышают качество идентификации по пульсовой волне и позволяют строить новые алгоритмы (например, применять новые методы усреднения профилей). Задача классификации пациента по фотоплетизмограмме была решена с достаточно высокой точностью: 70% (для выборки из 150 сигналов 25 человек). 2. Предложены модели представления корпусных данных на основе трехдольной модели данных. Предложен и реализован новый метод визуализации корпусных данных по набору экспертных требований. 3. Проанализирован комплекс методов оценивания параметров отдельных компонентов смеси распределений для задержек передачи информации, отобраны одновременно точные и вычислительно эффективные методы. 4. Разработана метрика различия формы изображений гибких объектов на основе деформаций непрерывных морфологических моделей. 5. Предложена иерархическая регрессионная модель, позволяющая получать оценки для весовых коэффициентов потенциальных функций, удовлетворяющие требованиям селективности, состоятельности, несмещённости, непрерывности, обладающие способностью отбирать коррелированные регрессоры и имеющие конечную верхнюю оценку риска. 6. Разработан новый стохастический метод оптимизации с суперлинейной локальной скоростью сходимости. Для данного метода доказана также глобальная линейная скорость сходимости. 7. Разработана программа управления роботом Khepera2 с помощью морганий глаз человека, определяемых с помощью анализа электроэнцефалограммы головного мозга. 8. Разработан новый алгоритм синтеза обратимых схем, имеющий асимптотически оптимальную сложность и позволяющий (в некоторых случаях) получать обратимые схемы с лучшими характеристиками. Предложены новые подходы к синтезу схем, использующие спектры Рида-Маллера и разложение Гильберта. Получены оценки сложности обратимых схем некоторых специальных типов. | ||
2 | 1 января 2017 г.-31 декабря 2017 г. | Алгебраические, логические и статистические методы машинного обучения и их применение в прикладных задачах анализа данных |
Результаты этапа: В результате проведённых в 2017 году исследований по проекту были получены следующие основные результаты: 1. Разработан новый метод оптимизации для вероятностных моделей машинного обучения на основе гауссовских процессов для решения задач классификации. Проведённые эксперименты показывают, что разработанный метод опережает по качеству аналоги на широком наборе задач классификации. Кроме того, данный метод не имеет параметров, настраиваемых пользователем, что существенно облегчает применение метода на практике. 2. Разработан ряд моделей для автоматического обучения стратегий оптимизации. Данные модели хорошо себя показывают в задачах нестохастической оптимизации, при этом не требуя дополнительной настройки гиперпараметров во время оптимизации тестовых функций. Наиболее перспективными с точки зрения дальнейшего изучения является применение данных моделей к задачам стохастической оптимизации. Предварительные эксперименты показывают, что модели показывают достаточно хорошие результаты, однако нужно предпринять дополнительные меры по предотвращению переобучения и разработке иных методов обучения для применения данной модели для оптимизации нейросетей. 3. Исследованы решающие правила (процедуры преобразования оценок принадлежностей к классам в ответы алгоритма) и методы деформаций (процедуры изменения ответов алгоритма) в прикладных задачах классификации и регрессии. Проведены эксперименты по повышению качества классификации с помощью деформаций и специальных решающих правил в задачах банковского скоринга, классификации фотоплетизмограмм и кардиограмм. 4. Проведено исследование по распознаванию некоторых мимических движений на показаниях, полученных с электроэнцефалографа. 5. Создана программа на языке PYTHON 2.7 для управления роботизированной рукой Katana по показаниям электроэнцефалографа Emotiv EPOC 6. Исследовалось применение обратимых схем для реализации вычислительно асимметричных преобразований. Предложен новый быстрый и эффективный алгоритм синтеза обратимой схемы, задающей подстановку на множестве (Z2)n с малым числом подвижных точек. Доказаны асимптотические верхние и нижние оценки сложности, глубины и квантового веса рассмотренных обратимых схем. | ||
3 | 1 января 2018 г.-31 декабря 2018 г. | Алгебраические, логические и статистические методы машинного обучения и их применение в прикладных задачах анализа данных |
Результаты этапа: В результате проведённых в 2018 году исследований по проекту были получены следующие основные результаты: 1. Разработан новый метод обучения вероятностной модели машинного обучения на основе гауссовских процессов. Данный метод обладает линейной сложностью как по количеству тренировочных объектов, так и по количеству признаков. Кроме того, в данном методе можно использовать значительно большее количество т.н. индуцированных точек по сравнению с известными подходами. Кроме того, предложена схема объединения модели с гауссовскими процессами вместе с обучением представлений с помощи глубокой нейросети. 2. Разработан новый рандомизированный блочно-координатный метод оптимизации для задач огромных размеров. Проведён теоретический анализ скорости сходимости разработанного метода. Показано, что новый метод является эффективным в случае, если для матрицы квадратичной формы есть зазор между наибольшим и tau-наибольшим собственными значениями. 3. Исследованы алгоритмы выявления аномалий в работе оборудования, лучше всех проявил себя метод «изолирующий лес»: 97% точности и 87% полноты, ансамблирование разных алгоритмов несущественно улучшает его качество. Кроме поломок, он сигнализирует также о любой некорректной работе и смене режимов работы. 4. Получены результаты по асимптотической сложности и глубине обратимых сбоеустойчивых схем. Предложен оригинальный метод синтеза сбоеустойчивых обратимых элементов в поляризованном пространстве Хэмминга, обладающий высокой способностью корректировать как единичные, так и многократные ошибки. 5. Предложен способ разметки обучающих наблюдений в задачах верификации, учитывающий разделение наблюдений по классам, по уровням качества подделок и по уровням информированности изготовителей подделок. Предложен и исследован метод преобразования такого описания объектов в метрические описания. На модельных и реальных задачах показан рост качества и скорости работы систем верификации. 6. Предложен новый метод автоматической стилизации изображений за счет учета дальности от каждого объекта на изображении до зрителя. Традиционный метод приводит к плоскому результату стилизации, в котором информация о глубине пикселей теряется. Однако учет этой информации за счет вариативной степени сохранения содержимого картинки относительно стиля позволяет производить стилизацию с сохранением глубины, повышая реалистичность и качество работы метода. | ||
4 | 1 января 2019 г.-31 декабря 2019 г. | Алгебраические, логические и статистические методы машинного обучения и их применение в прикладных задачах анализа данных |
Результаты этапа: 1. Разработан новый метод генерации выборок из распределений, задаваемых нейросетевыми моделями с ортогональными матрицами. Доказана корректность предложенного метода. 2. Разработан новый метод вариационного байесовского вывода с использованием семейства матричных нормальных распределений. 3. Предложен новый римановый метод оптимизации для параметров матричных нормальных распределений и продемонстрировано его использование в рамках процедуры вариационного байесовского вывода. 4. Предложен новый римановый метод оптимизации для нейросетевых моделей, в которых часть параметров задаётся тензорами в формате тензорного поезда. | ||
5 | 1 января 2020 г.-31 декабря 2020 г. | Алгебраические, логические и статистические методы машинного обучения и их применение в прикладных задачах анализа данных |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".