![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
Основное внимание в этом проекте следует уделить сценариям, в которых речевые гармоники на высоких частотах фоновым шумом и становятся полностью неслышиными. Модель GSE должна быть способна полностью восстанавливать искаженный речевой сигнал на основе всей доступной информации, полученной из входного сигнала. Разрабатываемая система GSE должна позволять использование ее как в роли пост-обработки уже частично улучшенного сигнала, так и как самостоятельную систему улучшения речи. Кроме этого, разрабатываемая система GSE должна иметь низкую вычислительную сложность и алгоритмическую задержку для возможности работы в режиме реального времени на носимых устройствах.
Generative Speech Enhancement (GSE) is a new research area that applies developments in the field of generative artificial intelligence to the problem of speech enhancement (SE). In particular, the main idea of GSE is to generate clean synthetic speech using information from a noisy signal, instead of trying to extract clean speech from an existing mixture of speech and noise, as is done in traditional (discriminative) approaches to the problem of speech enhancement. The generative approach potentially allows to avoid such disadvantages of traditional methods as: the presence of various kinds of processing artifacts, the presence of residual noise, the loss of speech harmonics at high frequencies, leading to unsatisfactory speech sound quality from the end-user's point of view. The main focus of this project should be on scenarios in which speech harmonics at high frequencies are background noise and become completely inaudible. The GSE model should be able to completely reconstruct the distorted speech signal based on all available information obtained from the input signal. The developed GSE system should allow its use both as a post-processing of an already partially improved signal and as an independent speech enhancement system. In addition, the developed GSE system should have low computational complexity and algorithmic delay to be able to work in real time on wearable devices.
1. Анализ существующих генеративных и дискриминативных моделей улучшения речи. 2. Генеративные нейросетевые модели улучшения речевого сигнала. 3. Методы дистилляции разработанных моделей для их реализации на мобильных устройствах.
Коллектив, выполняющий данную НИР, обладает значительным научным заделом и опытом в области обработки и распознавания речи, в том числе, с использованием нейросетевых генеративных моделей. Руководитель коллектива является автором монографии, посвященной современным методам обработки и распознавания речи, (Шишкин А.Г. Методы цифровой обработки и распознавания речи – М.: Инфра-М, 2023, С. 347. DOI: 10.12737/1904325), получившей первую премию на международном конкурсе научной литературы "Академус". Его исследования охватывают широкий спектр тем, включая алгоритмы машинного обучения, обработку естественного языка и применение нейросетевых подходов в речевых технологиях. Кроме того, коллектив НИР имеет богатый опыт участия в различных проектах, связанных с анализом речевых сигналов. Он активно публикует статьи в ведущих научных журналах, делясь результатами своих исследований с международным сообществом и способствуя развитию технологий распознавания и генерации речи. Также руководитель и ответственный исполнитель НИР читают курсы для магистров и бакалавров, связанные с нейросетевыми методами обработки речи, что создает дополнительный потенциал для развития новых идей и проектов.
ВМК МГУ | Координатор |
Международная организация/программа, Huawei Technologies Co. Ltd. |
# | Сроки | Название |
1 | 11 ноября 2024 г.-31 декабря 2024 г. | Анализ генеративных нейросетевых моделей для улучшения речевого сигнала |
Результаты этапа: | ||
2 | 1 января 2025 г.-10 июля 2025 г. | Сравнение генеративных моделей для улучшения речи с целью определения наиболее подходящих типов моделей и их конкретных архитектур |
Результаты этапа: | ||
3 | 11 июля 2025 г.-10 сентября 2025 г. | Разработка прототипа легковесной системы улучшения речи на основе разработанных генеративных моделей |
Результаты этапа: | ||
4 | 11 сентября 2025 г.-11 ноября 2025 г. | Оптимизация разработанной системы улушения речи с точки зрения вычислительной сложности |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".