Выделение речевой активности на фоне шумов при помощи компактной сверточной нейронной сети

Вашкевич Г. С., Азаров И. С.
2020

Исследуется задача выделения речевой активности из зашумленного звукового сигнала. Предлагается компактная модель сверточной нейронной сети, которая имеет всего 385 параметров. Модель нетребовательна к вычислительным ресурсам, что позволяет использовать ее в рамках концепции Интернета вещей для портативных устройств с низким энергопотреблением. В то же время эта модель обеспечивает высокую точность определения речевой активности на уровне лучших современных аналогов. Указанные полезные свойства достигаются путем применения специального сверточного слоя, учитывающего гармоническую структуру вокализованной речи и устраняющего избыточность модели за счет инвариантности к изменениям частоты основного тона. В рамках экспериментов производительность модели оценивалась в различных шумовых условиях для разных соотношений сигнала и шума. Результаты экспериментов показали, что предложенная модель обеспечивает более высокую точность определения речевой активности по сравнению с моделью, представленной компанией Google в фреймворке WebRTC.

Вашкевич Г. С., Азаров И. С. Выделение речевой активности на фоне шумов при помощи компактной сверточной нейронной сети. Информатика. 2020;17(2):36-43. https://doi.org/10.37661/1816-0301-2020-17-2-36-43
Цитирование

Список литературы

Похожие публикации

Источник