Система транскрибации речи и перевода с русского языка на китайский

Кузьменков Л. П., Чуйко В. А., Козлова Е. И.
2025

Ц е л и. Целью проведенной работы является разработка архитектуры информационной системы для транскрибации и перевода речи, реализация ее блоков и тестирование их работы.М е т о д ы. Рассмотрены существующие способы распознавания речи, проведен сравнительный анализ моделей распознавания речи и перевода текста. Процесс транскрибации речи включает в себя несколько последовательных этапов: сбор и предварительную обработку аудиосигнала, извлечение акустических признаков, непосредственное распознавание речи, постобработку и коррекцию текста, вывод результата. На этапе предобработки аудиосигнала используется комбинация специализированных библиотек, обеспечивающих подготовку данных для последующего анализа. Для нормализации параметров записи применяется библиотека librosa, позволяющая выполнять передискретизацию сигнала до стандартной частоты 16 кГц и преобразование его в монофонический формат. Для подавления фоновых шумов и выделения речевого компонента задействуется нейросетевая модель Demucs. Алгоритм спектральной субтракции дополнительно корректирует остаточные шумы. Сегментация речевой активности выполняется с использованием энергетического детектора из WebRTC, автоматически выделяя речевые фрагменты и удаляя паузы. Для реализации системы распознавания речи выбрана модель whisper-turbo (OpenAI) ввиду большей скорости обработки данных, позволяющей реализовывать потоковый режим работы системы, и меньших требований к вычислительной мощности машины. Модуль перевода разработанной интеллектуальной системы построен на модели T5-large-1024 (Text-to-Text Transfer Transformer), адаптированной для многоязычных задач.Р е з у л ь т а т ы. Предложен способ создания интеллектуальной системы распознавания речи – модульная архитектура системы распознавания и перевода речи, реализован прототип и замерены метрики. Система показала следующие результаты: для русско-английского перевода Cosine Similarity 0,6951, WER 0,529, BLEU Score 0,239; для каскадного русско-китайского перевода через английский язык Cosine Similarity 0,557, WER 0,748, BLEU Score 0,095. Исследования доказали, что применение каскадного перевода через английский язык повышает качество итогового текста на 32 % по метрике Cosine Similarity и на 25 % по BLEU Score по сравнению с прямым переводом. Результаты работы реализованного прототипа оказались удовлетворительными.З а к л ю ч е н и е. Предложенная реализация системы распознавания речи может решать поставленную задачу с удовлетворительным для описанной проблемы качеством без рисков несанкционированного доступа к данным, поскольку работает без подключения к сети интернет. При использовании каскадного перевода через английский язык качество русско-китайского перевода улучшается на 32 % по метрике Cosine Similarity (с 0,423 до 0,557) и на 25 % по метрике BLEU Score (с 0,076 до 0,095). Предложенная информационная система может быть внедрена в образовательный процесс вне зависимости от учебной дисциплины, а также применена на выставках, конференциях, международных форумах. Возможен параллельный перевод на различные языки, что позволит всем участникам международных форумов активно участвовать в мероприятиях.

Кузьменков Л. П., Чуйко В. А., Козлова Е. И. Система транскрибации речи и перевода с русского языка на китайский. Информатика. 2025;22(3):25-34. https://doi.org/10.37661/1816-0301-2025-22-3-25-34
Цитирование

Список литературы

Похожие публикации

Источник