Algorithms for interpretation of prosodic features in low-bitrate speech processing

Bessonov, Maxim; Farkhadov, Mais

Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками

В рамках решения задачи определения языка аудиосообщения на основе просодического подхода предложены два алгоритма интерпретации просодических признаков речи и методика их использования – алгоритм на основе широких фонетических категорий и алгоритм на основе кросскорреляционной функции от мелодики речевого сигнала и последовательности кратковременных энергий. Проводится экспериментальная оценка алгоритмов. В качестве решающего правила используются нейронные сети.

Algorithms for interpretation of prosodic features in low-bitrate speech processing

We study the language identification problem using prosodic features. Prosodic features such as melody, rhythm, timbre and others are difficult to formalize mathematically. Two algorithms for a complex description of prosodic features are proposed in the paper. The first is based on the broad phonetic categories, and the second is based on the cross-correlation of the speech melody and the short-term energy sequence. The fundamental frequency was estimated by MELP algorithm. The performance of the proposed algorithms was evaluated experimentally on a database of speech recordings obtained from Internet and therefore encoded by low-bitrate vocoders. The database includes ten different languages. The proposed algorithms provide a feature description and a multi-layer neural network was used as a language classifier. Both algorithms show satisfactory classification performance, but the broad phonetic categories approach performs slightly better than the cross-correlation function. These algorithms can be applied to a speech signal processed by low-bitrate vocoders without decoding to the original signal.

Авторы

Бессонов М.А. (Bessonov Maxim) ¹ , Фархадов М.П. (Farkhadov Mais) ²

Journal

Управление большими системами: сборник трудов

Издательство

Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А.Трапезникова Российской академии наук

Номер выпуска

Язык

Russian

Страницы

6-24

Статус

Published

Год

2017

Организации

¹ Peoples Friendship University of Russia
² V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences

Ключевые слова

language identification; neural networks; speech prosodic features; broad phonetic categories; идентификация языка; нейронные сети; просодические признаки речи; широкие фонетические категории

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

AUTONOMY IN THE RUSSIAN FEDERATION: THEORY AND PRACTICE

Article

Kartashkin V.A., Abashidze A.Kh.

International Journal on Minority and Group Rights. Том 10. 2003. С. 203-220

ABOUT THE TREATMENT OF GONORRHEA: RECENT HISTORY

Article

Yargin S.

Главный врач Юга России. 2017. С. 50-52