Решение задачи распознавания звуковой информации с применением методов машинного обучения

В настоящей работе рассматриваются вопросы применения современных методов машинного обучения для решения задачи распознавания звуковой информации. Актуальность тематики обуславливается ростом популярности голосовых ассистентов и других систем, основанных на технологии распознавания речевых команд. В силу значительных успехов моделей глубокого обучения использование нейронных сетей для решения данной задачи обрело широкую популярность. В статье затрагиваются важные аспекты преобразования звукового сигнала в подобие цветного изображения - мел-спектрограмму, и нормализации данных. Проводятся экспериментальные исследования с использованием моделей свёрточных нейронных сетей на наборе AudioMNIST как со случайно заданными весами, так и с весами, полученными при обучении моделей на изображениях из набора ImageNet. Приводятся результаты экспериментальных исследований и даются выводы о качестве обучения.

Addressing the problem of audio recognition using machine learning techniques

This paper discusses the application of modern machine learning methods applied to the task of audio information recognition. Relevance of the topic arises from the growing popularity of voice assistants and other systems based on speech recognition technology. Due to significant advances in deep learning models, the use of neural networks has gained widespread popularity on similar tasks. The article covers crucial aspects of converting an audio signal into the equivalent of a colored image - a mel-spectrogram and data normalization. Experimental research is carried out using convolutional neural network models on AudioMNIST dataset with randomly assigned weights as well as using weights obtained by training the models on images from the ImageNet dataset. The results of the experimental studies are presented and conclusions about the quality of learning are drawn

Авторы
Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
302-306
Статус
Опубликовано
Год
2023
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
machine learning; audio recognition; convolutional neural networks; mel-spectrogram; машинное обучение; распознавание звуковой информации; свёрточные нейронные сети; мел-спектрограмма
Цитировать
Поделиться

Другие записи

Болотина А.С., Эсенг П.Л.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. С. 307-310