Решение задачи распознавания звуковой информации с применением методов машинного обучения

В настоящей работе рассматриваются вопросы применения современных методов машинного обучения для решения задачи распознавания звуковой информации. Актуальность тематики обуславливается ростом популярности голосовых ассистентов и других систем, основанных на технологии распознавания речевых команд. В силу значительных успехов моделей глубокого обучения использование нейронных сетей для решения данной задачи обрело широкую популярность. В статье затрагиваются важные аспекты преобразования звукового сигнала в подобие цветного изображения - мел-спектрограмму, и нормализации данных. Проводятся экспериментальные исследования с использованием моделей свёрточных нейронных сетей на наборе AudioMNIST как со случайно заданными весами, так и с весами, полученными при обучении моделей на изображениях из набора ImageNet. Приводятся результаты экспериментальных исследований и даются выводы о качестве обучения.

Addressing the problem of audio recognition using machine learning techniques

This paper discusses the application of modern machine learning methods applied to the task of audio information recognition. Relevance of the topic arises from the growing popularity of voice assistants and other systems based on speech recognition technology. Due to significant advances in deep learning models, the use of neural networks has gained widespread popularity on similar tasks. The article covers crucial aspects of converting an audio signal into the equivalent of a colored image - a mel-spectrogram and data normalization. Experimental research is carried out using convolutional neural network models on AudioMNIST dataset with randomly assigned weights as well as using weights obtained by training the models on images from the ImageNet dataset. The results of the experimental studies are presented and conclusions about the quality of learning are drawn

Authors
Publisher
Российский университет дружбы народов (РУДН)
Language
Russian
Pages
302-306
Status
Published
Year
2023
Organizations
  • 1 Peoples' Friendship University of Russia
Keywords
machine learning; audio recognition; convolutional neural networks; mel-spectrogram; машинное обучение; распознавание звуковой информации; свёрточные нейронные сети; мел-спектрограмма
Date of creation
28.12.2023
Date of change
28.12.2023
Short link
https://repository.rudn.ru/en/records/article/record/102155/
Share

Other records

Balakireva D.S.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов (РУДН). 2023. P. 299-301