В настоящей работе рассматриваются вопросы применения современных методов машинного обучения для решения задачи распознавания звуковой информации. Актуальность тематики обуславливается ростом популярности голосовых ассистентов и других систем, основанных на технологии распознавания речевых команд. В силу значительных успехов моделей глубокого обучения использование нейронных сетей для решения данной задачи обрело широкую популярность. В статье затрагиваются важные аспекты преобразования звукового сигнала в подобие цветного изображения - мел-спектрограмму, и нормализации данных. Проводятся экспериментальные исследования с использованием моделей свёрточных нейронных сетей на наборе AudioMNIST как со случайно заданными весами, так и с весами, полученными при обучении моделей на изображениях из набора ImageNet. Приводятся результаты экспериментальных исследований и даются выводы о качестве обучения.
This paper discusses the application of modern machine learning methods applied to the task of audio information recognition. Relevance of the topic arises from the growing popularity of voice assistants and other systems based on speech recognition technology. Due to significant advances in deep learning models, the use of neural networks has gained widespread popularity on similar tasks. The article covers crucial aspects of converting an audio signal into the equivalent of a colored image - a mel-spectrogram and data normalization. Experimental research is carried out using convolutional neural network models on AudioMNIST dataset with randomly assigned weights as well as using weights obtained by training the models on images from the ImageNet dataset. The results of the experimental studies are presented and conclusions about the quality of learning are drawn