В этой статье предлагается метод улучшения речи с помощью глубокого обучения путем отделения речи от фоновых помех. В этом методе используется контролируемая обучающая архитектура нейронной сети. Усовершенствования достигнуты за счет новых способов проектирования наборов данных для обучения. Эксперимент показывает, что качество данных и их разнообразие - два важных характеристики. Эксперимент также открывает новый взгляд о возможных аугментациях для увеличения качества решения задачи.
This paper proposes a deep speech enhancement method by separating target speech from background interference. Which exploits supervised training neural network architecture. Method improved by new ways to design training datasets. Experiment show that the separation quality and diversity are two important and complementary assets of a good training dataset. Experiment also provide insights on possible transforms to perform data augmentation for this task.