Проблема восстановления трехмерных характеристик объектов по стереоскопическим изображениям представляет значительный интерес для компьютерного зрения. В статье рассмотрены современные нейросетевые подходы к решению этой задачи. Представлен системный анализ литературы, терминологии и методологии. Предложена оригинальная архитектура сверточной нейронной сети, сочетающая блоки для построения карт диспаратности, сегментации и уточнения геометрии на основе построения графа изображений. Эксперименты на наборах данных Middlebury и KITTI 2015 показали превосходство предложенного метода над аналогами по точности восстановления карт глубины (доля неверных пикселей менее 2.5% при дальности до 30м) и плотности реконструкции (более 92% для неперекрытых областей). Продемонстрированы перспективы применения подхода для 3D-реконструкции городских сцен по данным с камер автономных транспортных средств.
The problem of restoring three-dimensional characteristics of objects from stereoscopic images is of considerable interest for computer vision. The article considers modern neural network approaches to solving this problem. A systematic analysis of the literature, terminology and methodology is presented. An original architecture of a convolutional neural network is proposed, combining blocks for constructing disparity maps, segmentation and geometry refinement based on constructing an image graph. Experiments on the Middlebury and KITTI 2015 datasets showed the superiority of the proposed method over its analogues in the accuracy of depth map restoration (the proportion of incorrect pixels is less than 2.5% at a range of up to 30 m) and reconstruction density (more than 92% for unoccluded areas). The prospects of using the approach for 3D reconstruction of urban scenes based on data from autonomous vehicle cameras are demonstrated.