Изменчивость и неоднородность цифровой медицинской информации требует разработки современных алгоритмов по структурированию массивов данных с целью их дальнейшей статистической обработки. Цель исследования - определить ход работы по созданию набора данных (НД) при исследовании аневризм сосудов головного мозга от этапа формирования технического задания до получения финального НД. Материал и методы . Процесс создания, обработки и анализа НД пациентов с аневризмами проводился на базе университетской клиники города Турку, Финляндия. В течение последних 20 лет клиника осуществляет медицинский документооборот в цифровом формате, что позволило создать на ее базе отдел хранения цифровых данных с целью максимального сохранения любой доступной цифровой информации. Автоматизированное получение данных пациентов проводилось дата-инженером с использованием языка программирования «R» на основании кодов Международной классификации болезней (МКБ-10). Результаты и их обсуждение. В период с января 2000 по май 2018 г. в ходе первичного получения данных выявлено 3850 пациентов. После независимой перекрестной проверки электронных их историй болезни отсеяно 1218 (32 %) ложноположительных случаев. Данные по оставшимся пациентам были разделены на клинический и реанимационный блоки. Каждое событие, относящееся к конкретной временной дате в НД, определено как инфо-единица. Вся информация в обоих блоках структурирована в формате Excel и представлена в хронологическом порядке для каждого отдельного больного. В целом весь набор данных состоял из более чем 70 000 000 рядов инфо-единиц, выявленных у 2632 пациентов. Заключение. Автоматизированный поиск данных позволил создать многокомпонентный структурированный набор данных пациентов с аневризмами сосудов головного мозга. Выработанный алгоритм автоматизированного получения данных имел ограничение в отношении ложнопозитивных случаев, выявленных в 32 % случаев. Таким образом, анализ клинического материала, полученного с помощью цифровых алгоритмов, требует тщательной перекрестной проверки членами исследовательской группы.
Variability and heterogeneity of digital medical data requires establishing of modern algorithms which provide appropriate data processing. The aim of the study was to delineate the main steps in formation of a clinical dataset of patients with brain aneurysms from the stage of producing primary mining specifications to formation of a final version. Material and methods. Data collection, crosschecking of the cases and analyses of dataset has been carried out in Turku University Hospital. Within last two decades available medical data at our hospital have been stored in digital data lake thus allowing automatized data mining. In frame of our study, data mining was performed by a data scientist utilizing R software. Inclusion criteria were based on a set of diagnosis which were coded in medical charts according to international classification of diseases (ICD 10). Resutls and Discussion . Primary data mining identified 3850 patients with brain aneurysms treated at our hospital from January 2000 till May 2018. After independent manual crosschecking of medical charts of these patients, we found 1218 (32 %) cases, which had no aneurysm (false-positive). Data of remaining true aneurysm-cases were divided into clinical and intensive care unit subsets where every event linked to particular date of treatment was defined as an info-unit. All the data in both subsets were structured into separate Excel files and presented in chronological order for each particular patient. Altogether, dataset included 70 000 000 rows of info-units found in 2632 patients. Conclusions. Data mining allowed establishment of detailed clinical dataset of patients with brain aneurysms. Produced mining algorithm had limitation regarding false-positive cases (32 % patients). Based on that, we recommend manual crosschecking of automatically collected dataset before statistical analysis.