The Problem of Data Placement in Distributed Systems

Zhipa, A.V.

Задача оптимизации размещения данных в распределённых системах

Эффективность работы распределённых вычислительных систем основывается на способе распределения потоков вычислительных задач и данных относительно ограниченного количества вычислительных ресурсов. Из-за постоянного увеличения объёма данных таким системам необходимо решать вопрос их хранения и обработки наиболее эффективным образом. Между тем современные распределённые вычислительные системы уделяют все больше внимания таким своим характеристикам, как распределение вычислительной нагрузки, построение эффективной структуры хранилища данных, а также оптимальное использование вычислительных мощностей. Оптимальное управление имеющимися у вычислительной системы ресурсами вынуждено балансировать между использованием ресурсов каждого отдельно взятого узла и потерей локальности хранения данных, связанной с их неизбежной фрагментацией. В данной статье мы сформируем задачу оптимизации размещения данных путём максимизации локальности их хранения, а также покажем, что данная задача является NP-полной. Далее мы рассмотрим полиномиальный по времени алгоритм, дающий результат, отличающийся от оптимального на фиксированную константу. Для доказательства эффективности предложенного алгоритма нами будет доказан ряд вспомогательных утверждений, а также подробно описана основная операция в работе алгоритма, за свою схожесть с процессом обмена участками хромосом в клетках названная кроссинговером.

The Problem of Data Placement in Distributed Systems

Distributed system eﬀectiveness depends dramatically on the way it manages incoming tasks and data against limited computational resources that are at its disposal. Due to ever-inreasing amount of incoming data distributed systems are required to eﬃciently manage the way its storage and processing are being made. Nowadays the distributed system design is signiﬁcantly ﬂounced by the manner it leverages high load scenarios, provides data storage functionality and uses the underlying resources. An eﬀective distributed system’s resource management has to balance trade-oﬀs between single node resource consumption and the overall loss of data locality, that is inevitable due to data fragmentation. In this article we will formalize the problem of data placement by maximizing data storage locality in distributed data systems, which as it turns out is a NP-complete task. We will later describe a polynomial-time algorithm that is capable of providing us a solution that is within an additive constant from the optimal one.

Скачать

Авторы

Жипа А.В. (Zhipa A.V.) ¹

Журнал

Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика (RUDN Journal of Mathematics, Information Sciences and Physics)

Издательство

Федеральное государственное автономное образовательное учреждение высшего образования Российский университет дружбы народов (РУДН)

Номер выпуска

Язык

Русский

Страницы

46-54

Статус

Опубликовано

Год

2015

Организации

¹ Российский университет дружбы народов

Ключевые слова

фрагментация; распределённые вычислительные системы; NP-полные задачи; задача об упаковке в контейнеры; локальность хранения данных; ragmentation; distributed systems; NP-complete problems; bin-packing problems; data storage locality

Цитировать

ГОСТ MLA RIS BibTex

Другие записи

МОДЕЛЬ ВЫДЕЛЕНИЯ РЕСУРСОВ БЕСПРОВОДНОЙ СЕТИ ОБЪЁМАМИ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Статья

Наумов В.А., Самуйлов А.К.

Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика. 2015. С. 38-45

ОПИСАНИЕ ЛЕПТОННОГО И БАРИОННОГО СЕКТОРОВ В СПИНОРНОЙ МОДЕЛИ СКИРМА-ФАДДЕЕВА

Статья

Молотков В.И.

Вестник Российского университета дружбы народов. Серия: Математика, информатика, физика. 2015. С. 73-77