Исследование и разработка методов индексации больших массивов векторов

В последние годы повысилась актуальность обработки больших объёмов различной информации, например, текстовой. В первую очередь это связано с тем, что сбор данных происходит на нескольких языках. Это привело к следующей проблеме: необходимо выделить такое количество памяти, чтобы данные хранились для дальнейшего использования. В частности, научная, патентная информации исчисляются на сегодняшних день терабайтами, причём количество информации постоянно увеличивается. В данной работе рассматриваются методы индексации больших массивов векторных преставлений текстов. Одни из них Locality Sensitive Hashing (LSH), Scalar Quantizer (SQ), Product Quantization (PQ), Inverted File index (IVF) из библиотеки Facebook AI Research Similarity Search (FAISS). Целью исследования является изучение индексов из рассматриваемой библиотеки, выявление особенностей каждого алгоритма и сравнительный анализ. Тесты индексов проводятся на наборе данных SIFT1M, который содержит миллион 128-размерных векторов. В настоящее время одна из задач, которая существует при работе со сверхбольшим количеством данных, - это быстрая обработка с наилучшей возможной точностью. Очевидно, что для обеспечения эффективной индексации подобных массивов необходимо использовать наиболее оптимальный метод. Соответственно, важно правильно определить по таким характеристикам как: объем векторов и доступные ресурсы то, какой из алгоритмов будет показывать максимально возможно точные результаты за оптимальное время. В дальнейшем планируется произвести более глубокий анализ алгоритмов и создать систему, способную рекомендовать индекс, подходящий под требования пользователя, исходя из заданных параметров. Для реализации этой задачи использовался язык программирования Python, также необходимые библиотеки Python 3.10.

Research and development of methods for indexing large vector arrays

In recent years, the relevance of processing large volumes of various information, such as textual information, has increased. First of all, this is due to the fact that data collection takes place in several languages. This has led to the following problem: it is necessary to allocate such amount of memory so that the data can be stored for further use. In particular, scientific, patent information is now counted in terabytes, and the amount of information is constantly increasing. In this work methods of indexing large arrays of vector text representations are considered. Some of them are Locality Sensitive Hashing (LSH), Scalar Quantizer (SQ), Product Quantization (PQ), Inverted File index (IVF) from Facebook AI Research Similarity Search (FAISS) library. The aim of the research is to study the indexes from the considered library, to identify the features of each algorithm and comparative analysis. The indexes are tested on the SIFT1M dataset, which contains one million 128-dimensional vectors. Currently, one of the challenges that exists when dealing with ultra-large amounts of data is fast processing with the best possible accuracy. Obviously, to ensure efficient indexing of such arrays, it is necessary to use the most optimal method. Accordingly, it is important to correctly determine by such characteristics as: volume of vectors and available resources, which of the algorithms will show the most accurate results in the best possible time. Further it is planned to make more deep analysis of algorithms and to create the system, capable to recommend an index, suitable to user's requirements, proceeding from the set parameters. For realization of this task the programming language Python was used, also necessary libraries Python 3.10.

Авторы
Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
406-410
Статус
Опубликовано
Год
2023
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
vector indexing; indexing methods; large vector arrays; индексация векторов; метолы индексации; большие массивы векторов
Дата создания
28.12.2023
Дата изменения
28.12.2023
Постоянная ссылка
https://repository.rudn.ru/ru/records/article/record/102180/
Поделиться

Другие записи

Баринов Е.Х., Иорданишвили А.К., Манин А.И., Ромодановский П.О., Чижова Е.М.
Декабрьские чтения по судебной медицине в РУДН : актуальные вопросы судебной медицины и медицинской криминалистики. Российский университет дружбы народов (РУДН). 2023. С. 30-32
Смирнов А.В., Баринов Е.Х., Сундуков Д.В.
Декабрьские чтения по судебной медицине в РУДН : актуальные вопросы судебной медицины и медицинской криминалистики. Российский университет дружбы народов (РУДН). 2023. С. 32-36