Cтатья посвящена исследованию возможностей применения алгоритмов кластеризации и обработки естественного языка при изучении вариативности языковой картины мира носителей русского и арабского языков. Эта статья актуальна, поскольку сегодня необходимо изучить возможности алгоритмов кластеризации в рамках корпусной лингвистики, особенно в исследовании вариативности языковой картины мира. Новизна этого исследования заключается в том, что впервые алгоритм k-means используется для анализа вариативности языковой картины мира носителей русского и арабского языков. Автор использует алгоритм кластеризации k-means из-за его простоты, масштабируемости, скорости и универсальности. Задачи исследования являются как теоретическими, так и практическими. Теоретические включают объяснение механизмов работы алгоритма кластеризации и описание корпусного подхода исследования. Практические задачи включают в себя сбор наборов данных в формате JSON как для арабского, так и для русского языков, проведение экспериментов для оценки точности с использованием моделей TF-IDF, а затем визуализацию лучших результатов. Это исследование демонстрирует потенциал алгоритмов кластеризации в понимании вариативности языковой картины мира, особенно в контексте арабского и русского языков. Оно предоставляет доказательства вариативности языковой картины мира, показывая, что алгоритмы кластеризации работают по-разному с разными языками. Полученные результаты имеют практическое применение в таких областях, как лингвистика, межкультурное общение, преподавание языков, машинный перевод и программирование.
The article is devoted to researching the possibilities of using clustering algorithms and natural language processing in studying the variabilities of the linguistic picture of the world for native speakers of both Russian and Arabic. This paper is relevant because there is a need nowadays to explore the capabilities of clustering algorithms within corpus linguistics, particularly in investigating the variability of the world linguistic picture. The novelty of this research is that, for the first time, the k-means algorithm is utilized in analyzing the Arabic and Russian language pictures of the world. The author utilizes the k-means clustering algorithm due to its simplicity, scalability, speed, and versatility. The tasks of the study are both theoretical and practical. The theoretical ones include explaining the working mechanisms of the clustering algorithm and describing the corpus-based approach of the study. The practical tasks encompass gathering datasets in JSON format in both Arabic and Russian, followed by experimentation with TF-IDF models to assess accuracy. Subsequently, the most effective outcomes are visualized. This investigation showcases the utility of clustering algorithms in comprehending the variability of language worldviews, specifically within Russian and Arabic. By demonstrating that clustering algorithms exhibit distinct behavior across languages, the study offers insights into the variability of world linguistic pictures. The findings have practical applications in fields such as linguistics, cross-cultural communication, language teaching, machine translation, and programming.