RT - article SR - Electronic T1 - Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения JF - Информатика SP - 2025-10-10 DO - 10.37661/1816-0301-2025-22-3-83-94 A1 - Петров С. Н., A1 - Мяделец А. О., A1 - Кундас Е. В., YR - 2025 UL - https://www.academjournals.by/publication/19942 AB - Ц е л и. Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов.М е т о д ы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого.Р е з у л ь т а т ы. По результатам проведенных исследований для работы с URL использована модель MLP (F1-score 99,3 %), а для анализа текстовой части веб-ресурса – модель TinyBERT (F1-score 95 %). Разработан программный модуль для выявления мошеннических веб-сайтов, состоящий из серверной части и браузерного расширения. Расширение собирает данные с веб-ресурса, передает их на сервер, где они анализируются обученными моделями машинного обучения. На сервере рассчитывается вероятность фишинговой активности, а результаты отображаются пользователю через интерфейс расширения. Реализация выполнена с использованием стека технологий Python 3.12, Flask, Pickle, Langdetect, Re и NLTK, а также JavaScript и Google Chrome API.З а к л ю ч е н и е. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.