Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения
Петров С. Н.,
Мяделец А. О.,
Кундас Е. В.
2025
Ц е л и. Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов.М е т о д ы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого.Р е з у л ь т а т ы. По результатам проведенных исследований для работы с URL использована модель MLP (F1-score 99,3 %), а для анализа текстовой части веб-ресурса – модель TinyBERT (F1-score 95 %). Разработан программный модуль для выявления мошеннических веб-сайтов, состоящий из серверной части и браузерного расширения. Расширение собирает данные с веб-ресурса, передает их на сервер, где они анализируются обученными моделями машинного обучения. На сервере рассчитывается вероятность фишинговой активности, а результаты отображаются пользователю через интерфейс расширения. Реализация выполнена с использованием стека технологий Python 3.12, Flask, Pickle, Langdetect, Re и NLTK, а также JavaScript и Google Chrome API.З а к л ю ч е н и е. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.
Петров С. Н., Мяделец А. О., Кундас Е. В. Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения. Информатика. 2025;22(3):83-94.
https://doi.org/10.37661/1816-0301-2025-22-3-83-94
Цитирование
Список литературы
1. Завьялов, А. Н. Интернет-мошенничество (фишинг): проблемы противодействия и предупреждения / А. Н. Завьялов // Baikal Research Journal. – 2022. – Т. 13, № 2. – С. 36.
2. Machine learning techniques for detecting phishing URL attacks / D. T. Mosa, M. Y. Shams, A. A. Abohany [et al.] // Computers, Materials & Continua. – 2023. – Vol. 75, no. 1. – Р. 1271–1290. – DOI: 10.32604/cmc.2023.036422.
3. A phishing-attack-detection model using natural language processing and deep learning / E. Benavides-Astudillo, W. Fuertes, S. Sanchez-Gordon [et al.] // Applied Sciences. – 2023. – Vol. 13, iss. 9. – Р. 5275.
4. Петров, С. Н. Датасеты для обучения моделей обнаружению мошеннических веб-ресурсов / С. Н. Петров, А. О. Мяделец, Е. В. Кундас // Лучшие студенческие исследования 2025 : сб. ст. IV Междунар. науч.-исслед. конкурса. – Пенза : МЦНС «Наука и Просвещение». – 2025. – С. 27–32.
5. Жерон, О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем / О. Жерон ; пер. с англ. – СПб. : ООО «Альфа-книга», 2018. – 688 с.
6. Шакла, Н. Машинное обучение и TeпsorFlow / Н. Шакла ; пер. с англ. – СПб. : Питер, 2019. – 336 с.
7. Koroteev, M. V. BERT: A Review of Applications in Natural Language Processing and Understanding / M. V. Koroteev. – URL: https://arxiv.org/pdf/2103.11943 (date of access: 17.03.2025).
8. Worth, P. J. Word embeddings and semantic spaces in natural language processing / P. J. Worth // International Journal of Intelligence Science. – 2023. – Vol. 13, no. 1. – P. 1–21. – DOI: 10.4236/ijis.2023.131001.
9. TinyBERT: Distilling BERT for Natural Language Understanding / X. Jiao, Y. Yin, L. Shang [et al.]. – URL: https://arxiv.org/pdf/1909.10351v5 (date of access: 17.03.2025). – DOI: 10.48550/arXiv.1909.10351.
Похожие публикации