Цели. В настоящее время основным источником получения информации является Интернет. Огромный объем информации, доступной в сети, делает актуальной задачу всестороннего анализа данных из открытых интернет-источников. Цель работы заключается в создании многоцелевого, модифицируемого кластера для глубокого анализа данных интернет-источников, основными задачами которого являются выявление наиболее важных публикаций в некоторой предметной области и их тематический анализ, определение лидера научного направления и тенденций развития направлений деятельности и взаимодействия групп людей.Методы. Для решения поставленной задачи была разработана методология построения многоцелевого кластера с использованием технологий быстрого построения тематической графовой базы данных, графа знаний, методов и моделей машинного обучения для глубокого анализа данных.Результаты. Разработана Система комплексного анализа данных тематических сайтов ИСКАД ИИ, апробированы методология быстрого построения тематической графовой базы данных и комплексная технология глубокого анализа данных интернет-источников и известных мировых сайтов.Заключение. Создана среда информационных технологий для быстрого построения тематических графовых баз данных. Результаты применения технологии быстрого построения графовых баз данных показаны на примерах работы ИСКАД ИИ.
1. Интеллектуальная система комплексного анализа данных интернет-источников / М. П. Батура [и др.] // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сб. материалов VI Междунар. науч.-практ. конф., Минск, 20–21 мая 2020 г. : в 3 ч. Ч. 1 / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 220–241.
2. Пилецкий, И. И. Графовые технологии в интеллектуальной системе комплексного анализа данных интернет-источников / И. И. Пилецкий, М. П. Батура, Л. Ю. Шилин // Доклады БГУИР. – 2020. – Т. 18, № 5. – С. 89–97.
3. Граф знаний и машинное обучение как ИТ-среда интеллектуального анализа данных интернетисточников / М. П. Батура [и др.] // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сб. науч. ст. VIII Междунар. науч.-практ. конф., Минск, 11–12 мая 2022 г. / Бел. гос. ун-т информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2022. – С. 330–344.
4. Diestel, R. Graph Theory / R. Diestel. – Berlin : Springer-Verlag, 2017. – 448 р.
5. Needham, M. Graph Algorithms / M. Needham, A. E. Hodler. – Sebastopol : O’Reilly Media, 2019. – 265 р.
6. Hamilton, W. L. Representation learning on graphs: Methods and applications / W. L. Hamilton, R. Ying, J. Leskovec // IEEE Data Engineering Bulletin. – 2017. – Vol. 40, no. 3. – Р. 52–74.
7. Ovcinnikova, J. Visual diagrammatic queries in ViziQuer: Overview and implementation / J. Ovcinnikova, A. Sostaks, K. Cerans // Baltic J. of Modern Computing. – 2023. – Vol. 11, no. 2. – Р. 317–350.
8. Portisch, J. Knowledge graph embedding for data mining vs. knowledge graph embedding for link prediction – two sides of the same coin? / J. Portisch, N. Heist, H. Paulheim // Semantic Web. – 2022. – Vol. 13, no. 3. – Р. 399–422. https://doi.org/10.3233/SW-212892
9. Barrasa, J. Knowledge Graphs / J. Barrasa, A. E. Hodler, J. Webber. – Sebastopol : O’Reilly Media, 2021. – 85 р.