@article{Кульбак Л. И.2019-10-05, author = { Кульбак Л. И., Чиж О. П., Парамонов Н. Н., Рымарчук А. Г., Мартинович Т. С.}, title = {Оценка надежности кластерной суперкомпьютерной конфигурации}, year = {2019}, doi = {10.29235/1561-8358-2019-64-3-347-358}, publisher = {NP «NEICON»}, abstract = {Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера. Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера. Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов). Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.}, URL = {https://www.academjournals.by/publication/13467}, eprint = {https://www.academjournals.by/files/13433}, journal = {Известия Национальной академии наук Беларуси. Серия физико-технических наук}, }