Оценка надежности кластерной суперкомпьютерной конфигурации

Кульбак Л. И., Чиж О. П., Парамонов Н. Н., Рымарчук А. Г., Мартинович Т. С.
2019

Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера. Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера. Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов). Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.

Кульбак Л. И., Чиж О. П., Парамонов Н. Н., Рымарчук А. Г., Мартинович Т. С. Оценка надежности кластерной суперкомпьютерной конфигурации. Известия Национальной академии наук Беларуси. Серия физико-технических наук. 2019;64(3):347-358. https://doi.org/10.29235/1561-8358-2019-64-3-347-358
Цитирование

Список литературы

Похожие публикации

Источник