Современная наука не может обойтись без вычислительных платформ и современных систем обработки и хранения данных. Когда речь идет об обработке данных о мельчайших частицах бытия или прогнозировании в реальном времени природных явлений чудовищной сложности, обращение к счетам или бумаге с карандашом немыслимо. Однако немногим более полувека назад пара сотен операций в секунду были пределом технологических возможностей компьютера. Что и как поменялось? Корреспонденту «Научной России» рассказал об этом заместитель директора Лаборатории информационных технологий им. М.Г. Мещерякова Дмитрий Владимирович Подгайный.
«ОИЯИ был образован в 1956 г., но, конечно, не на пустом месте. В конце сороковых Михаил Григорьевич Мещеряков построил в Дубне самый мощный в мире синхроциклотрон и был организован Институт ядерных исследований Академии наук СССР (до этого Гидротехническая лаборатория), директором которого он был назначен. С 1953 г. была Электрофизическая лаборатория АН СССР под руководством В.И. Векслера, занимавшаяся физикой высоких энергий. В 1956 г. обе эти организации вошли в состав Объединенного института ядерных исследований и стали первыми его Лабораториями, а проблематика, связанная с физикой высоких энергий, стала одной из основных направлений исследований Института», — начал рассказ Д.В. Подгайный.
Д.В. Подгайный
Именно исследования в области физики высоких энергий существенно повлияли на развитие вычислительной техники в ОИЯИ. Эта область всегда была самой ресурсоемкой с точки зрения обработки и приема данных. Так что еще до создания ОИЯИ в Дубне уже существовали свои вычислительные мощности. После создания ОИЯИ в институте был организован вычислительный центр, в котором в 1958 г. была установлена первая большая вычислительная машина того времени — «Урал-1». Ламповая машина, которая могла выполнять 100 операций в секунду, с памятью на магнитном барабане.
«У ОИЯИ всегда были довольно тесные контакты с CERN — Европейской организацией по ядерным исследованиям. Было налажено активное сотрудничество, поскольку CERN тоже занимался физикой высоких энергий. Так как энергии повышались, количество данных росло, существовала насущная необходимость наращивать вычислительную мощность не только для исследований в рамках ОИЯИ, но и для сотрудничества с CERN. И это была тоже одна из причин того, что в ОИЯИ в 1966 г. было создано отдельное подразделение — Лаборатория вычислительной техники и автоматизации (ЛВТА). На новую Лабораторию был возложен широкий круг задач, связанный со всесторонним развитием вычислительной техники и программирования как для обеспечения математических расчетов, так и для обеспечения теоретических исследований. Еще одним направлением стала автоматизация обработки экспериментальной информации — прежде всего, обработки фотографий с пузырьковых и искровых камер, получаемых в ОИЯИ. Также наша Лаборатория занималась координацией совместных работ со странами-участницами ОИЯИ в вопросах вычислительной техники, программированию и развитию методик обработки экспериментальных данных. Поручили создать эту лабораторию Михаилу Григорьевичу Мещерякову, который был одним из отцов-основателей и ОИЯИ и города Дубны», — продолжил рассказ ученый.
Фото синхрофазотрона в музее ОИЯИ
«Первым заместителем М.Г. Мещерякова стал Николай Николаевич Говорун. Николай Николаевич неоднократно бывал в CERN и развивал сотрудничество с этой организацией в плане обработки данных. Через ЛВТА прошли все советские машины: “Киев”, М-20, ”Минск”, машины серий БЭСМ и ЕС, а благодаря сотрудничеству с CERN в ЛВТА появились американские компьютеры CDC, первая из которых была CDC – 1604A. CDC появилось для того, чтобы обработка данных шла на одном и том же оборудовании с использованием одних и тех же компиляторов и программного обеспечения, которые использовались в рамках сотрудничества с ЦЕРН. Н.Н. Говорун привез сюда язык программирования Fortran — церновскую разработку, и адаптировал его на советские БЭСМ. Надо сказать, что в конце шестидесятых в нашей Лаборатории, помимо создания транслятора с языка Fortran, были разработаны мониторная система “Дубна”, которая распространилась на все машины БЭСМ-6 в СССР и за рубежом (в ГДР, Индии и др.), а также операционная система “Дубна” для БЭСМ-6», — отметил ученый.
Все развивалось. Пришло время, когда ЕС ЭВМ, БЭСМ, VAX, Convex и прочие машины перестали быть актуальными. Появились первые настольные суперкомпьютеры типа AlphaStation, SunStation — наступили 1990-е гг. Компьютер от компании IBM по мощности был сопоставим с многошкафным VAX, а помещался при этом на рабочем столе. Эра больших машин закончилась, началась эра персональных компьютеров и их объединения в вычислительные фермы. В области вычислений также произошла революция, а именно появился GRID — система географически распределенной обработки данных.
Д.В. Подгайный рассказывает о старых моделях суперкомпьютеров
«Кстати, могу еще одну историю рассказать, почему возник GRID. Некоторые говорят, что чистая правда. Решили строить в CERN большой ускоритель — Большой адронный коллайдер (LHC), конец 1990-х гг. По задумке — самая мощная ускорительная машина, она такой и остается. Еврокомиссия выдавала деньги. Оценили стоимость ускорителя — получилось несколько миллиардов долларов тех лет. Стали оценивать, сколько будет стоить суперкомпьютер, который будет стоять рядом, принимать и обрабатывать данные. Посчитали объем, размер, стоимость обслуживания — пришли к выводу: стоить он будет не меньше, чем ускоритель. Тогда люди, подававшие проект в Еврокомиссию, подумали и сказали: “Нет, про компьютер и обработку данных мы заикаться не будем, иначе денег просто не дадут”. Проект подали, Еврокомиссия одобрила. Началось строительство ускорителя, и тут стали думать, что же делать с данными. Концепция GRID возникла почти параллельно, независимо. Люди в CERN, строившие ускоритель, увидели ее и сказали: “Это то, что нам надо!” То есть строить распределенный компьютинг. С тех пор организации, входящие в экспериментальные коллаборации с CERN, должны, помимо взносов, предоставлять вычислительные ресурсы, причем предоставлялись они за счет самих участниц. CERN тратил деньги только на первый уровень сбора данных экспериментов. Надо сказать, что первоначально GRID для LHC имел строго иерархическую многоуровневую структуру центров обработки и хранения экспериментальных данных. Уровень Tier-0 находится в CERN и соединен по высокопроизводительным каналам связи с региональными центрами Tier-1, которые являются фабриками хранения и обработки данных. Эти центры, в свою очередь, соединены с множеством локальных центров Tier-2, в которых выполняются задачи по анализу и моделированию событий», — отметил Д.В. Подгайный.
Лаборатория приняла самое активное участие в развитии распределенных вычислений. В начале нулевых был создан центр уровня Tier-2 для обработки данных с экспериментов на LHC. До 2015 года он оставался основным элементом грид-инфраструктуры ОИЯИ и при этом являлся одним из крупнейших в России ресурсных центров в составе глобальной грид-инфраструктуры и входил в первую десятку грид-сайтов уровня Tier-2 в мире. В 2015 году в ЛИТ ОИЯИ был запущен в эксплуатацию центр уровня Tier-1 для эксперимента CMS. Он используется как часть глобальной системы обработки экспериментальных данных, поступающих из центра уровня Tier-0 (ЦЕРН), а также центров уровней Tier-1 и Tier-2 глобальной грид-инфраструктуры эксперимента CMS.
Одной из основных функций сайта Tier-1 является получение и ответственное хранение уникальных экспериментальных данных эксперимента CMS, переданных от сайта Tier-0 в ЦЕРН. Кроме этого, сайт обеспечивает последовательную и непрерывную обработку данных, их повторную обработку с использованием нового программного обеспечения или новых констант калибровки и предоставление доступа к различным наборам данных сайтам уровня Tier-1 и Tier-2, задействованным в обработке данных эксперимента CMS.
В музее ОИЯИ
«Надо сказать, что развитие вычислительного комплекса ОИЯИ привело к созданию в нашей Лаборатории Многофункционального информационно-вычислительного комплекса (МИВК), который включает себя грид-компоненту, облачную компоненту и гетерогенную платформу HybriLIT (о ней речь пойдет ниже). МИВК является одной из базовых установок нашего Института. Одним из важнейших элементов грид-инфраструктуры ОИЯИ, как и всего МИВК, является система хранения данных. В качестве основных систем хранения данных используются распределенные системы dCache и EOS для дисковых хранилищ. При этом EOS рассматривается как общая распределённая система хранения данных для всех пользователей МИВК с полной ёмкостью превышающей 20 ПБ. Помимо дискового хранилища на МИВК используется роботизированное ленточное хранилище общей емкостью 100 ПБ», — сообщил ученый.
В настоящее время в состав Tier-1 входят больше 450 вычислительных узлов с количеством ядер превышающим 20 тысяч, а состав Tier-2 входят 485 узлов, содержащих больше 10 тысяч вычислительных ядер. Надо отметить, что в прошлом году Tier-1 ОИЯИ занял первое место по суммарному нормированному процессорному времени, затраченному на обработку данных, в рейтинге мировых Tier-1 сайтов, обрабатывающих данные эксперимента CMS на LHC. При этом, сайт Tier-2 в ОИЯИ является наиболее производительным в российском грид-сегменте (РДИГ), в прошлом году на нем выполнено почти 3 миллиона задач, что превышает 90% от суммарного процессорного времени российского грид-сегмента.
Ресурсы грид-сайтов МИВК используются и для проектов ОИЯИ, они играют ключевую роль для мегапроекта NICA, на этих ресурсах выполняются задачи моделирования для экспериментов MPD и SPD, а эксперимент BM@N имеет возможность проводить полную обработку экспериментальных данных. Также эти ресурсы используются для реализации нейтринной программы ОИЯИ.
Для удовлетворения пользователей МИВК в параллельных вычислениях и использования различных типов ускорителей вычислений в структуре МИВК была создана гетерогенная вычислительная платформа HybriLIT. Ее история началась в 2013 г. с решения расширить МИВК ОИЯИ посредствам добавления в его структуру одноименного гетерогенного вычислительного кластера. Такое решение следовало современным на тот момент тенденциям развития мировых вычислительных технологий, и к настоящему моменту эта тенденция лишь усилилась в связи с активным развитием и внедрением методов искусственного интеллекта. В 2014 г. кластер содержал самые современные на то время вычислительные архитектуры, входящие в состав четырех узлов.
«Дальнейшее развитие кластера HybriLIT осуществлялось по двум основным направлениям. Первое касалось наращивания вычислительных мощностей как многоядерного компонента кластера HybriLIT, содержащего многоядерные процессоры и сопроцессоры Intel Xeon Phi, так и GPU — компоненты, содержащей ускорители вычислений от Nvidia. Наращивание вычислительной мощности было обусловлено как возрастающим количеством пользователей, так и увеличением числа прикладного программного обеспечения и специализированных библиотек, требующих использования ускорителей вычислений», — уточнил ученый.
Второе направление было связано с систематическим исследованием возможностей новых вычислительных архитектур, появляющихся в сфере высокопроизводительных вычислений (HPC) с целью последующего их включения в состав кластера. Данное направление позволило в конечном итоге определить архитектуру суперкомпьютера «Говорун» и предоставило пользователям ОИЯИ современные вычислительные средства для повышения эффективности решения научных задач, а также позволило реализовывать более сложные математические модели исследуемых физических процессов.
В музее ОИЯИ
«Необходимость создания суперкомпьютера была связана, с одной стороны, с увеличивающейся востребованностью и результативностью использования новейших вычислительных архитектур при решении задач Института, а с другой — с ростом числа пользователей, в том числе благодаря многочисленным учебным курсам по технологиям параллельного программирования, проведенным для сотрудников института и стран — участниц ОИЯИ. Постоянный рост числа пользователей и расширение круга решаемых задач потребовали не просто существенно нарастить вычислительные возможности кластера, а разработать и внедрить новые технологии, что привело к созданию новой вычислительной системы — суперкомпьютера, названного в честь Николая Николаевича Говоруна. СК “Говорун” создавался как высокопроизводительная масштабируемая система с жидкостным охлаждением от Группы компаний РСК. Одной из основных особенностей суперкомпьютера “Говорун” является то, что он обладает гиперконвергентной и программно определяемой архитектурой», — подчеркнул Д.В. Подгайный.
Суперкомпьютер «Говорун» задействован для решения задач массовой генерации и реконструкции данных эксперимента MPD NICA, активно использующие иерархическую систему обработки и хранения данных СК. При этом на разных этапах рабочих процессов возникает потребность в разной скорости доступа к данным, например, для задач долговременного хранения скорость доступа не является важным фактором, а для задач реконструкции – играет существенную роль. Также для ряда задач MPD возникла потребность в большом объеме оперативной памяти, что привело к необходимости включения в архитектуру суперкомпьютера гиперконвергентных узлов с большим объемом памяти. Таким образом, методологически, для обеспечения всех рабочих процессов для задач мегапроекта NICA на СК «Говорун» создана система, сочетающая в себе как вычислительные архитектуры различных типов, так и развитую иерархическую систему обработки и хранения данных. Вычислительные ресурсы и иерархическая система обработки и хранения данных СК «Говорун» были интегрированы на базе платформы DIRAC в распределенную гетерогенную среду, включающую в себя грид-сайты МИВК, другие ресурсы ОИЯИ и стран-участниц.
Реализация перечисленных технологий на СК «Говорун» позволила выполнить ряд сложных ресурсоемких расчетов в области решеточной квантовой хромодинамики для исследования свойств адронной материи при высоких плотностях энергии и барионном заряде и в присутствии сверхмаксимальных электромагнитных полей, качественно повысить эффективность моделирования динамики столкновений релятивистских тяжелых ионов, ускорить процесс генерации и реконструкции событий для проведения экспериментов в рамках реализации мегапроекта NICA, провести расчеты радиационной безопасности экспериментальных установок ОИЯИ и повысить эффективность решения прикладных задач.
С введением в эксплуатацию СК «Говорун» кластер HybriLIT продолжил успешно функционировать, но роль его изменилась. Благодаря разработанной и внедренной ранее программно-информационной среде ресурсы кластера и суперкомпьютера были объединены в гетерогенную платформу, унаследовавшую имя HybriLIT. При этом основным вычислительным ядром платформы остается СК «Говорун». А на ресурсах кластера под названием «учебно-тестовый полигон» пользователи платформы могут применять доступные пакеты прикладных программ и разрабатывать собственные приложения, проводить расчеты с использованием различных типов вычислительных архитектур (центральных процессоров и графических ускорителей) без необходимости переноса данных или перекомпиляции программ.
Дальнейшее развитие вычислительных систем в ЛИТ ОИЯИ будет определяться и отвечать растущим потребностям в ходе реализации проектов Института в эффективной и быстрой обработке и хранении данных, необходимости оптимально решать различные научные и прикладные задачи, требующие как массивных параллельных вычислений, так и использования методов и технологий больших данных и искусственного интеллекта.