Материалы портала «Научная Россия»

Больше данных, хороших и разных!

Способны ли нынешние технологии справиться с лавиной информации и какие вычислительные новшества нас ждут в ближайшем будущем, мы попросили рассказать начальника Отделения математического моделирования и информационных технологий НИЦ «Курчатовский институ

Несмотря на определённые успехи в разработке принципиально новых типов компьютеров, классическая архитектура ЭВМ по фон Нейману остаётся на сегодняшний день пока единственным жизнеспособным вариантом. И пусть до квантовых и нейронных вычислительных машин осталось каких-то полтора десятка лет, обрабатывать данные, объём которых растёт с неимоверной быстротой, необходимо уже сегодня. Способны ли нынешние технологии справиться с этой лавиной информации, и какие вычислительные новшества нас ждут в ближайшем будущем, мы попросили рассказать начальника Отделения математического моделирования и информационных технологий НИЦ «Курчатовский институт» Вячеслава Анатольевича Ильина и заместителя директора по информационным технологиям и системам НИЦ «Курчатовский институт» Василия Евгеньевича Велихова. 

Ильин Вячеслав Анатольевич – начальник Отделения математического моделирования и информационных технологий Курчатовского НБИКС-Центра НИЦ «Курчатовский институт»; заведующий кафедрой информатики и вычислительных сетей факультета НБИК МФТИ; ведущий научный сотрудник НИИЯФ МГУ; доктор физико-математических наук
Родился в 1952 году
В 1975 г. окончил физический факультет МГУ, в 1978 аспирантуру физфака МГУ
Сфера научных интересов: применение компьютерных методов в научных исследованиях
Автор более 100 научных публикаций и одного патента
Велихов Василий Евгеньевич – заместитель директора по информационным технологиям и системам НИЦ «Курчатовский институт». Кандидат физико-математических наук.
Родился в 1960 году в Москве
Сфера научных интересов: исследование и разработка технологий высокопроизводительных вычислений, вычислений с высокой пропускной способностью, обработка и анализ больших массивов научных данных.
Член ученого совета НИЦ «Курчатовский институт», член рабочей группы по вопросам развития и использования суперкомпьютерных и грид-технологий в сфере образования и науки.
Автор более 20 публикаций, в том числе два авторских свидетельства.

Теоретическая альтернатива

– Вячеслав Анатольевич, Василий Евгеньевич, хотел бы начать с такого вопроса. Все современные компьютеры построены на архитектуре фон Неймана. Но были ли в то время возможности применить другую архитектуру? Существовали какие-то альтернативы? Или это был единственный возможный вариант? В частности, реально ли было воплотить преимущества нашего мозга – к примеру, хранение информации там же, где она обрабатывается, и так далее.

Ильин Вячеслав Анатольевич: Нет. Все, что мы знаем, – это то, что у нас в головах нечто такое, что работает совсем не так, как современные компьютеры. Огромные пласты задач, которые современные компьютеры очень плохо выполняют, наш мозг выполняет очень легко. Даже трехлетний ребенок выполняет такие задачи очень эффективно. Современный компьютер так не умеет. Но когда фон Нейман формулировал свою парадигму, это было вполне естественное переложение на численные методы решения того, что люди делали на счетах, линейках и так далее.

Сейчас обсуждаются две парадигмы, которые обещают в неопределенном будущем какие-то перевороты. Одна – это нейрокомпьютеры. Здесь определяющий вызов – это мозг в черепе у человека. Вторая – квантовый компьютер. Показательный пример: создан квантовый алгоритм Шора, который разлагает целые числа на простые множители. В зависимости от числа N, рост времени, который тратится на решение этой задачи, будет экспоненциальный. Квантовый алгоритм Шора сводит эту задачку к возможности решить ее за время, пропорциональное N в кубе. Это феноменальный результат, но он лишь теоретический. Этот алгоритм пока еще не реализовали ни в каком квантовом компьютере, поскольку никакого квантового компьютера еще нет, что бы там люди ни говорили. Но теоретический результат вызывает огромный интерес. Конечно, когда это дойдет до реализации, это будет переворот.

– Что мешает реализации?

Ильин: Есть технологические, они же фундаментальные, проблемы на этом пути. Хотя сейчас есть варианты реализации алгоритма Шора на разных квантовых объектах – теоретически, чтобы это реализовать, нужно решить проблему квантовой декогеренции. Чтобы на достаточно большом расстоянии волновая квантовая функция жила, нужно, чтобы классические объекты ее не разрушили. В физике достигнут большой прогресс – длина декогеренции постоянно увеличивается. И в какой-то момент действительно станет возможным реализовать квантовые компьютеры. Когда – не знаю.

– То есть это всё пока чистая теория?

Велихов Василий Евгеньевич: Нет, уже какие-то отдельные элементы начинают опробовать.

Ильин: Да. Но тут еще много фундаментальных проблем нужно решить. А пока все компьютеры – парадигма фон Неймана, машина Тьюринга. И эта парадигма основана на последовательном выполнении операций. А для такой эффективности, как в человеческом мозге, нужна параллельная машина.

 Параллельные задачи

Велихов: Мы занимаемся, прежде всего, научным компьютингом, то есть мы обслуживаем научные задачи НИЦа. Есть отдельный административный компьютинг, который обслуживают другие люди, и он делается на совершенно других платформах. То есть мы исходно достаточно разделены. У нас фактически многофункциональный исследовательский комплекс, причем он ещё и исходно мультидисциплинарный. С нами работают практически все наши центры по всем направлениям. Поэтому мы обеспечиваем, во-первых, все свои научно-исследовательские работы. Во-вторых, мы обеспечиваем взаимодействие с большими международными проектами, в которых вся обработка и анализ строятся тоже на распределенных компьютерных технологиях. Это, прежде всего задачи, решаемые на суперкомпьютерах по отдельным направлениям. С другой стороны, наверное, почти половина комплекса работает в составе больших исследовательских инфраструктур по технологии вычисления с высокой пропускной способностью, то есть там вопрос не в том, чтобы распараллелить задачу, а чтобы просто обработать огромное количество поступающих задач. Там уже параллельность заложена исходно.

– От кого поступают задачи?

Велихов: Это в основном сейчас связано с физикой высоких энергий – Большой адронный коллайдер, затем FAIR, возможно, НИКА, то есть большие ускорители. Во-вторых, это новые рентгеновские источники. Мы в какой-то мере работаем со своим источником синхротронного излучения, с его станциями. Мы планируем работу с новым источником XFEL – это европейский, совместный с Россией, проект в Гамбурге. Мы планируем также работу с источником ПИК – нейтронным реактором, который тоже планируется как большой международный проект. То есть во всех этих проектах вычислительная исследовательская инфраструктура составляет значительную часть. Сейчас уже обработать эти данные никаким другим способом невозможно. Эти технологии у нас интегрируются двумя дополнительными технологиями, с которыми нам приходится работать – это большие и очень большие данные, то есть петабайты, которые идут с современных детекторов и потом только редуцируются в обрабатываемые потоки масштабов десятков гигабит в секунду. Соответственно, это высокопроизводительные сети, которые поддерживают такую передачу данных. То есть мы живем в своих выделенных сетях и работаем.

 

Вторая часть, если отойти от инфраструктур мегаустановок, это высокопроизводительные вычисления, то есть параллельные вычисления. Мы фактически изучаем довольно сложные системы в том или ином виде, их строение и динамику. Начиная от Вселенной: мы ее изучаем и с помощью обработки данных Большого адронного коллайдера, когда мы пытаемся понять, что там было 14 миллиардов лет назад, и с помощью моделирования на суперкомпьютерных системах. Решаем тоже довольно запутанную задачу, связанную с устройством собственно Земли, а также задачи сейсмические и электромагнитные. Как устроена Земля, мы тоже пока до конца понимаем не намного лучше, чем Вселенную. Сейчас мы перешли еще к системам, связанным с человеком – начиная от клеток и белков, и дальше сети и системы, из которых состоит человек.

– Как насчёт инженерных расчётов?

Велихов: Да, мы занимаемся расчетами, связанными со сложными инженерными системами в процессе их создания либо эксплуатации. Это и сами исследовательские мегаустановки, и ядерные реакторы. Там, с одной стороны, моделируется целый ряд вещей, связанных с возможностью продления эксплуатации отдельных подсистем этих реакторов. С другой стороны, моделируются вещи, связанные с проектными и запроектными авариями. То есть тем, что не очень хочется обычно моделировать в физической среде. Большие инженерные установки типа корабля – это миллионы компонентов, самолет – сотни тысяч. Поэтому подходы к таким отдельным инженерным большим системам разные. Они сильно зависят от того, с чем ты работаешь. Нельзя одним и тем же софтом, одним и тем же подходом моделировать разноуровневые вещи. Каждый раз требуется очень тонкая настройка.

 Облачность с прояснениями

– С какими вычислительными технологиями вы работаете?

Велихов: Во-первых, это грид-технологии, которые позволяют в одной большой системе объединять ресурсы, администрируемые локально. То есть мы отдаем свои ресурсы в большую систему, в данном случае ЦЕРН, для работы. Сейчас стали появляться несколько более простые облачные технологии, которые тоже позволяют объединять разные ресурсы и получать их от разных провайдеров.

– В чём принципиальное отличие двух технологий?

Велихов: Грид-технологии – это когда компьютерные вычисления выполняются поверх Интернета. Ресурсы расположены в Интернете, задачи посылаются через Интернет и выполняются. Но с каждым из ресурсов – вычислительным центром или отдельным компьютером – пользователь, решающий задачи, должен как-то договариваться, обсуждать, какие у них ресурсы, как запускать. Когда концепция грид была предложена в конце 90-х годов, в научном мире она была воспринята. В частности, она была взята на вооружение в проекте Большого адронного коллайдера. И глобальная система обработки, анализа, моделирования экспериментальных данных была построена в рамках концепции грид. В научном плане это сработало хорошо.

Однако бизнес-сообщество относилось к этому довольно настороженно, потому что чувствовалось, что здесь у бизнеса не очень большое поле для маневра. И тогда в первой половине 2000-х годов родилась концепция облачных вычислений, которая сформулировалась примерно в 2005 году. Она заключалась в следующем: давайте мы сделаем «стену» между пользователем и людьми, которые обеспечивают функционирование этих сложных компьютерных установок. Например, центра, кластера. Эта стена будет такая: пользователь ничего не будет знать, что и как эти инженеры или системщики что-то там делают. Для него это выглядит как его собственный компьютер, к которому он привык. Соответственно, находящиеся с той стороны не знают, что делают пользователи. Эта стена и называется «облачные вычисления».

– И как были восприняты облачные технологии?

Ильин: Сейчас в бизнесе очень настороженно относятся к облачным технологиям, в России особенно. Именно потому, что это все-таки ресурс удаленный – он как бы свой, но он все-таки чужой, и свои частные данные туда отправить сильно опасаются.

Велихов: И не
только. Там может возникать целый ряд вопросов, например, связанных с экспортными ограничениями на программное обеспечение. Если вы при этом крутите где-то в облаке программное обеспечение с интеллектуальной собственностью США, вы всегда можете легко попасть на то, что здесь имеет место экспортное ограничение.

– Какие ещё задачи решаются на суперкомпьютере в вашем вычислительном центре?

Велихов: У нас есть ряд проектов, связанных с виртуализацией суперкомпьютерных сервисов. Это довольно сложная технология. Она связана с тем, что все суперкомпьютерные установки в достаточной мере уникальные. Хотя мы стараемся с экзотикой не связываться. Это, прежде всего, определяется тем, что у нас много собственных программных пакетов, в том числе у ядерного кластера, которые разрабатываются десятилетиями, верифицируются, валидируются на установках. Потом еще аттестуются для использования при каких-то проектных работах на конкретных установках. Перевод их на новые суперкомпьютерные технологии – адова работа. Зачастую это занимает больше, чем соответствующая технология живет.

Поэтому довольно много усилий вместе с Институтом системного программирования Академии наук мы потратили в рамках госконтракта на создание такого виртуализационного слоя, который бы позволял упростить, с точки зрения пользователя, работу с суперкомпьютером. Чтобы пользователю не надо было адаптироваться каждый раз к конфигурации суперкомпьютера. Это одно направление.

Второе направление тоже очень важное: мы работали в рамках европейского проекта Седьмой рамочной программы и программы исследования и разработки предыдущей. То, что называлось Joint Call. Это когда консорциум европейский и консорциум российский работают параллельно над одной и той же задачей, а финансирование получают из разных программ. Тут, конечно, очень много нюансов, включая синхронизацию конкурсов – это отдельная история. Но мы получили положительный опыт в распараллеливании и адаптации программ, в первую очередь промышленных кодов, к новым архитектурам. С нашей стороны участвовал Институт прикладной математики имени Келдыша, участвовал Физтех, участвовали мы. В общем, получилась очень интересная командная работа на несколько лет.

– Эта программа уже закончилась?

Велихов: Да, закончилась успешно. Есть большой европейский отчет, где они как раз рассмотрели все аспекты этого взаимодействия. Был сделан вывод, что работа очень успешная, потому что различные партнеры вкладывают туда то, что они умеют наилучшим образом. Мы более сильны в алгоритмике. У них есть большой опыт с промышленностью с точки зрения расчетов, с точки зрения именно адаптации промышленных кодов к различным архитектурам. Происходит обмен опытом по различным направлениям, в которых различные организации являются лидерами. Ведь невозможно в такой области лидировать по всем направлениям. Различные центры фокусируются на каких-то отдельных аспектах этих технологий, и когда все это вместе складывается, то получается очень интересная работа.

 Большие данные

– Давайте вернемся к вопросу компьютинга высоких энергий…

Ильин: Начну с сегодняшнего дня. Я уже говорил, что грид-технологии – это где-то конец 90-х годов. В середине нулевых годов  – это облачные технологии. А сейчас – это концепция Big Data – большие данные. И я хотел бы пояснить, о чем идет речь.

Грид – это технология, облако – это технология, Big Data – это флаг, но не сама технология. Флаг, который говорит об очень серьезном изменении. Сейчас, с развитием компьютерных железок, программного обеспечения и даже мировоззренческих, сетевых технологий, актуально стало говорить о том, что мы можем не просто оперативно, а практически в реальном времени работать с огромными потоками данных. Сейчас у нас петабайты за какой-то период времени. Через пять лет это уже будет на три порядка больше – экзобайты.

Если говорить о науке, то физика высоких энергий с 1960-х годов всегда работает с большими данными, то есть в каждый данный момент времени на пределе технической и технологической возможности. При этом объём постоянно увеличивается. Когда говорят о распределенной глобальной системе обработки, анализа, моделирования данных, говорят про «тиры» – Tier-0, Tier-1, Tier-2. Это терминология из иерархических моделей. Tier – это уровень, ярус. Tier-0 – это компьютерная система, в основном, в ЦЕРНе, когда в детектор поступают данные после онлайн-обработки, которые надо записывать. Это так называемые сырые данные. Дальше в Tier-0 они немножко обрабатываются, фильтруется всякий шум, еще что-то делается, и появляются наборы данных, которые можно уже готовить к анализу. Это работа делается в Tier-1 центрах. Их всего в мире порядка десяти. Сейчас создаются ещё Tier-центры в России и в Корее. После Tier-1 данные передаются в Tier-2 центры. В них физики проводят анализ и моделируют события – ведь в физике высоких энергий открытия делаются в сравнении экспериментальных данных и моделированных.

– Где находятся центры Tier-2?

Ильин: Tier-2 по миру всего 15-20, и они все разного масштаба.

Велихов: У нас сейчас во всех четырех институтах НИЦ есть Tier-2. Мы смотрим возможность их укрупнения и специализации. Для самих экспериментов поддержка сотен центров – это большая проблема, потому что их надо поддерживать, помогать администрировать. Они тоже стараются перейти к работе с более крупными центрами. Здесь и проблема, связанна с сетями, потому что обычно мелкие центры находятся на более слабой сетевой инфраструктуре. Она хуже садминистрирована, там больше ошибок. Соответственно, меньше надежность, меньше доступность ресурса. Поэтому в ATLAS появился Tier-2Д.

Ильин: В эксперименте LHCb центр Tier-2Д в Протвино тоже начинают использовать, хотя он был создан для ATLAS. Вот это – Tier-0, Tier-1, Tier-2 – иерархическая модель, которая была реализована с использованием грид-технологий. Кстати говоря, в 2001 году заработала первая в мире инфраструктура – это Московский университет, НИИ ядерной физики. В том же году, подключились еще центры, включая Курчатовский институт. За эти годы строгая иерархическая система начала меняться. Данные начали бегать не только сверху вниз, но еще между центрами Tier-2 и Tier-1. Получается так называемая mesh-модель.

Ещё одно технологическое решение называется Panda. Оно было создано в эксперименте ATLAS для анализа данных. Но сейчас это одна из технологий, на основе которой будут создаваться будущие технологии Big Data.

Велихов: Она занимается управлением рабочими потоками сложной системы с сотнями центров, различными ресурсами и так далее. Это скоординированные потоки задач и потоки данных. Предварительно она еще и «обнюхивает» центр, выясняет, что там происходит с ресурсами. И надо ли туда посылать данную задачу или там их просто нет. Это огромная интересная система.

Ильин: В её создании принимал участие Алексей Климентов, один из руководителей компьютинга в эксперименте ATLAS.

Велихов: Дубна тоже работает с ними, но немножко в другом направлении. На начальном этапе вся ЦЕРНовская обработка делалась на слабосвязанных кластерах. Параллельность задач не рассматривалась. Они приходили на отдельные процессоры или ядра, там обрабатывались, и взаимодействия между ними не было. Но при этом и в рамках программного обеспечения не закладывались механизмы, готовые работать с «параллельным железом». Поэтому с годами эффективность программного обеспечения существенно отставала от возможной пиковой производительности железа, куда все время закладывались новые параллельные механизмы. Они даже в мобильном телефоне сейчас уже есть. А программное обеспечение как бы их не замечало. Сейчас это большая проблема.

Ильин: Очень важный момент: Большой адронный коллайдер реально стал выдавать данные для физического анализа в 2009 году. Сейчас он остановлен, чтобы стартовать в 2015 году. Новые экспериментальные данные не поступают, но старые еще обрабатываются. В 2015 году стартует новый сеанс, и он примерно до 2018 года будет выдавать данные, которых будет огромное количество. Наш Tier-1 как раз должен включиться в эту работу, а также система Tier-2 – Tier-2Д.

– С учетом того, что уже мы станем ассоциированными членами ЦЕРНа, это все наше.

Ильин: Конечно. Но помимо Большого адронного коллайдера ведь есть другие мегапроекты в Европе. FAIR – ускоритель тяжелых ионов, запуск которого планируется в 2018 году. Эта установка родственна одному из экспериментов на Большом адронном коллайдере: ALICЕ – там тоже физика столкновений тяжелых ионов, изучается кварк-глюонная плазма. В 2014 году будет обсуждаться вопрос построения компьютерной система FAIR – разумеется, на основе богатейшего опыта грид-инфраструктуры, которая для ALICE успешно работает. Но облачные вычисления, Big Data, параллельные суперкомпьютерные установки – все это должно быть в 2014 году переработано, возникнет новая модель. И мы планируем участвовать в ней. Это для России очень важно, потому что наш мегапроект НИКА – это тоже кольцевой ускоритель тяжелых ионов, который будет строиться в Дубне.

– Кстати, а куда пропал линейный коллайдер DESY?

Ильин: Он начинал делаться как экспериментальный. Но в какой-то момент появился проект лазера на свободных электронах – XFEL – с выходом в материаловедение, биологию. Про линейный коллайдер забыли, а XFEL стал основным – это очень интересный большой проект. Но линейный коллайдер никуда не отставлен. Это очень серьезный проект, но он, конечно, начнет реализовываться после того, как Большой адронный коллайдер отработает, то есть где-то в 2020-х годах. Так вот, XFEL – это рентгеновский источник 4-го поколения, который производит очень мощные лазерные импульсы длительностью в несколько фемтосекунд. Это страшно интересно, потому что можно посмотреть динамику, как живет молекула – биологически сложный объект. Там очень высокая яркость излучения.

– Которая уничтожит молекулу…

Ильин: Да, эта молекула тут же начинает взрываться. Поэтому дифракционная картина, которая возникает, очень зашумленная, и возникает математическая проблема, как же разобраться в этих дифракционных картинках, какая же там была структура. И молодые ребята – Антон Теслюк и аспирант Сергей Бобков, совместно с Иваном Вартаньянцем, работающим в Гамбурге, разработали подход, который дает очень хороший результат: используя молекулы, для которых мы знаем структуру, мы можем получить дифракционные картинки.

 Домашние заготовки

Ильин: Я хотел бы рассказать про две разработки здесь. Это относится тоже к Big Data. Вы наверняка знаете карты Google Земли. Кликните, и все глубже, глубже – можете со спутника свой дачный участок посмотреть. Это некая технология визуализации – так называемая технология пирамид. Но это всё – статические снимки. А есть аналогичная технология для интерактивной визуализации в видеопотоках, причем гигапиксельных. На фотоаппаратах – мегапиксель, а здесь – на три порядка больше. Эта технология создана у нас здесь. Причем это не просто визуализация, а может использоваться ещё и в прикладных целях, и в научных – в этом гигантском видеопотоке определить какие-то события и следить, как они развиваются. Например, спутниковые данные – вот Венера прошла на фоне Солнца. И можно «схватить» эту Венеру и отследить, увеличить масштаб и посмотреть. Эта технология у нас здесь разработана, в том числе и в рамках госконтракта. Определенные технические аспекты были разработаны и внутри нашего тематического плана совместной деятельности.

Еще одно наше достижение – совсем недавнее. У нас был блиц-госконтракт – ФЦП с названием «Создание облачной среды для конвейерной параллельной обработки данных дистанционного зондирования Земли по технологии MapReduce». То есть технология в геофизике, например, дистанционного зондирования Земли – это гигантский поток информации. И он только будет увеличиваться. Тут важно прямо в потоке выхватывать и маркировать какую-то информацию. Но этот поток информации можно разбить и обрабатывать отдельно. Это и есть естественный параллелизм. Концепция MapReduce – это когда все разбрасывается по многим данным, а потом результат собирается уже в виде компактного вывода. Эта технология здесь и была выполнена.

Велихов: Я хочу сказать, что это как раз один из переходов от традиционного суперкомпьютинга к суперкомпьютингу с большим объёмом данных (Data-Intensive SuperComputing, DISC). Фактически сами архитектуры машин были направлены на то, чтобы выдавать максимальное количество циклов, и лучше всего – в одну задачу. А как вы туда отдали данные, как вы их оттуда забрали, как там обрабатываются данные, в том числе промежуточных расчетов, – это была не самая актуальная задача, которую решали. И архитектура тоже не очень адаптировалась к этим вещам. Сейчас явно идет сдвиг к DISC. К работе с анализом, уменьшением этих потоков, с визуализацией данных из машины для того, чтобы потом можно было в практически уже экзобайтных массивах, полученных в результате многократных расчетов, получать реальную информацию.

Подготовил Виктор Фридман



велихов василий евгеньевич ильин вячеслав анатольевич курчатовский институт

Назад

Социальные сети

Комментарии

  • Александр, 26 декабря 2014 г. 21:25:08

    90% данных вообще не нужны...
  • Александр, 26 декабря 2014 г. 21:26:48

    Цитата: "В физике достигнут большой прогресс – длина декогеренции постоянно увеличивается. И в какой-то момент действительно станет возможным реализовать квантовые компьютеры. Когда – не знаю."
    Никогда. Квантовый - значит неизвестный. Природа в кости не играет.

Авторизуйтесь, чтобы оставить комментарий