В последние годы словосочетание «открытые данные» звучит все чаще: открылся портал открытых данных Москвы, Евросоюз выделил рекордную сумму на финансирование развития концепции открытых данных, проводится Школа открытых данных и так далее. Посмотрим, что же это такое.
Понятие открытых данных
Концепция открытых данных базируется на представлении о том, что данные должны находиться в свободном доступе для использования и распространения без каких-либо ограничений.
Открытые данные обладают такими свойствами:
· Доступны — без каких-либо ограничений, в удобной форме, предпочтительно через Интернет
· Открыты для распространения — в том числе в комбинации с другими данными
· Не содержат ограничений — могут быть использованы и преобразованы с любыми целями любым лицом или организацией. В частности, открытые данные не могут распространяться с пометками вроде «только для некоммерческого использования» или «только в ознакомительных целях».
Прежде всего, речь всегда идет о данных, связанные с управлением: о численности и структуре населения, о деятельности организаций, нормативных актах и так далее; на этой концепции основан и российский проект «Открытое правительство». А в общем случае это любые данные, скажем, база данных торговой компании о потреблении различных видов товаров, данные использования мобильной сети и т.п.
Но это общая идея. Практическое ее воплощение требует соблюдения определенных правил, иначе можно открыть данные, но так, что их будет прочитать не легче, чем шумерскую клинопись.
Open Data как технический формат
Казалось бы, выложи всю информацию в Интернет, в открытый доступ, и дело с концом. Но открытые данные — это не просто массивы информации, это еще и технический термин. Чтобы какая-то информация стала открытыми данными, важно, чтобы она была выражена на некоем универсальном языке, считывать который может не человек, а машина, компьютер.
Эта важную характеристику открытых данных называют интероперабельностью. Открытые данные по своему языку и структуре должны быть организованы так, чтобы любой желающий мог их использовать. К примеру, в таком случае может быть написан простой алгоритм для сравнения плотности населения России и США, притом, что данные выложены на двух разных порталах. Алгоритм сможет считать и затем использовать эти данные без участия человека.
Таким образом, открытые данные — это характеристика того, как информация «упаковывается» и распространяется, а не информации как таковой. Создание и совершенствование такого единого языка и механизмов удобной работы с огромными массивами открытых данных — это как раз основная исследовательская проблема, которой занимаются специалисты.
В 2012 году по инициативе «создателя Интернета» Тима Бернерса-Ли был создан Институт открытых данных (Open Data Institute, ODI), который сейчас объединяет усилия и курирует работу в этой сфере. В России НП «Инфокультура» стало коммуникационным узлом этой мировой программы, по инициативе организации не так давно прошла, в частности, Школа открытых данных.
Успешные проекты
С помощью открытых данных уже удалось реализовать много интересных проектов. Вот лишь несколько примеров.
· «Once Upon a Crime». Ученые использовали открытые демографические данные и данные с мобильных телефонов с реальными данными о преступлениях в Лондоне. Алгоритм позволил с точностью в 68% предсказать, где именно в городе произойдет в какой-то момент времени преступление. На основе этой информации можно эффективно распределить человеческие и технические ресурсы — которых всегда нехватает — и предотвратить преступления.
· Предсказание поведения бирж и оценки экономического самочувствия бизнеса и населения с помощью открытых данных Google. Ученые использовали данные по поисковым запросам сервиса Google Trends и индекс Доу-Джонса. Оказалось, что рост количества финансовых запросов («рынки», «портфолио», «долг», «экономика» и т.д.) связан с падением бирж. Уменьшение числа подобных финансовых запросов означало повышение оптимизма, что отражалось в росте рынков.
· Компания BillGuard анализирует открытые данные о судебных разбирательствах, связанных с различными случаями финансовых махинаций с кредитными и дебетовыми пластиковыми картами. Таким образом, компания создала сервис, позволяющий обезопасить себя от мошенничества в этой сфере.
Безусловно, самая широкая сфера практического повседневного применения баз открытых данных — это как раз создание приложений для конечных пользователей. На этой основе работают приложения, помогающие рассчитать маршрут на общественном транспорте, найти работу, выбрать культурное мероприятие и многое другое. Все они эффективны при использовании массивов открытых данных, доступных в сети, то есть когда приложение «обучено» читать язык open data.
Возможные проблемы
Опасения, связанные с открытостью информации, вполне предсказуемые и иногда вполне обоснованы. В первую очередь, речь идет о нарушении конфиденциальности персональных данных. Хотя в самом определении открытых данных заложено, что это данные не должны относиться к индивидуумам, — если только они того не пожелают, — и персональные данные охраняются законами большинства стран, грань здесь очень тонкая. Ну, и практика показывает, что не стоит слишком полагаться на защиту от незаконного доступа к информации. Кстати, заметим в сторону, что аргумент насчет защиты персональных данных работает и в обратном направлении с историки в России хорошо знают, как много архивных дел стали недоступными в последнее десятилетие под этим предлогом.
Организации опасаются и того, что на их базах открытых данных будут наживаться недобросовестные посредники, передающие данные как некий «эксклюзив» конечному потребителю. Хотя это скорее должно привести к мысли, что пресловутый конечный потребитель мог бы получить эту информацию от владельца базы данных — минуя посредников. Либо потребителю придется заплатить за удобный для него формат представления данных.
Фото превью: Википедия