Тимнит Гебру (Timnit Gebru) из Стэнфордского университета и ее коллеги из различных американских научных учреждений разработали самообучающиеся алгоритмы, позволяющие с неожиданной точностью определить по фотографиям из Google Maps различные социологические характеристики района, например, уровень среднего дохода семьи, и доли людей с различными уровнями образования. Подробно свои расчеты они изложили в статье, опубликованной в PNAS.
Сбор таких данных традиционными методами может занять годы — если бы не Google Maps. В ходе своего исследования ученые 50 миллионов фотографий улиц 200 американских городов. Затем они использовали пару алгоритмов машинного обучения, чтобы определить производителя, модель и год выпуска 22 миллионов автомобилей на этих изображениях. (Алгоритм классифицировал марку и модель с точностью 52%.)
Затем, на основе этих данных уже другие алгоритмы, получив сведения о том, какие типы транспортных средств были более распространены в кварталах, которые, согласно данным переписи и выборов, можно причислить к более состоятельным или, скажем, более консервативным. Эти алгоритмы оказались на удивление точными при определении среднего дохода на семью в этом районе; доли белых, черных и азиатов; доли людей с различными уровнями образования; и результатов голосования за Обаму или Джона Маккейна в 2008 году.
Сравнение данных об автомобилях с фактическими демографическими данными также показало некоторые интересные закономерности. Например, 88% избирательных участков, где среди избирателей преобладали владельцы седанов, в противоположность пикапам, голосовали за Обаму, тогда как 82% из тех, где большинство было у обладателей пикапов, проголосовали за Маккейна.
Исследователи отметили, что в будущем камеры на самоходных автомобилях могут увеличить легкость и частоту сбора данных, помогая политикам получать почти в реальном времени демографическую картину, что должно лучше понимать предложение рабочей силы и жилья, выделить ресурсы для строительства и обслуживания дорог и школ и т.д.
[Фотография: Padaguan]