(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Яблоко от яблони: как Нью-Йорк решил проблему больших деревьев с помощью Big Data

Источник: computerra
Игорь Емельянов

Несмотря на то, что словосочетание "большие данные" настойчиво пробивается к органам восприятия аудитории через всевозможные каналы, включая утюги и микроволновки, далеко не все понимают что это такое и как это можно применить. Собственно, на первый вопрос принято отвечать, что Big Data как понятие - это методы и инструменты, позволяющие обработать огромные объемы данных разных типов и структуры для получения понятных человеку и применимых результатов. И вот как раз вторая часть определения приоткрывает завесу тайны над тем, зачем вообще нужны большие данные.

new_york_times_square

Результат обработки больших массивов информации должен быть не только понятен, но и применим! А с этим у нас возникают проблемы. Ведь, положа руку на сердце, кто из нас навскидку назовет хотя бы два-три заметных проекта, построенных на больших данных и нашедших реальное практическое воплощение? Да, в некоторых департаментах глобальных корпораций уже внедрили предупредительный анализ вместо бизнес-аналитики и это стало возможным благодаря Big Data. Но корпоративный мир довольно закрыт по своей природе, а если информация и просачивается наружу, то в виде скупых пресс-релизов, которые читают разве что мои коллеги, но никак не широкая публика. Однако, сегодня я намерен рассказать вам как раз о таком случае, когда большие данныепомогли целому городу, одному из самых известных городов на Земле - Нью-Йорку.

Заодно я открою небольшой секрет для тех, кто читает бумажную версию журнала. Точнее намекну, что в ближайшее время в рамках основного издания мы будем говорить о том как технологии помогают городам стать лучше. Поэтому сегодняшний пример как нельзя кстати. История о том, как в Большом яблоке решили применить большие данные для решения проблемы больших деревьев.

Вероятно, это звучит странно, но у Нью-Йорка есть достаточно серьезные проблемы с большими деревьями - их в городе порядка 2,5 миллионов, рассредоточенных по паркам, скверам улицам. Поддержание их в здоровом состоянии - это не только вопрос денег, но и вопрос безопасности. С 2009 по 2010 год в одном только Central Park вследствие падения ветвей было покалечено или погибло четыре человека. Разумеется, регулярная стрижка деревьев и удаление больных ветвей помогает избежать несчастных случаев. Но как рассчитать какие именно деревья в огромном мегаполисе необходимо стричь и как это коррелирует с предотвращением реальной угрозы?

Central-park-New-York-City-Wallpaper-

Для решения этой проблемы City of New York Parks & Recreation создали программу, в которой вели график обрезки крупных деревьев. В частности, программа содержала данные о том в каких кварталах деревья были пострижены и как часто департаменту приходилось высылать бригады для уборки упавших ветвей и деревьев.

Обладая этими данными, NYC Parks обратились в DataKind, организацию, которая объединяет ученных, работающих с данными и некоммерческие или гражданские организации, у которых есть проблемы, связанные с Big Data. У департамента, отвечающего за парки Большого яблока, был один вопрос к ученным: помогает ли обрезка деревьев в текущем году предотвратить несчастные случаи в следующем году?

То есть, аналитики столкнулись с причинным вопросом, а это одна из сложнейших форм аналитики в том случае, если нет возможности провести формальный эксперимент. Как сказал куратор проекта, вице-президент по изучению данных в компании Media6Degrees (m6d), Брайан Далессандро (Brian Dalessandro) задача осложнена тем, что проводить A/B тестирование фактически означает рисковать человеческими жизнями.

Но несколько лет назад команда Далессандро в m6d смогла решить задачу оценки причинного воздействия рекламы за счет аналитики. Поэтому перед группой ученных стояла задача статистического воссоздания реального эксперимента с деревьями, который бы затянулся на год и подверг риску горожан. Но данные, собранные NYC Parks, были созданы для отчетности, а не для аналитики. Они были разноуровневыми с точки зрения степени детализации: например, данные об обрезке деревьев были распределены по городским кварталам, а чистки от ветвей были назначены по конкретным адресам.

"Одной из сложнейших задач этого проекта стало определение фундаментальной единицы анализа, - сказал Далессандро. -  как статистик, я разделяю мир на сущности, поэтому мне нужно было определить что будет эквивалентом одного квартала или, например, ряда деревьев. У паркового департамента не было уникального идентификатора для каждого дерева. Поэтому нам пришлось балансировать на грани степени детализации и неопределенного массива данных".

В конце концов, в качестве базовой единицы для аналитики был выбран городской квартал. И тогда команда Брайна Даллессандро включилась в работу, используя мощности компании m6d для построения статистических моделей и расчета. DataKind удалось ответить на городской вопрос и он звучал следующим образом: обрезка деревьев в квартале в текущем году дает 22-процентное уменьшение вероятности несчастных случаев в следующем году.

new-york-central-park-219885

Но в данном случае, это не единственная задача, которую можно было решить с помощью больших данных. Даже обладая пониманием того, что ежегодная стрижка деревьев по кварталам действительно работает, департамент парков просто не обладает достаточными ресурсами для того, чтобы ежегодно стричь каждый квартал. Поэтому, в дальнейшем DataKind хочет построить для NYC Parks систему, которая позволит создавать интеллектуальный график стрижки деревьев, полагаясь на такие данные как количество деревьев в квартале, ветры и штормы в конкретном районе города, типы деревьев и так далее.

Таким образом, грамотная работа с большими данными помогла мегаполису решить действительно важную проблему. Вероятно, для моих соотечественников этот пример окажется несколько оторванным от действительности, в силу того, что в российских мегаполисах есть множество гораздо более насущных проблем, которые срочно необходимо решать. Но это не говорит о том, что на нашей почве нельзя применять большие данные. Мы можем использовать их для решения транспортных, экологических, миграционных проблем. Главное видеть перед собой работающие примеры взаимодействия некоммерческих структур и частных компаний, которые делают свой город лучше за счет грамотной работы с большими данными.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 09.07.2013 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
SAP® Crystal Dashboard Design Departmental 2016 WIN INTL NUL
Delphi Professional Named User
NERO 2016 Classic ESD. Электронный ключ
Quest Software. TOAD Xpert Edition
IBM RATIONAL Clearcase Floating User From Rational Clearcase Lt Floating User Trade Up License + Sw Subscription & Support 12 Months
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Безопасность компьютерных сетей и защита информации
СУБД Oracle "с нуля"
Все о PHP и даже больше
Краткие описания программ и ссылки на них
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100