Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМОИсточник: habrahabr
16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем. В сегодняшнем материале - выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными. Flickr / Jer Thorp / CC
Data Scientist: аналитик, математик, программистПрофессия Data scientist - относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы - какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики. Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты о том, принесет ли появление "науки о данных" смерть статистике (и насколько тесно связаны эти дисциплины) и что общего у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician. Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science - от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой - это явный признак, что без работы будущий специалист в Data science точно не останется. Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:
Для того, чтобы "влиться" в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:
Освоить теорию, по словам Андрея Созыкина, можно примерно за год - в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати. Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, - невозможность эффективного применить на практике полученные результаты исследований. Разумеется, человек с таким набором знаний - большая редкость. Поэтому и Data science, как правило, - дисциплина не одиночная, а "командная": Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат
"Аналитический урбанизм"Необычный пример такого мультидисциплинарного подхода - работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью о том, как Data science может быть связана с урбанистикой. Клаудио воспринимает информацию, которая генерируется в городах, как "безотходное производство": Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.
Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею По словам Андрея Созыкина, основные направления для развития сферы Data science - разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача - научиться лучше понимать, как "думает" сеть - от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:
Для нас она [сеть] работает в так называемом режиме black box - "черного ящика". Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей Интернет-магазин
|