Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Источник: habrahabr

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале - выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Flickr / Jer Thorp / CC

Data Scientist: аналитик, математик, программист

Профессия Data scientist - относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы - какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики.

Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты о том, принесет ли появление "науки о данных" смерть статистике (и насколько тесно связаны эти дисциплины) и что общего у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician.

Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science - от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой - это явный признак, что без работы будущий специалист в Data science точно не останется.

Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:

  • Знание математики, прикладной статистики и теории вероятностей
  • Умение программировать (в частности на Python) и работать с библиотеками для анализа данных
  • Понимание актуальных методов машинного обучения (к которым относится не только глубокое обучение)

Для того, чтобы "влиться" в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:

  • Machine Learning (Coursera, курс от Эндрю Ына)
  • Neural Networks for Machine Learning (Coursera, курс от Джефри Хинтона)
  • Data Analyst (Udacity, курс подготовлен совместно с Facebook)
  • Machine Learning Engineer (Udacity, курс подготовлен совместно с Kaggle)

Освоить теорию, по словам Андрея Созыкина, можно примерно за год - в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати.

Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, - невозможность эффективного применить на практике полученные результаты исследований.

Разумеется, человек с таким набором знаний - большая редкость. Поэтому и Data science, как правило, - дисциплина не одиночная, а "командная":

Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат

- Андрей Созыкин

"Аналитический урбанизм"


Необычный пример такого мультидисциплинарного подхода - работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью о том, как Data science может быть связана с урбанистикой.

Клаудио воспринимает информацию, которая генерируется в городах, как "безотходное производство": Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.

Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею

- Клаудио Сильва

По словам Андрея Созыкина, основные направления для развития сферы Data science - разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача - научиться лучше понимать, как "думает" сеть - от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:

Для нас она [сеть] работает в так называемом режиме black box - "черного ящика". Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие

-Андрей Созыкин

Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей

Интернет-магазин

Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/home.asp?artId=39151