Прогнозирование будущего: Часть 1. Что такое прогностический анализ?Источник: IBM
Об этом цикле статей Это первая часть цикла из четырех статей, посвященных прогностическому анализу. Она дает общее представление о прогностическом анализе. Вторая часть будет посвящена методам прогностического моделирования, которые представляют собой математические алгоритмы, составляющие ядро прогностического анализа. Затем, в третьей части, эти методы применяются для создания и описания прогнозного решения. Наконец, четвертая часть посвящена внедрению прогностического анализа, то есть процессу перехода к практическому применению прогностических решений. Мы живем в постоянно расширяющемся море данных. Для безопасной навигации по нему используются аналитические методы. Без них мы бы просто утонули, не зная, что происходит и что ждет впереди. В этой статье мы сосредоточимся на знаниях, полученных от анализа, которые можно классифицировать как описательные или прогностические. Если описательный анализ позволяет узнать, что происходило в прошлом, то прогностический фокусируется на том, что будет. Потребность понять события прошлого привела к появлению дисциплины, которую теперь называют бизнес-анализом. Он позволяет принимать решения, основанные на статистике, полученной из исторических данных. Например:
Описательный анализ прошел долгий путь, чтобы позволить принимать взвешенные деловые решения, основанные на фактах, а не на чувствах. Однако одного описательного анализа недостаточно. Мы живем в обществе, где необходимо принимать очень точные и воспроизводимые решения. Для этого компании используют прогностический анализ, предсказывающий будущее, и с его помощью ищут рациональные бизнес-решения и процессы. Как дисциплина, прогностический анализ существует многие десятилетия. Это горячая тема, обсуждаемая в научных кругах на протяжении многих лет, и ее значение для отрасли возрастает вместе с объемом данных, получаемых от людей (например, из онлайн-транзакций и социальных сетей) и от датчиков (мобильных GPS-устройств и т.п.), а также с появлением недорогих вычислительных ресурсов, будь то облако или Hadoop. Анализ на основе данных и на основе экспертных знаний Интересно рассмотреть сами знания и способ их передачи и использования. Традиционно мы прибегали к помощи экспертов, которые помогали получить максимальную отдачу от конкретного процесса. Экспертные знания основываются на опыте и используются в повседневной деятельности любой компании. Если перевести экспертные знания в набор бизнес-правил, можно создать системы принятия решений на основе правил для автоматического применения знаний, накопленных экспертами. IBM ILOG ― яркий пример системы, которая переводит экспертные знания в набор инструкций типа ЕСЛИ-TО, которые мы можно непосредственно применять к делу. С другой стороны, знания, управляемые данными, как предполагает само название, основываются на данных - как правило, большом их количестве. Несколько десятилетий назад появился ряд статистических методов для выявления моделей данных, обычно скрытых от человеческого глаза. Учитывая, что сегодня мы получаем все больше данных, такие методы становятся необходимыми для извлечения пользы из данных, делая процессы повторяемыми и точными. Это хорошо показано в кинофильме "Человек, который изменил всё" (англ. Moneyball). В этом фильме группа опытных агентов по вербовке предлагает свои знания и интуицию для подбора игроков в бейсбольную команду. Им противостоит подход на основе данных, при котором знания извлекается из уже имеющихся сведений по каждому игроку, и команда набирается на основе этого подхода. Хотя в фильме один тип знаний противопоставляется другому, в большинстве случаев, экспертные знания и знания на основе данных используются вместе. Анализ позволяет получать полезную статистику, прогнозы и оценки. Однако решение о том, как применять знания, полученные на основе данных, должна принимать система, основанная на правилах. Например, можно использовать ряд правил для принятия бизнес-решений в зависимости от вывода, полученного от прогностической модели. Так, если существует модель, предсказывающая риск оттока клиентов, можно ввести в действие правила для его уменьшения, чтобы найти конкретные бизнес-решения с учетом различных уровней риска. Если риск высок, можно предоставить клиенту 20%-ю скидку, а если очень высок, то и 50%-ю. Что такое прогностическая модель? Прогностическая модель - это просто математическая функция, которую можно обучить преобразованию набора входных переменных, обычно собранных в записи, в результат, или целевую переменную. Такое обучение называется управляемым, потому что в процессе обучения в прогностическую модель вводятся данные вместе с желаемым выходом, или результатом. Обучение повторяется до тех пор, пока модель не научится получать желаемый результат из входных данных. Примерами прогностических моделей с использованием управляемого обучения служат нейронные сети с обратным распространением ошибки обучения, метод опорных векторов и деревья решений. Для прогностической модели может использоваться и неуправляемое обучение. В этом случае в нее вводятся только входные данные. Затем задача модели ― выяснить, как различные записи входных данных соотносятся друг с другом. Наиболее популярным типом прогностических моделей является кластеризация, для которой используется неуправляемое обучение. Допустим, что нужно создать прогностическую модель, которая в состоянии сказать, кто из ваших клиентов, скорее всего, перейдет к другому поставщику (кандидаты на 20%- или 50%-ю скидку). Сначала вы обращаетесь к своим историческим данным в поисках признаков, которые можно использовать для построения такой модели. Просматривая базу данных, можно составить список параметров, связанных с оттоком как существующих клиентов, так и тех, которые уже ушли. Это может быть количество жалоб за последние шесть месяцев, количество обращений за поддержкой за последние четыре недели, частота и сумма покупок товаров или услуг (в онлайне или в магазине), а также общие сведения, такие как возраст, пол и демографические данные. На рисунке 1 показаны два таких клиента и параметры каждого из них. Клиент 1 ― существующий клиент, который, похоже, удовлетворен. Однако клиент 2 был потерян. Рисунок 1. Двое клиентов и их входные параметры.При управляемом обучении, как показано на рисунке 2, в процессе обучения в метод прогностического анализа вводятся все данные о клиентах. В этом случае входные данные содержат все выявленные параметры (связанные с удовлетворенностью, демографические данные и т.д.) для каждого клиента, а также соответствующие результаты. Результат указывает прогностической модели, какому клиенту соответствует данная запись ― тому, что ушел или тому, что остался. Суть в том, что модель может усвоить шаблоны, или различия между двумя группами: существующих клиентов и клиентов, которые ушли. Рисунок 2. В процессе обучения в прогностическую модель вводятся данные о клиентах, содержащие входные параметры и результатПосле построения прогностической модели ее нужно проверить. Проверка должна ответить на два вопроса: "Работает ли модель?" и если да, то "Насколько она точна?" Если ответ на первый вопрос Да, а на второй ― Очень точна, значит модель работает и может хорошо обобщать данные. Остается только применять ее. Для этого модель необходимо внедрить. К счастью, существует стандарт PMML (Predictive Model Markup Language - язык разметки прогностических моделей), который позволяет легко переносить прогностические модели с одной системы на другую. Благодаря PMML можно использовать такое приложение, как IBM SPSS Statistics, для построения и проверки прогностической модели, которая затем сохраняется в PMML-файле. Этот файл можно непосредственно загрузить в механизм оценки, такой как Zementis ADAPA, где он будет готов к применению в режиме реального времени. После внедрения отработанную модель можно использовать для мониторинга всех существующих клиентов. Хорошая прогностическая модель способна обобщать знания для вычисления риска оттока даже для тех клиентов, которые никогда не встречались прежде. На рисунке 3 показаны данные одного такого клиента, определенного как клиент №3, которые вводятся в нашу модель оттока клиентов. Если модель определяет появление шаблона оттока клиентов для определенного клиента, она будет указывать на повышенный риск для него до тех пор, пока не будет принято бизнес-решение. Когда конкретный клиент вновь будет удовлетворен продуктами и услугами компании, риск уменьшится, так как шаблон оттока клиентов исчезнет. Рисунок 3. После внедрения вновь созданная модель используется для оценки риска оттока новых и существующих клиентов. Если обнаружен высокий риск оттока клиентов, можно принять меры для его снижения.Сначала я хотел назвать этот раздел "Важность данных", потому что без данных нет анализа и, в частности, прогностического анализа. За время моей работы в области анализа данных я повидал много благонамеренных деловых людей, пытавшихся найти решение прогностического анализа для своих компаний. Они знали, что прогностический анализ может помочь им поправить дела, но у них было недостаточно данных. То есть данных не хватало для того, чтобы специалист мог обучить модель, которая действительно имела бы смысл. В эпоху "больших данных" это происходит на удивление часто. Чтобы та или иная прогностическая модель могла обучиться и обобщать данные, в нее надо ввести тысячи и тысячи записей. Используя предыдущий пример, будет недостаточно сотни или около того записей, содержащих данные о потерянных клиентах. Если для обучения используется недостаточное количество данных, то модель не в состоянии обучиться или, что еще хуже, может иметь чрезмерно близкую подгонку. Это означает, что она знает все о данных, предложенных ей для обучения, но не способна обобщить эти знания, чтобы применять их к новым данным. То есть она не в состоянии прогнозировать. Если же данных достаточно, вопрос в том, насколько они хороши. Потому что качество данных прямо отражается на качестве модели. Мягко говоря, из мусора получается только мусор! Много лет назад мне и моей группе нужно было построить модель для прогнозирования успеха определенного производственного процесса. Он занимал примерно восемь часов и потреблял много ресурсов. Инженеры ОТК компании могли выявить брак только по завершении процесса. В этом случае вся партия забраковывалась, и нужно было начинать с нуля. Идея состояла в том, чтобы изучить данные, полученные в прошлом для всех этапов процесса по качественным деталям и браку. Затем можно обучить модель обнаруживать, что в процессе что-то пошло не так. Мы еще никогда не строили таких интересных моделей. Однако в ходе анализа данных выяснилось, что они искажены или, что еще хуже, отсутствуют для некоторых ключевых этапов производственного процесса. Еще важнее то, что мы не смогли найти результат, то есть информацию, которая позволила бы отделить хорошие партии от брака. Это означает, что методы управляемого обучения использовать нельзя. А отсутствие важных входных данных угрожало использованию неуправляемых методов. Сами по себе данные не приводят к полезному прогнозу. Пользу приносят только качественные данные. Приложения прогностического анализа Приступив к изучению прогностического анализа, я получил книгу Дуда, Харта и Стока "Классификация моделей". Эта книга теперь считается классическим руководством в этой области. В ней авторы строят систему классификации моделей на примере рыбозавода. Они использовали прогностическое решение для классификации поступающей рыбы на лососевых или окуневых в зависимости от таких особенностей, как длина и густота чешуи. В 2010 году я выступал в Сан-Хосе с докладом на конференции по прогностическому анализу Rules Fest. В докладе, озаглавленном "Следуй правилам, но прислушивайся к данным", я использовал тот же пример, чтобы показать аудитории, ориентированной на правила, не только как решить задачу вроде этой с помощью прогностического анализа, но и как прогностический анализ может работать совместно с бизнес-правилами, повышая качество принимаемых решений. Идея, конечно, состояла в том, чтобы использовать пример, аналогичный примеру Дуда, Харта и Стока. То есть общий пример того, как создавать и применять прогностические решения, а аудитория пусть распространяет его на другие приложения. В этой статье я использую задачу об оттоке клиентов. Чтобы полученные знания можно было обобщить на множество новых приложений, я опишу и другие способы превращения нашего мира с помощью прогностического анализа в более рациональное место. Приложение прогностического анализа, которое чрезвычайно успешно применяется на протяжении многих лет, ― выявление мошенничества. Каждый раз, когда вы проводите своей кредитной картой по считывателю или используете ее в онлайне, ваша операция, скорее всего, анализируется в режиме реального времени на предмет вероятного мошенничества. В зависимости от предполагаемого риска большинство учреждений реализуют набор бизнес-правил, которые могут даже отклонить высокорисковую транзакцию. В борьбе с преступностью прогностический анализ в первую очередь применяется для ее предупреждения. В своей прошлой статье для developerWorks я перечислил несколько важных приложений прогностического анализа в области здравоохранения. Во главе этого списка, определенно, находится выявление мошенничества в медицине, но прогностический анализ эффективно используется и для профилактики заболеваний. Зная, какие пациенты подвергаются более высокому риску развития тех или иных болезней, можно принять превентивные меры для смягчения этого риска и в конечном итоге спасти жизни. В последнее время прогностический анализ находится в центре внимания широкой полемики об использовании исторических данных для уменьшения количества регоспитализаций. Кроме того, компании используют прогностический анализ, чтобы рекомендовать продукты и услуги. Сегодня мы уже выросли до ожидания полезных рекомендаций кинофильмов, книг и песен от своих любимых магазинов и продавцов. Мы видим также маркетинговые кампании, которые все больше учитывают наши вкусы и предпочтения, например, на основе содержания наших электронных писем, заметок в онлайне и предметов поиска. Другие приложения опираются на данные, получаемые от датчиков. Например, для прогнозирования интенсивности дорожного движения можно использовать данные мобильных устройств GPS. По мере того как эти системы становятся все более точными, их можно применять для выбора вида транспорта. Например, если на дорогах ожидаются пробки, можно воспользоваться метро. Более того, наличие компактных и недорогих датчиков, сообщающих о текущем состоянии таких сооружений, как мосты и здания, и таких механизмов, как электротрансформаторы, водяные и воздушные насосы, вентили и клапаны, позволяет использовать прогностический анализ для укрепления или замены материалов или процессов, не дожидаясь начала перебоев в их работе или аварии. Использование данных, получаемых от датчиков, позволяет строить прогностические модели техобслуживания, помогая обеспечить безопасность. Вот лишь два примера крупных аварий, которые можно было предотвратить при наличии датчиков и прогностических моделей: разлив нефти в Мексиканском заливе в 2010 году и обрушение моста I-35W через Миссисипи в 2007 году. В постоянно расширяющемся море данных, поступающих от людей и датчиков, прогностический анализ предоставляет компаниям и гражданам важные навигационные инструменты для успешного достижения их целей. Это делается путем прогнозирования того, что должно случиться, чтобы можно было отреагировать должным образом, сохраняя наиболее точный, безопасный, повторяемый, выгодный и эффективный курс. Использование прогностического анализа уже революционизировало наше взаимодействие с окружающей средой. С увеличением количества данных и их качества при доступности недорогих вычислительных ресурсов прогностический анализ неизбежно получит еще более широкое распространение, чем сегодня. Если вы уже определили задачи, которые планируете решать с помощью прогностического анализа, согласитесь, что предсказать это было совсем не трудно. |