Методы классификации и прогнозирования. Деревья решений
Аннотация: Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
Метод деревьев решений ( decision trees ) является одним из наиболее популярных методов решения задач классификации и прогнозирования. Иногда этот метод Data Mining также называют деревьями решающих правил , деревьями классификации и регрессии.
Как видно из последнего названия, при помощи данного метода решаются задачи классификации и прогнозирования.
Если зависимая, т.е. целевая переменная принимает дискретные значения, при помощи метода дерева решений решается задача классификации.
Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования.
Впервые деревья решений были предложены Ховилендом и Хантом (Hoveland, Hunt) в конце 50-х годов прошлого века. Самая ранняя и известная работа Ханта и др., в которой излагается суть деревьев решений — «Эксперименты в индукции» («Experiments in Induction «) — была опубликована в 1966 году.
В наиболее простом виде дерево решений — это способ представления правил в иерархической, последовательной структуре. Основа такой структуры — ответы «Да» или «Нет» на ряд вопросов.
На рис. 9.1 приведен пример дерева решений, задача которого — ответить на вопрос: «Играть ли в гольф?» Чтобы решить задачу, т.е. принять решение, играть ли в гольф, следует отнести текущую ситуацию к одному из известных классов (в данном случае — «играть» или «не играть»). Для этого требуется ответить на ряд вопросов, которые находятся в узлах этого дерева, начиная с его корня.
Первый узел нашего дерева «Солнечно?» является узлом проверки , т.е. условием. При положительном ответе на вопрос осуществляется переход к левой части дерева, называемой левой ветвью , при отрицательном — к правой части дерева. Таким образом, внутренний узел дерева является узлом проверки определенного условия. Далее идет следующий вопрос и т.д., пока не будет достигнут конечный узел дерева, являющийся узлом решения . Для нашего дерева существует два типа конечного узла : «играть» и «не играть» в гольф.
В результате прохождения от корня дерева (иногда называемого корневой вершиной) до его вершины решается задача классификации, т.е. выбирается один из классов — «играть» и «не играть» в гольф.
Целью построения дерева решения в нашем случае является определение значения категориальной зависимой переменной.
Итак, для нашей задачи основными элементами дерева решений являются:
Внутренний узел дерева или узел проверки : «Температура воздуха высокая?», «Идет ли дождь?»
Лист , конечный узел дерева, узел решения или вершина : «Играть», «Не играть»
Ветвь дерева (случаи ответа): «Да», «Нет».
В рассмотренном примере решается задача бинарной классификации , т.е. создается дихотомическая классификационная модель. Пример демонстрирует работу так называемых бинарных деревьев.
В узлах бинарных деревьев ветвление может вестись только в двух направлениях, т.е. существует возможность только двух ответов на поставленный вопрос («да» и «нет»).
Бинарные деревья являются самым простым, частным случаем деревьев решений. В остальных случаях, ответов и, соответственно, ветвей дерева, выходящих из его внутреннего узла , может быть больше двух.
Рассмотрим более сложный пример. База данных , на основе которой должно осуществляться прогнозирование, содержит следующие ретроспективные данные о клиентах банка, являющиеся ее атрибутами: возраст, наличие недвижимости, образование, среднемесячный доход, вернул ли клиент вовремя кредит . Задача состоит в том, чтобы на основании перечисленных выше данных (кроме последнего атрибута) определить, стоит ли выдавать кредит новому клиенту.
Как мы уже рассматривали в лекции, посвященной задаче классификации, такая задача решается в два этапа: построение классификационной модели и ее использование.
На этапе построения модели, собственно, и строится дерево классификации или создается набор неких правил . На этапе использования модели построенное дерево , или путь от его корня к одной из вершин, являющийся набором правил для конкретного клиента, используется для ответа на поставленный вопрос «Выдавать ли кредит ?»
Правилом является логическая конструкция, представленная в виде «если : то :».
На рис. 9.2. приведен пример дерева классификации, с помощью которого решается задача «Выдавать ли кредит клиенту?». Она является типичной задачей классификации, и при помощи деревьев решений получают достаточно хорошие варианты ее решения.
Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных . Эти атрибуты называют прогнозирующими, или атрибутами расщепления (splitting attribute ). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной «выдавать» или «не выдавать» кредит .
Каждая ветвь дерева, идущая от внутреннего узла , отмечена предикатом расщепления . Последний может относиться лишь к одному атрибуту расщепления данного узла. Характерная особенность предикатов расщепления : каждая запись использует уникальный путь от корня дерева только к одному узлу-решению. Объединенная информация об атрибутах расщепления и предикатах расщепления в узле называется критерием расщепления (splitting criterion ) [33].
На рис. 9.2. изображено одно из возможных деревьев решений для рассматриваемой базы данных . Например, критерий расщепления «Какое образование?», мог бы иметь два предиката расщепления и выглядеть иначе: образование «высшее» и «не высшее». Тогда дерево решений имело бы другой вид.
Таким образом, для данной задачи (как и для любой другой) может быть построено множество деревьев решений различного качества, с различной прогнозирующей точностью.
Качество построенного дерева решения весьма зависит от правильного выбора критерия расщепления . Над разработкой и усовершенствованием критериев работают многие исследователи.
Метод деревьев решений часто называют «наивным» подходом [34]. Но благодаря целому ряду преимуществ, данный метод является одним из наиболее популярных для решения задач классификации.
Источник
Дерево решений
Своевременная разработка и принятие правильного решения — главные задачи работы управленческого персонала любой организации. Непродуманное решение может дорого стоить компании. На практике результат одного решения заставляет нас принимать следующее решение и т. д. Когда нужно принять несколько решений в условиях неопределенности, когда каждое решение зависит от исхода предыдущего или исходов испытаний, то применяют схему, называемую деревом решений.
- Дерево решений — это графическое изображение процесса принятия решений, в котором отражены альтернативные решения, альтернативные состояния среды, соответствующие вероятности и выигрыши для любых комбинаций альтернатив и состояний среды.
Рисуют деревья слева направо. Места, где принимаются решения, обозначают квадратами , места появления исходов — кругами
возможные решения — пунктирными линиями
, возможные исходы — сплошными линиями
Для каждой альтернативы мы считаем ожидаемую стоимостную оценку (EMV) — максимальную из сумм оценок выигрышей, умноженных на вероятность реализации выигрышей, для всех возможных вариантов.
По этой ссылке вы найдёте полный курс лекций по высшей математике:
Примеры с решением
Пример 1.
Главному инженеру компании надо решить, монтировать или нет новую производственную линию, использующую новейшую технологию. Если новая линия будет работать безотказно, компания получит прибыль 200 млн. рублей. Если же она откажет, компания может потерять 150 млн. рублей. По оценкам главного инженера, существует 60% шансов, что новая производственная линия откажет. Можно создать экспериментальную установку, а затем уже решать, монтировать или нет производственную линию.
Эксперимент обойдется в 10 млн. рублей. Главный инженер считает, что существует 50% шансов, что экспериментальная установка будет работать. Если экспериментальная установка будет работать, то 90% шансов за то, что смонтированная производственная линия также будет работать. Если же экспериментальная установка не будет работать, то только 20% шансов за то, что производственная линия заработает. Следует ли строить экспериментальную установку? Следует ли монтировать производственную линию? Какова ожидаемая стоимостная оценка наилучшего решения?
В узле F возможны исходы «линия работает» с вероятностью 0,4 (что приносит прибыль 200) и «линия не работает» с вероятностью 0.6 (что приносит убыток —150) => оценка узла F: EMV(F) = 0,4х200 4- 0,6х(-150) = -10. Это число мы пишем над узлом F.
Возможно вам будут полезны данные страницы:
В узле 4 мы выбираем между решением «монтируем линию» (оценка этого решения EMV(F) = —10) и решением ♦ не монтируем линию» (оценка этого решения
Эту оценку мы пишем над узлом 4, а решением «монтируем линию» отбрасываем и зачеркиваем.
. Поэтому в узле 2 отбрасываем возможное решение «не монтируем линию».
Поэтому в узле 3 отбрасываем возможное решение «монтируем линию».
EMV(A) « 0,5×165 4- 0,5×0 — 10 = 72,5.
EMV(l) = max = max = 72,5 = = EMV(A). Поэтому в узле 1 отбрасываем возможное решение «не строим установку».
Ожидаемая стоимостная оценка наилучшего решения равна 72,5 млн. рублей. Строим установку. Если установка работает, то монтируем линию. Если установка не работает, то линию монтировать не надо.
Задача 2.
Предприниматель провел анализ, связанный с открытием магазина. Если он откроет большой магазин, то при благоприятном состоянии рынка получит прибыль 60 млн. рублей, при неблагоприятном — понесет убытки 40 млн. рублей. Маленький магазин принесет ему 30 млн. рублей прибыли при благоприятном состоянии рынка и 10 млн. рублей убытков при неблагоприятном. Возможность благоприятного и неблагоприятного состояния рынка он оценивает одинаково. Исследование рынка, которое может провести специалист, обойдется предпринимателю в 5 млн. рублей. Специалист считает, что с вероятностью 0,6 состояние рынка окажется благоприятным. В то же время при положительном заключении состояние рынка окажется благоприятным лишь с вероятностью 0,9. При отрицательном заключении с вероятностью 0,12 состояние рынка может оказаться благоприятным. Используйте дерево решений для того, чтобы помочь предпринимателю принять решение. Следует ли заказать проведение обследования состояния рынка? Следует ли открыть большой магазин? Какова ожидаемая стоимостная оценка наилучшего решения?
Пример 3.
Компания рассматривает вопрос о строительстве завода. Возможны три варианта действий.
А. Построить большой завод стоимостью = 700 тысяч долларов. При этом варианте возможны большой спрос (годовой доход в размере
= 280 тысяч долларов в течение следующих 5 лет) с вероятностью
= 0,8 и низкий спрос (ежегодные убытки
= 80 тысяч долларов) с вероятностью
= 0,2.
Б. Построить маленький завод стоимостью = 300 тысяч долларов. При этом варианте возможны большой спрос (годовой доход в размере
= 180 тысяч долларов в течение следующих 5 лет) с вероятностью
= 0,8 и низкий спрос (ежегодные убытки
= $5 тысяч долларов) с вероятностью
= 0,2.
В. Отложить строительство завода на один год для сбора дополнительной информации, которая может быть позитивной или негативной с вероятностью = 0,7 и
= 0,3 соответственно. В случае позитивной информации можно построить заводы по указанным выше расценкам, а вероятности большого и низкого спроса меняются на
= 0,9 и
= 0,1 соответственно. Доходы на последующие четыре года остаются прежними. В случае негативной информации компания заводы строить не будет.
Все расчеты выражены в текущих ценах и не должны дисконтироваться. Нарисовав дерево решений, определим наиболее эффективную последовательность действий, основываясь на ожидаемых доходах.
Ожидаемая стоимостная оценка узла
.
Поэтому в узле 2 отбрасываем возможное решение «большой завод».
Поэтому в узле 1 выбираем решение «маленький завод». Исследование проводить не нужно. Строим маленький завод. Ожидаемая стоимостная оценка этого наилучшего решения равна 365 тысяч долларов.
Источник