Нейронные деревья принятия решений

Глубокие нейронные сети доказали свою эффективность при обработке данных от органов чувств, таких, как изображения и аудио. Однако для табличных данных более популярны древовидные модели. Хорошим свойством древовидных моделей является их естественная интерпретируемость. В этой работе мы представляем Deep Neural Decision Trees (DNDT) –древовидные модели, реализованные нейронными сетями. DNDT внутренне интерпретируем, так как это дерево. Тем не менее, поскольку это также нейронная сеть (NN), ее можно легко реализовать с помощью инструментария NN и обучить по алгоритму градиентного спуска, а не по «жадному» алгоритму (алгоритму «жадного разбиения»). Мы проводим оценку DNDT на нескольких табличных наборах данных, проверяем его эффективность и исследуем сходства и различия между DNDT и обычными деревьями решений. Интересно, что DNDT самообучается как на разделенном, так и на функциональном уровне.

Интерпретируемость прогностических моделей важна, особенно в тех случаях, когда речь идет об этике – правовой, медицинской и финансовой, критически важных приложениях, где мы хотим вручную проверить релевантность модели. Глубокие нейронные сети (Lecun et al., 2015 [18]; Schmidhuber, 2015 [25]) достигли превосходных результатов во многих областях, таких как компьютерное зрение, обработка речи и языковое моделирование. Однако отсутствие интерпретируемости не позволяет использовать в приложениях это семейство моделей как «черный ящик», для которого мы должны знать процедуру прогноза, чтобы верифицировать процесс принятия решения. Более того, в некоторых областях, таких как бизнес-аналитика (BI), часто более важно знать, как каждый фактор влияет на прогноз, а не сам вывод. Методы, основанные на дереве решений (DT), такие как C4.5 (Quinlan, 1993 [23]) и CART (Breiman et al., 1984 [5]), имеют явное преимущество в этом аспекте, поскольку можно легко проследить структуру дерева и точно проверить, как делается прогноз.

В этой работе мы предлагаем новую модель на пересечении этих двух подходов – глубокое нейронное дерево решений (DNDT), исследуем его связи с каждым из них. DNDT- это нейронные сети со специальной архитектурой, где любой выбор весов DNDT соответствует определенному дереву решений и поэтому интерпретируем. Однако, поскольку DNDT реализуется нейронной сетью (NN), она наследует несколько интересных свойств, отличных от традиционных DT: DNDT может быть легко реализован несколькими строками кода в любом программном фреймворке NN; все параметры одновременно оптимизируются с помощью стохастического градиентного спуска, а не более сложной и потенциально неоптимальной процедуры «жадного» расщепления. DNDT готов к крупномасштабной обработке с обучением на основе мини-патчей и ускорением GPU от «коробочного решения», его можно подключить к любой более крупной модели NN в качестве строительного блока для сквозного обучения с обратным распространением (back-propagation).

Источник

Сравнительный анализ алгоритмов нейронной сети и деревьев принятия решений модели интеллектуального анализа данных

Певченко, С. С. Сравнительный анализ алгоритмов нейронной сети и деревьев принятия решений модели интеллектуального анализа данных / С. С. Певченко, В. А. Блужин. — Текст : непосредственный // Молодой ученый. — 2016. — № 28 (132). — С. 148-154. — URL: https://moluch.ru/archive/132/36999/ (дата обращения: 15.08.2023).

Прогресс в информационной сфере, а именно, развитие обработки данных приводят к огромному объему информации. В результате анализа значительных объемов информации возникает проблема представления требуемых данных в виде, подходящем для анализа [1]. Основным требованием, предъявляемым к информационной системе, ориентированной на анализ данных, является своевременное обеспечение аналитика всей информацией, необходимой для принятия решения.

Интеллектуального анализа данных (Data Mining) представляет собой сочетание обширного математического инструментария и последних достижений в сфере информационных технологий. В сфере анализа данных гармонично объединились строго формализованные методы и методы неформального анализа, т. е. количественный и качественный анализ данных [2].

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования. Знания, добываемые методами Data mining, принято представлять в виде моделей.

Модели представления знаний Data Mining подразделяют на:

Методы построения таких моделей принято относить к области искусственного интеллекта. К алгоритмам интеллектуального анализа данных относятся: байесовские сети, деревья решений, нейронные сети, метод ближайшего соседа, метод опорных векторов, линейная регрессия, корреляционно-регрессионный анализ, иерархические методы кластерного анализа, неиерархические методы кластерного анализа, методы поиска ассоциативных правил (в частности алгоритм Apriori) метод ограниченного перебора эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов [5].

Большинство аналитических методов, используемые в технологии Data Mining являются наиболее известными математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств.

В данной статье производится сравнительный анализ двух алгоритмов (нейронной сети и деревьев принятия решений) интеллектуального анализа данных на основе задачи: оценка влияния гендерной принадлежности студента на его успеваемость в ВУЗе. Для проведения интеллектуального анализа данных будем использовать компонент Microsoft SQL Server 2012 — Microsoft Analysis Services.

В службы Analysis Services представлено несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются реализациями некоторых из наиболее популярных методов, используемых в интеллектуальном анализе данных.

Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов [2]. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.

Дерево решений, связанное с большинством других методов, используют в рамках критериев отбора так же для поддержки выбора определенных данных в рамках общей структуры. Дерево решений начинают с простого вопроса, который имеет два ответа (но возможно и больше). Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы. Деревья решений чаще всего используются с системами классификации информации системами прогнозирования, где различные прогнозы могут основываться на прошлом историческом опыте, который помогает построить структуру дерева решений и получить результат [3].

Искусственная нейронная сеть представляет собойсистемусоединённых и взаимодействующих между собой простыхпроцессоров(искусственных нейронов). Такие процессоры обычно довольно просты (особенно в сравнении с процессорами, используемыми в персональных компьютерах). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам [4]. И, тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи.

В качестве исходных данных мы используем набор данных из базы ВУЗа. И на основе успеваемости и социальной активности студента найдем вероятность гендерной принадлежности.

Для выявления черт, присущих студентам создадим представление, в котором будет содержаться информация о студентах. Эти данные мы будем использовать в качестве материала для машинного обучения и выявления атрибутов, влияющих на повышения данной вероятности.

Атрибуты представления набора данных

Название атрибута

Источник