Анализ данных и прогнозирование
Механизм анализа данных и прогнозирования — это один из механизмов формирования экономической и аналитической отчетности. Он предоставляет пользователям (экономистам, аналитикам и т. д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе. Этот механизм позволяет:
- осуществлять поиск закономерностей в исходных данных информационной базы;
- управлять параметрами выполняемого анализа как программно, так и интерактивно;
- осуществлять программный доступ к результату анализа;
- автоматически выводить результат анализа в табличный документ;
- создавать модели прогноза, позволяющие автоматически прогнозировать последующие события или значения неких характеристик новых объектов.
Механизм анализа данных представляет собой набор взаимодействующих друг с другом объектов встроенного языка, что позволяет разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также позволяют выводить результат анализа в удобной для отображения форме в табличный документ.
Механизм позволяет работать как с данными, полученными из информационной базы, так и с данными, полученными из внешнего источника, предварительно загруженными в таблицу значений или табличный документ:
Применяя к исходным данным один из видов анализа, можно получить результат анализа. Результат анализа представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе, или сохранен для дальнейшего использования.
Дальнейшее использование результата анализа заключается в том, что на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных в соответствии с имеющейся моделью.
Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной) и сохранить этот результат анализа в базе данных. В дальнейшем, при создании очередной накладной на основании сохраненного результата анализа можно построить модель прогноза, подать ей «на вход» новые данные, содержащиеся в этой накладной, и «на выходе» получить прогноз, — список товаров, которые контрагент Петров Б.С. тоже, скорее всего, приобретет, если их ему предложить:
В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:
Реализованные типы анализа
Общая статистика
Представляет собой механизм для сбора информации о данных, находящихся в исследуемой выборке. Этот тип анализа предназначен для предварительного исследования анализируемого источника данных.
Анализ показывает ряд характеристик непрерывных и дискретных полей. Непрерывные поля содержат такие типы как Число, Дата. Для остальных типов используются дискретные поля.При выводе отчета в табличный документ заполняются круговые диаграммы для отображения состава полей.
Поиск ассоциаций
Данный тип анализа осуществляет поиск часто встречаемых вместе групп объектов или значений характеристик, а также производит поиск правил ассоциаций. Поиск ассоциаций может использоваться, например, для определения часто приобретаемых вместе товаров, или услуг:
Этот тип анализа может работать с иерархическими данными, что позволяет, например, находить правила не только для конкретных товаров, но и для их групп. Важной особенностью этого типа анализа является возможность работать как с объектным источником данных, в котором каждая колонка содержит некоторую характеристику объекта, так и с событийным источником, где характеристики объекта располагаются в одной колонке.
Для облегчения восприятия результата предусмотрен механизм отсечения избыточных правил.
Поиск последовательностей
Тип анализа поиск последовательностей позволяет выявлять в источнике данных последовательные цепочки событий. Например, это может быть цепочка товаров или услуг, которые часто последовательно приобретают клиенты:
Этот тип анализа позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.
Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.
Кластерный анализ
Кластерный анализ позволяет разделить исходный набор исследуемых объектов на группы объектов, таким образом, чтобы каждый объект был более схож с объектами из своей группы, чем с объектами других групп. Анализируя в дальнейшем полученные группы, называемые кластерами, можно определить, чем характеризуется та или иная группа, принять решение о методах работы с объектами различных групп. Например, при помощи кластерного анализа можно разделить клиентов, с которыми работает компания, на группы, для того, чтобы применять различные стратегии при работе с ними:
При помощи параметров кластерного анализа аналитик может настроить алгоритм, по которому будет производиться разбиение, а также может динамически изменять состав характеристик, учитываемых при анализе, настраивать для них весовые коэффициенты.
Результат кластеризации может быть выведен в дендрограмму — специальный объект, предназначенный для отображения последовательных связей между объектами.
Дерево решений
Тип анализа дерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.
Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и ряд входных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например, информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т. д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т. п.
Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения, к какому классу следует отнести некий новый объект, необходимо, отвечая на вопросы в узлах, пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.
Набор параметров анализа позволяет регулировать точность полученного дерева:
Модели прогноза
Модели прогноза, создаваемые механизмом, представляют собой специальные объекты, которые создаются из результата анализа данных, и позволяют в дальнейшем автоматически выполнять прогноз для новых данных.
Например, модель прогноза поиска ассоциаций, построенная при анализе покупок клиентов, может быть использована при работе с осуществляющим покупку клиентом, для того, чтобы предложить ему товары, которые он с определенной степенью вероятности приобретет вместе с выбранными им товарами.
Источник
Анализ данных и прогнозирование. Дерево решений
В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:
В данной статье рассмотрим пример типа анализа
дерево решений
Анализ.ТипАнализа = Тип("АнализДанныхДеревоРешений");
С помощью данного типа анализа можно получить причинно-следственную иерархию условий, приводящую к определенному решению. Например, получить дерево условий, по которому (с определенной долей вероятности) можно понять причину расторжения договоров с клиентами компании, определения условий, влияющих на вариант заключаемого договора. Можно проводить «профилирование» менеджеров компании по различным видам ее клиентов и т. п.
Схематично процесс проведения анализа Дерево решений можно представить следующим образом:
С точки зрения данного типа анализа колонки источника можно разделить на следующие:
Используемые параметры анализа:
- МинимальноеКоличествоСлучаев ‑ минимальное количество элементов в узле;
- МаксимальнаяГлубина ‑ максимальная глубина дерева;
- ТипУпрощения ‑ тип упрощения дерева решений.
В результате проведенного анализа можно получить:
Для проведения анализа может использоваться фрагмент кода, аналогичный приведенному ниже:
&НаКлиенте Процедура ДеревоРешений(Команда) Результат = АнализДеревоРешений(); КонецПроцедуры &НаСервереБезКонтекста Функция АнализДеревоРешений() Анализ = Новый АнализДанных; Анализ.ТипАнализа = Тип("АнализДанныхДеревоРешений"); Группа = Справочники.Контрагенты.НайтиПоНаименованию("Юридические лица"); Запрос = Новый Запрос; Запрос.Текст = " |ВЫБРАТЬ |Контрагенты.Ссылка, |Контрагенты.КоличествоРозничныхТочек, |Контрагенты.КоличествоАвтомобилей, |Контрагенты.ВремяРаботыОрганизации, |Контрагенты.ВремяЗаключенияДоговора, |Контрагенты.ВидДоговора, |Контрагенты.ПрекращениеОтношений |ИЗ |Справочник.Контрагенты КАК Контрагенты |ГДЕ |(Не Контрагенты.ЭтоГруппа И Контрагенты.Родитель = &Родитель)"; Запрос.УстановитьПараметр("Родитель", Группа); Анализ.ИсточникДанных = Запрос.Выполнить(); Анализ.Параметры.ТипУпрощения.Значение = ТипУпрощенияДереваРешений.НеУпрощать; РезультатАнализа = Анализ.Выполнить(); Построитель = Новый ПостроительОтчетаАнализаДанных(); Построитель.Макет = Неопределено; Построитель.ТипАнализа = Тип("АнализДанныхДеревоРешений"); ТабДок = Новый ТабличныйДокумент; Построитель.Вывести(РезультатАнализа, ТабДок); Возврат ТабДок; КонецФункции
В результате проведения анализа получено следующее дерево решений:
Данное дерево можно представить в виде следующей схемы:
Ошибки классификации показывают, в каких случаях полученные правила расходятся с действительностью (исходной выборкой данных):
Исходя из приведенных данных, видно, что ошибок в полученной классификации нет, то есть данные в фактической выборке совпадают с данными классификации.
Предыдущий пример получен, исходя из значения НеУпрощать параметра анализа ТипУпрощения. Данное значение параметра задано программно в примере выше. Если установить значение Упрощать параметра, дерево решений примет такой вид:
Упрощение дерева заключается в том, что по определенным правилам (формулам, которые будут рассмотрены ниже) узлы дерева превращаются в листья (отсекается лишнее ветвление).
При принятии решения о том, будет ли произведено преобразование узла в лист, учитываются следующие показатели:
- Ошибок ‑ количество ошибок в узле;
- ОшибокДочерних ‑ количество ошибок в дочерних узлах;
- Листов ‑ количество листов в узле;
- Случаев ‑ количество случаев.
В нашем примере для узлов Время работы организации условие выполняется (0,5 < 1).
В связи с использованием упрощений появились и ошибки в классификации, что показано в результате анализа:
Например, существует один случай, когда в реальной выборке данных было значение Прекращение контрагентом, а по полученной классификации должно быть значение Не прекращены и т. п.
Поделиться ссылкой:
Источник