Выселение. Приватизация. Перепланировка. Ипотека. ИСЖ

16.01.1998 Марина Шапот

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний. Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей. Средства создания интеллектуальных приложений Средства извлечения новой информации Конкретный пример Заключение Литература Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний. Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.

Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях. В таблице 1 приведено несколько примеров приложений в области финансов и маркетингового анализа.

Таблица 1. Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе
Приложение (организация) Описание
FALCON (HNC Software, Inc.) Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20-30%.
Классификатор дебиторских счетов (Internal Revenue Service) Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов.
Повышение качества архивной финансовой информации (Lockheed) Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т.д.
Верификация данных по курсам валют (Reuters) Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки.
Прогнозирование невыплат в сделках с недвижимостью (Leeds) Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок.
Маркетинговые исследования (Dickinson Direct) Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов).
Маркетинговые исследования (Reader"s Digest Canada) Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов.
Установка лотерейных автоматов (Automated Wagering, Inc.) Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида.
Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc.) Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных.

Как видно из таблицы 1, результаты ИАД представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Поэтому перед разработчиками встает задача внедрения технологии ИАД в автоматизированные системы анализа и поддержки принятия решений. В отличие от исследовательских приложений, подобные системы должны ориентироваться на непрограммирующего пользователя и на решение конкретных проблем, которые оказываются довольно разнообразными и нередко требуют применения различных подходов. Например, от автоматизированной системы анализа финансового состояния коммерческого банка может потребоваться решение таких задач как:

  • получение отчетности банка и проверка ее полноты и корректности;
  • проведение группировки статей баланса и расчет экономических нормативов и аналитических коэффициентов (например, по методу CAMEL);
  • проверка экономических нормативов по методике ЦБ РФ;
  • оценка состояния банка по системе аналитических коэффициентов;
  • определение рейтинга банка;
  • анализ динамики основных показателей, выявление тенденций и прогнозирование состояния банка;
  • анализ степени влияния тех или иных факторов на состояние банка;
  • выработка рекомендаций по оптимизации банковского баланса.

Эта система должна обеспечивать решение нескольких задач, от сбора и проверки корректности информации, поступающей в базу данных, до традиционного и/или интеллектуального анализа данных (степень влияния различных факторов на состояние банка, прогнозирование) и оптимизационного анализа, причем от пользователя не требуется специальных знаний в области баз данных, факторного анализа или методов оптимизации.

К сожалению, универсальные средства ИАД довольно сложны и дороги, поэтому они не могут широко применяться в рамках интегрированных систем, ориентированных на конечного пользователя. Действительно, в основу технологии ИАД положен не один, а несколько принципиально различных подходов (таблица 2), причем использование некоторых из них невозможно без специальной подготовки. Выбор подхода нередко требует привлечения специалиста по ИАД.

Таблица 2. Основные технологии интеллектуального анализа данных
Технология Достоинства Недостатки
Правила вывода Удобны в тех случаях, когда данные связаны отношениями, представимыми в виде правил "если то " При большом количестве правил теряется наглядность; не всегда удается выделить отношения "если то "
Нейронные сети Удобны при работе с нелинейными зависимостями, зашумленными и неполными данными "Черный ящик": модель не может объяснить выявленные знания; данные обязательно должны быть преобразованы к числовому виду
Нечеткая логика Ранжируют данные по степени близости к желаемым результатам; нечеткий поиск в базах данных Технология новая, поэтому сейчас известно ограниченное число специализированных приложений
Визуализация Многомерное графическое представление данных, по которому пользователь сам выявляет закономерности - образцы и отношения между данными Модели не исполняются, и их интерпретация полностью зависит от аналитика
Статистика Есть большое число алгоритмов и опыт их применения в научных и инженерных приложениях Больше подходят для проверки гипотез, чем для выявления новых закономерностей в данных
К-ближайший сосед Выявление кластеров, обработка целостных источников данных Большие затраты памяти, проблемы с чувствительностью
Интегрированные Можно выбирать подходы, адекватные задачам, или сравнивать Сложные средства поддержки; высокая стоимость;
технологии результаты применения разных подходов. для каждой отдельно взятой технологии не всегда реализуется наилучшее решение

Однако вряд ли есть смысл использовать универсальные средства ИАД во всех случаях, поскольку накопленный опыт работы с методами интеллектуального анализа уже позволил выделить типовые задачи и определить наиболее эффективные методы их решения. Существующие системы ИАД можно подразделить на исследовательские, ориентированные на специалистов и предназначенные для работы с новыми типами проблем, и прикладные, рассчитанные на непрограммирующих пользователей (аналитиков, менеджеров, технологов и т.д.) и решающие типовые задачи. Если в исследовательских системах ИАД важно разнообразие доступных методов обработки данных и гибкость используемых средств, то в прикладных системах такие широкие возможности оказываются излишними. В подобных системах целесообразно реализовывать не методы, а типовые виды рассуждений (анализа), характерные для проблемной области. Создание соответствующих инструментальных средств с дружественным интерфейсом обеспечивает доступность ИАД для широкого круга пользователей.

Средства создания интеллектуальных приложений

Среди инструментальных средств создания интеллектуальных приложений для бизнеса определенный интерес представляет семейство программных продуктов Business Intelligence (BI) компании Cognos. Системы Impromptu, PowerPlay, Scenario и 4Thought представляют собой взаимосвязанные и дополняющие друг друга инструментальные средства, поддерживающие наиболее эффективные технологии обработки данных и обеспечивающие решение широкого круга задач в бизнес-приложениях, от доступа к информации в распределенных базах данных до вычислительной обработки и интеллектуального анализа (рис.1).

Рис. 1. Семейство инструментальных средств компании Cognos

Отличительной особенностью рассматриваемых средств является сочетание эффективности реализуемых в них методов с дружественным интерфейсом, что делает их доступными для непрограммирующих пользователей, а предлагаемая программа обучения позволяет осваивать каждое средство не более чем за 2 дня.

По оценкам Gartner Group, META Group, Lehman Bros., Seybold, Forrester и Hurwitz, продукция Cognos пользуется сегодня повышенным спросом - среди покупателей программных продуктов семейства BI, установивших у себя свыше 2000 лицензий, такие компании как Procter & Gamble, Chrysler, Dutch Telecom, Swedish Telecom и др. Программные продукты семейства BI обеспечивают создание корпоративных приложений в архитектуре "клиент-сервер". К достоинствам этих продуктов можно отнести объектно-ориентированную архитектуру средств администрирования, возможности контроля доступа к информации, поддержку технологии OLE в среде Windows. Дополнительные возможности по интеграции систем предоставляются за счет использования встроенного макроязыка, позволяющего описывать взаимодействие между различными приложениями и обмен информацией между ними.

Система Impromptu обеспечивает доступ к базам данных и формирование отчетов. Она ориентирована на непрограммирующих пользователей и имеет графический интерфейс создания сложных отчетов и задания последовательностей вычислительной обработки, причем не требует знания SQL. Простота использования достигается за счет объектно-ориентированного подхода к построению отчетов, а также наличия библиотеки шаблонов стандартных отчетов и утилиты Report Wizard, направляющей пользователя в ходе работы. Отчеты могут быть табличными, графическими и гипертекстовыми (формат HTML). Impromptu поддерживает работу с распространенными СУБД - Oracle, MS SQL Server, Sybase SQL Server, Sybase NetGateway, OmniSQL Gateway, MDI DB2 Gateway, Informix, CA-Ingres, Gupta SQLBase, а также обеспечивает доступ через ODBC. Отчеты Impromptu могут использоваться в качестве источников данных для остальных систем семейства BI, выступая при этом в роли информационных витрин. По итогам опроса InfoWord, проведенного в 1995 г., система Impromptu была признана лучшей в своем классе.

Система PowerPlay является средством для проведения OLAP-анализа. Технология OLAP представляет собой развитие методов работы с реляционными базами данных, что позволило существенно повысить эффективность их использования в аналитической работе. Ключевые особенности баз данных OLAP следующие: многомерное представление данных в виде гиперкубов, проведение сложных вычислений над массивами данных и привязка информации ко времени, обеспечивающая возможность анализа динамики данных. Благодаря простоте извлечения информации из баз данных OLAP конечные пользователи стали меньше зависеть от разработчиков: с помощью средств OLAP многие задачи, ранее требовавшие специального программирования, они сами решают. Разработчики, в свою очередь, получили удобное средство для быстрого создания приложений. Выигрывает и компания в целом, поскольку хранение в гиперкубах агрегированной аналитической информации позволяет снижать число запросов к базе данных и уменьшает трафик в сети.

PowerPlay обеспечивает многомерный просмотр данных с нисходящим и уровневым анализом, работу с различными видами дисплеев (таблицами, двумерными и трехмерными графиками, диаграммами). Система позволяет выявлять и отмечать в просматриваемых отчетах исключения и особые случаи, ранжировать данные и проводить вычисления над массивами данных. Гиперкубы строятся на основе информации, поступающей из различных источников (баз данных и отчетов системы Impromptu), причем возможна обработка более 10 млн. записей. Число размерностей в гиперкубах не ограничивается. По сравнению с известными средствами OLAP, PowerPlay обеспечивает самую высокую степень сжатия данных в гиперкубах. Гиперкубы могут создаваться и размещаться как на серверах, так и на клиентских компьютерах. Новая версия PowerPlay обеспечивает возможность работы с гиперкубами через Web-браузеры.

На основе обобщения опыта применения технологии OLAP была разработана методика ее использования в различных сферах бизнеса. Методика включает анализ 24 типовых приложений в таких областях как финансовая деятельность, работа с кадрами, продажи, маркетинг, закупки, производство, распределение продукции и обслуживание клиентов. Например, анализ объемов продаж и прибылей удобно проводить на основе гиперкубов с такими размерностями как даты, регионы, виды продукции, каналы сбыта, клиенты и др. Аналитик может самостоятельно получать ответы на вопросы вида: "В каких городах во II и III квартале прошлого года продажи витаминных препаратов обеспечили не менее 60% прибыли?" и др. В производстве OLAP-анализ может применяться для анализа причин появления брака и оценки использования ресурсов. Бухгалтерские балансы одного или нескольких предприятий, с привязкой ко времени, также могут быть представлены в виде гиперкуба. Действительно, баланс, по своей сути, является многомерным документом, и анализ десятков подобных документов за период в 24 месяца, представленных в традиционном табличном виде, произвести очень сложно. Агрегирование информации с возможностью нисходящего анализа в различных разрезах существенно упрощает работу аналитика.

Так, в системе анализа отчетности коммерческих банков совокупность балансов за несколько отчетных периодов может быть представлена в виде гиперкуба системы PowerPlay. Подобное представление обеспечивает простую и естественную реализацию метода группировок и нормативного метода. Аналитик, имеющий навыки работы с PowerPlay, может самостоятельно получать оценки состояния банков по системе аналитических коэффициентов (CAMEL), задавать порядок вычисления рейтингов банков, а также выводить динамику основных показателей в графическом виде.

Средства извлечения новой информации

Если первые две системы семейства BI предназначены для обеспечения доступа к информации, уже имеющейся в базе данных, то следующие программные продукты представляют собой собственно средства извлечения новой информации - ИАД и позволяют получать знания, явно не содержащиеся в исходных данных . Оба средства доступны на платформе Windows 95/NT и рассчитаны на использование непосредственно менеджерами и аналитиками как крупных организаций, так и относительно небольших компаний. Поскольку системы основаны на различных методах ИАД (простейшие статистические методы - в Scenario, нейронные сети - в 4Thought), в распоряжение пользователей предоставляется набор средств, для каждого из которых определена область эффективного применения.

Система Scenario предназначена для выявления взаимосвязей в данных. Анализируемая инфомация представляется в виде таблиц, столбцам которых соответствуют факторы (переменные), описывающие предметную область, причем один из этих столбцов отмечается пользователем как целевой показатель. Имея точное представление о том, в какой степени отдельные факторы (тип клиента, канал распространения продукции, затраты на рекламу и др.) влияют на целевой показатель (объем продаж), менеджеры могут оптимизировать решения по размещению ресурсов для обеспечения максимальной прибыли. Scenario фокусирует внимание аналитиков на измеряемых показателях и факторах, что позволяет им переходить от качественных рассуждений к построению более точных количественных моделей.

В Scenario реализовано автоматическое выявление зависимостей по критерию хи-квадрат (метод CHAID) для нахождения однородных групп (сегментов) данных с "аналогичным" поведением относительно целевого показателя. Система использует методы деревьев решений и строит правила классификации, которые можно применять к новым данным для построения прогнозов относительно возможных значений целевого показателя. Хотя ядром системы являются методы статистики, от пользователя не требуется специальных знаний в этой области. Основная статистическая информация отображается средствами интуитивно понятной графики, а более детальные сведения запрашиваются пользователем в случае необходимости. Сами методы ИАД являются лишь основой для реализации типовых видов анализа, используемых аналитиками и лицами, принимающими решения в бизнесе. К этим видам анализа относятся:

  1. Ранжирование - упорядочивание факторов по степени их влияния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния.
  2. Сегментация - разделение области значений фактора на сегменты для проведения дальнейшего нисходящего анализа. Например, успешные показатели по продажам в целом могут скрыть от исследователя неудачи в некоторых регионах. Проведение сегментации по географическим районам позволит выявить, что успешные продажи имели место только в двух регионах, А и В. Последующий нисходящий анализ может показать, что объем продаж в регионе А зависит от затрат на рекламу, а в регионе В на него влияют главным образом сезонные колебания.
  3. Профилирование наилучших достижений - выявление основных характеристик наиболее успешных регионов, филиалов, клиентов и т.д. для планирования дальнейшей деятельности компании. Данный вид анализа также используется в банках и страховых компаниях для оценки риска при выдаче кредитов.
  4. Выявление ассоциаций - поиск ассоциированных групп значений факторов, т.е. значений, почти всегда появляющихся вместе (например, продажа ПК в большинстве случаев сопровождается продажей источника бесперебойного питания). Этот вид анализа в первую очередь необходим при планировании продаж, усовершенствовании работы складов, проведении рекламных компаний.
  5. Выявление исключений - поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вызвано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими немедленного вмешательства со стороны руководства.

Итак, с помощью Scenario можно получать ответы на многие вопросы, необходимые для принятия обоснованных решений.

  • Кто из клиентов компании останется в следующем году, кто откажется от ее услуг?
  • Какие новые тенденции в спросе определяют деятельность компании?
  • Что отличает лучших служащих компании (наиболее выгодные продукты, самые успешные филиалы) от остальных служащих (продуктов, филиалов) ?
  • Каковы признаки/индикаторы неудач (злоупотреблений) в деятельности филиалов?
  • Как определить наилучший район для продвижения нового товара или услуги?

Поскольку процесс ИАД почти всегда требует значительных затрат времени и вычислительных ресурсов, в Scenario реализованы три стратегии анализа.

  1. Для проведения быстрого начального анализа задачи, отсева незначащих факторов и фокусировки внимания на ключевых параметрах рекомендуется использовать режим исследования . Этот режим позволяет выигрывать во времени за счет некоторого снижения точности результатов. Поскольку в дальнейшем предполагается проведение более детального анализа, требования к надежности не выдвигаются. Размер выборки не ограничивается.
  2. Более точный анализ может быть проведен в режиме тестирования . Использование этого режима обеспечивает очень высокую точность и достаточную надежность результатов. Для его проведения требуется не менее 300 записей в базе данных.
  3. Наилучшие по точности и надежности результаты можно получить в режиме верификации . Этот режим, требующий не менее 1000 записей, рекомендуется использовать для проверки и уточнения результатов, полученных в ходе тестирования.

Результаты исследований могут представляться в виде графиков и деревьев решений.

График позволяет просматривать информацию о зависимости целевого показателя от того или иного фактора. На график выводятся описания сегментов данных, полученных путем разбиения значений исследуемого фактора, и вычисляются средние для целевого показателя по каждому сегменту. Пользователь может выбирать любой фактор для просмотра зависимости, группировать или разгруппировывать любые факторы, а кроме того проводить нисходящий анализ для любого сегмента данных. Может оказаться, что наибольшее влияние на продажи в этом магазине оказывают сезонные колебания, в то время как объем продаж в магазине А в значительной мере определяется ценой продукции.

Деревья решений разбивают исходную совокупность данных на группы (сегменты) с точки зрения значений целевого показателя. В приведенном примере все данные, попавшие в левый сегмент второго уровня, обеспечивают относительно небольшую прибыль. Выявленная закономерность состоит в том, что величина прибыли в значительной мере определяется затратами на рекламу: чем они выше, тем больше прибыль. Деревья решений генерируют иерархии правил вида "если... то", позволяющих классифицировать данные в соответствии с их влиянием на целевой показатель.

Для просмотра больших деревьев удобно использовать фильтры, позволяющие получать подробную информацию только по тем сегментам данных, которые интересуют пользователя. Например, в дереве решений подробная информация дана по сегментам, включающим такие каналы сбыта как Магазин А, Магазин В и Спортивные клубы. С помощью фильтров пользователь может также ранжировать сегменты по степени их влияния на целевой показатель и выделять подсветкой N наиболее значимых сегментов.

Ознакомление с результатами анализа обычно требует просмотра большого количества сегментов данных. Чтобы пользователь мог собирать интересующую его информацию в одном месте, в Scenario реализован механизм закладок. Статистическая информация по каждому из сегментов, на котором пользователь оставляет закладку, выводится системой в окно Закладки.

Выбор данных для анализа осуществляется с помощью специальной подсистемы Import Wizard из файлов в формате dBase, электронных таблиц Excel, текстовых файлов, а также отчетов Impromptu.

Scenario дополняет и расширяет возможности PowerPlay. Во-первых, система позволяет фокусировать внимание пользователя, осуществляющего OLAP-анализ, на наиболее значимых факторах, предварительно выявляемых средствами ИАД. Во-вторых, результаты ИАД могут помочь в формировании гиперкубов, поскольку они определяют, какие размерности представляют интерес для исследования и как сегментируются данные.

Как и PowerPlay, Scenario удобно использовать для анализа продаж, проведения маркетинговых исследований, а также проведения ИАД в области финансов, при работе с кадрами и в производстве. По мнению аналитиков, благодаря Scenario можно получать более содержательные результаты. Отмечаются также возможности средств визуализации результатов исследований, встроенные виды анализа и удачная документация - все это делает Scenario удобным инструментом непрограммирующего пользователя. Недостатком текущей версии системы является невозможность использования нечисловых полей в качестве целевых показателей.

В тех случаях, когда представление извлекаемых знаний в виде набора дискретных правил "если... то" не удовлетворяет пользователя, он может применить методы нейронных сетей, реализованные в системе 4Thought и позволяюще:

  • моделировать сложные нелинейные зависимости между факторами и целевыми показателями;
  • выявлять тенденции в данных (при наличии временных рядов) для построения прогнозов;
  • работать с неполными и зашумленными данными;
  • получать содержательные результаты при относительно небольшом объеме исходной информации с возможностью последующего усовершенствования модели по мере поступления новых данных.
  • Типовыми видами анализа в системе 4Thought являются:
  • выявление значимых факторов и получение оценок степени влияния каждого фактора на целевой показатель;
  • проверка гипотез "что если" - каково будет значение целевого показателя при некотором гипотетическом наборе значений факторов, каков вклад каждого фактора в это значение;
  • прогнозирование значений целевого показателя.

Процесс моделирования средствами 4Thought достаточно прозрачен, а источники данных для анализа такие же, как и в системе Scenario. Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам - записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в Scenario, для постановки задачи моделирования должны быть указаны целевой (моделируемый) показатель и переменные-факторы.

Данные в таблице рассматриваются системой как примеры для обучения нейронной сети. Совокупность всех данных разбивается на два подмножества - модельное и тестовое. На каждом цикле обучения сначала сеть обучается на модельном подмножестве, а затем корректность ее работы проверяется на тестовых данных. Обучение продолжается до тех пор, пока не будет достигнуто предельно допустимое число итераций (5000) или пользователь не остановит процесс. Очевидно, что обучение сети целесообразно проводить до тех пор, пока точность результатов сети на модельном и на тестовом подмножествах растет. Убывание точности на тестовом подмножестве означает переобучение сети и снижение качества ее работы, даже при продолжающемся росте точности на модельных данных. Система запоминает состояние сети на момент последней итерации с максимальным значением точности на тестовом подмножестве, и использует именно его в рабочей модели (отметим, что здесь возможны локальные максимумы). Как правило, для обучения оказывается достаточно от 10 до 1000 итераций. При работе с небольшими объемами данных, когда выбор тестового подмножества существенно влияет на результаты обучения, пользователь может провести обучение в несколько циклов, выбирая для каждого цикла новое разбиение на тестовые и модельные данные. В процессе обучения пользователю выдается табло, на которое выводятся данные о текущем состоянии сети (точность на модельном и на тестовом подмножестве, количество итераций, скорость обучения, итерация с наилучшим показателем точности на тестовых данных) в числовом и графическом виде.

По результатам моделирования могут быть получены следующие отчеты.

  1. Основная статистика с комментариями системы. Указываются: точность модельных и тестовых данных; среднеквадратичная ошибка, стандартное отклонение, границы 95% доверительного интервала, среднее абсолютной ошибки, количество записей, количество переменных, оценки влияния факторов на целевой атрибут (аналоги t-статистик) и заключение системы относительно качества полученной модели.
  2. Количественные зависимости целевого показателя от каждого фактора в графическом виде и приближенное описание модели с помощью уравнения линейной регрессии.
  3. Коэффициенты корреляции для любого выбранного фактора относительно других факторов.
  4. Результаты использования модели на любых задаваемых пользователем значениях факторов.
  5. Объяснение для любого значения моделируемой переменной, вычисленной системой - как она была получена и какой вклад внес каждый фактор в это значение.

Конкретный пример

Система 4Thought используется сегодня в многочисленных бизнес-приложениях, что свидетельствует об эффективности реализованных в ней методов моделирования и удобстве интерфейсов конечного пользователя. Накоплен богатый опыт работы с различными типами задач. Одна из довольно распространенных задач, решаемых средствами нейронных сетей, состоит в прогнозировании спроса.Фирма, занимающаяся оптовой торговлей, ожидала падения спроса вследствие нарастающего экономического спада. В наступающем периоде оптимальное планирование закупок играло решающую роль, поэтому для фирмы было жизненно важно получить точный прогноз спроса. В качестве значимых факторов были выделены состояние экономики, описываемое в модели индексом промышленного производства, процентные ставки, а также количество рабочих дней по месяцам. Построенная модель определила зависимости целевого показателя от факторов. Для получения прогнозов требовались значения факторов на исследуемый период времени. При решении задачи были использованы публикуемые прогнозы по первым двум факторам (впрочем, подобные прогнозы могли быть получены и с помощью 4Thought). Результаты прогноза продаж представлены на графике. Слева указаны фактические данные, на которых проводилось обучение сети, а справа - прогноз системы на следующий год.

***

Программные продукты компании Cognos были представлены российским пользователям и разработчикам относительно недавно, в конце апреля 1997 года, но несмотря на это уже имеется положительный опыт их использования. Он свидетельствует о том, что несмотря на сложность технологии ИАД, она может быть реализована сегодня в прозрачных и доступных прикладных средствах, рассчитанных на непрограммирующих пользователей, специалистов в конкретных прикладных областях. Простота, эффективность и открытость рассмотренных средств позволяет интегрировать их в сложные системы поддержки принятия решений.

Литература

  1. Валерий Аджиев. . Открытые системы, № 3,1997, с.73-77
  2. Михаил Киселев, Евгений Соломатин. Открытые системы, # 4, 1997, с.41-44

Марина Шапот , РосНИИ информационных технологий и систем автоматизированного проектирования (Москва).



Несколько десятков лет назад компьютеры резко подешевели и стали доступны для широкой аудитории, что произвело революцию как во многих отраслях науки, бизнеса и промышленности, так и в нашей повседневной жизни. С помощью компьютеров можно работать с огромными базами данных, автоматизировать бизнес-процессы, контролировать работу конвейера на производстве, упрощать управление самолетом или просто хранить коллекцию семейных фотографий. Сегодня такая же революция происходит с данными. За несколько десятков лет многие отрасли и компании накопили большие объемы данных, и теперь появилась возможность извлекать пользу из этих данных, находить в них нетривиальные закономерности. Методы машинного обучения и анализа данных всё активнее используются при оптимизации производственных процессов и маршрутов транспорта, для оптимизации закупок и маркетинговых кампаний в интернет-коммерции, для создания новых лекарств и автомобилей без водителя - этот список приложений становится больше с каждым днем. Рынок анализа данных уже оценивается в 50 миллиардов долларов, и он продолжает свой стремительный рост. Специалист по анализу данных, или Data Scientist - одна из самых востребованных и привлекательных профессий нашего времени. Такие люди нужны практически везде, спрос на них огромен и только растет с каждым годом.

Становится понятно, что недостаточно наличия специалистов по анализу данных - базовые навыки важны для профессионалов из многих областей бизнеса и науки. Методы анализа данных и машинного обучения находят свое применение в социальных науках, экономике, физике, журналистике, лингвистике и даже в исторических науках. Понимание методов и возможностей машинного обучения важно для менеджеров и управленцев, которым, вполне возможно, придется столкнуться с необходимостью внедрения или разработки систем анализа данных.

Наш майнор покрывает все основные разделы анализа данных, необходимые для успешного его применения на практике. Мы начинаем с самых основ - программирования и базовых разделов математики - и переходим к современным методам машинного обучения и их использованию для решения важных прикладных задач.

Курсы майнора:

  • . На данном курсе вы познакомитесь с языком Python - одним из наиболее популярных современных языков программирования, который в том числе широко используется в анализе данных. Вы изучите основные конструкции языка и базовые структуры данных, научитесь самостоятельно писать программы.
  • . В начале этого курса мы познакомим вас с разделами математики, без которых сложно представить современный анализ данных - методы оптимизации, теория вероятностей, статистическое оценивание. После этого мы займемся изучением линейных моделей и решающих деревьев, двух наиболее распространенных видов моделей в анализе данных. Мы уделим много внимания тому, как правильно применять данные методы к различным видам данных, как измерять и оценивать их качество. На семинарах и в домашних заданиях мы будем решать реальные задачи - например, фильтрация спама, оценивание стоимости жилья или распознавание рукописных цифр. В основном мы будем использовать библиотеку scikit-learn, содержащую много готовых методов машинного обучения - но иногда придется реализовать метод самостоятельно, чтобы лучше разобраться в нем.
  • . Данный курс является продолжением предыдущего и рассказывает о том, какие модели машинного обучения чаще всего используются сейчас на практике. Основное внимание мы уделим композиционным методам и нейронным сетям, а также немного обсудим глубинное обучение - область анализа данных, которая позволяет решать с очень высоким качеством такие сложные задачи, как распознавание изображений и речи, автоматический анализ текстов, анализ биологических данных. Во второй части курса мы поговорим об основных статистических методах - параметрической и непараметрической проверке гипотез, бутстрапе, анализе временных рядов, и обсудим, почему они так важны на практике.
  • . В данном курсе мы разберем ряд важных прикладных задач, где активно используется машинное обучение - классификация текстов, построение рекомендательных систем, анализ социальных сетей, распознавание изображений. Мы выясним, как именно и какими методами нужно решать такие задачи, и попробуем самостоятельно их решить с помощью уже изученных средств на не очень сложных примерах. Также мы познакомимся с системами обработки больших данных и выясним, каковы области их применения.

Трудоемкость: 20 кредитов

Ограничения для выбора образовательным программам: Прикладная математика и информатика

Статус: состоялся

Минимальное число слушателей: 60

Максимальное число слушателей: 150

Годы реализации: 2017 - 2019

Целевая аудитория: студенты 2016 года набора

Планируемое место проведения:

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).

ИАД включает методы и модели статистического анализа и машинного обучения , дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи, решаемые ИАД

  1. Классификация - отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация - разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания - для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация - поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis ) - вместе с пивом часто покупают орешки.
  5. Анализ отклонений - Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  6. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.

Также можно использовать сводные задачи под основу

Алгоритмы обучения

Для задач классификации характерно «обучение с учителем », при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя », при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы . Начиная с классических работ К. Пирсона по методу главных компонент , основное внимание здесь уделяется аппроксимации данных.

Этапы обучения

Можно выделить типичный ряд этапов решения задач методами ИАД:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных (фильтрация);
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели (автоматический поиск остальных параметров модели);
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

См. также

Литература

  • Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD). . - СПб: Изд. Питер, 2009. - 624 с.
  • Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности . - М.: Финансы и статистика, 1989. - 608 с.
  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. - СПб: Изд. Питер, 2001. - 368 с.
  • Журавлёв Ю.И. , Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения", к книге прилагается компакт-диск с демоверсией программной системы «РАСПОЗНАВАНИЕ» . - М.: Изд. «Фазис», 2006. - 176 с. - ISBN 5-7036-0106-8
  • Зиновьев А. Ю. Визуализация многомерных данных . - Красноярск: Изд. Красноярского государственного технического университета, 2000. - 180 с.
  • Чубукова И. А. Data Mining: учебное пособие . - М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. - 382 с. - ISBN 5-9556-0064-7

Ссылки


Wikimedia Foundation . 2010 .

Смотреть что такое "Интеллектуальный анализ данных" в других словарях:

    В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники. Эта отметка… … Википедия

    Топологический анализ данных новая область теоретических исследований для задач анализа данных (Data mining) и компьютерного зрения. Основные вопросы: Как из низкоразмерных представлений получать структуры высоких размерностей; Как… … Википедия

    Процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных… … Википедия

    интеллектуальный учет электроэнергии - [Интент] Учет электроэнергии Понятия «интеллектуальные измерения» (Smart Metering), «интеллектуальный учет», «интеллектуальный счетчик», «интеллектуальная сеть» (Smart Grid), как все нетехнические,… … Справочник технического переводчика

    У этого термина существуют и другие значения, см. Капитал (значения). Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения … Википедия

    Обычный агент … Википедия

    Интеллектуальный анализ данных (англ. Data Mining) выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие.… … Википедия

    Для улучшения этой статьи по математике желательно?: Проставив сноски, внести более точные указания на источники. Исправить статью согласно стилистическим правилам Википедии. Переработать офо … Википедия

    Мониторинг сетей целенаправленное воздействие на сеть, осуществляемое для организации ее функционирования по заданной программе: включение и отключение системы, каналов передачи данных, терминалов, диагностика неисправностей, сбор… … Википедия

    Не следует путать с Извлечение информации. Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее… … Википедия

Книги

  • Интеллектуальный анализ данных в системах поддержки принятия решений. Моделирование слабоструктурированных временных рядов и нечеткая оценка инвестиционных проектов , Рамин Рзаев. Эта книга будет изготовлена в соответствии с Вашим заказом по технологии Print-on-Demand. Предлагаемая читателю книга посвящена решению проблем, направленных на разработку методов и…

Аннотация: В лекции рассматривается понятие "интеллектуальный анализ данных", описываются основные задачи интеллектуального анализа и приводятся примеры использования в разных отраслях деятельности.

Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных [ , ]. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.

Классическим считается определение ,данное одним из основателей направления Григорием Пятецким-Шапиро : DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.

Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:

  • специализированных "коробочных" программных продуктов для интеллектуального анализа;
  • математических пакетов;
  • электронных таблиц(и различного рода надстроек над ними);
  • средств интегрированных в системы управления базами данных (СУБД);
  • других программных продуктов.

В рамках данного курса нас в первую очередь будут интересовать средства, интегрированные с СУБД . В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line ( OLAP )и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.

Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.

Задачи интеллектуального анализа данных

В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная - параметр , значение которого рассматриваем как зависящее от других параметров (независимых переменных). Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.

Рассмотрим основные задачи интеллектуального анализа данных.

Задача классификации заключается в том, что для каждого варианта определяется категория или класс , которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен". Необходимо отметить, что для решения задачи необходимо, чтобы множество классов было известно заранее и было бы конечным и счетным.

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.

Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.

Также можно говорить о классификации задач интеллектуального анализа данных по назначению, в соответствии с которой,они делятся на описательные (descriptive) и предсказательные (predictive). Цель решения описательных задач - лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.

Но вернемся к перечислению задач интеллектуального анализа данных.

Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Другое название этой задачи - сегментация . Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.

Кластеризация относится к задачам обучения без учителя (или "неуправляемым" задачам).

Задача определения взаимосвязей , также называемая задачей поиска ассоциативных правил , заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.

Данная задача также относится к классу "обучение без учителя".

Анализ последовательностей или сиквенциальный анализ одними авторами рассматривается как вариант предыдущей задачи, другими - выделяется отдельно. Целью, в данном случае, является обнаружение закономерностей в последовательностях событий. Подобная информация позволяет, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример применения - анализ последовательности переходов по страницам пользователей web-сайтов.

Введение

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний.

Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.

Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях.

В данной работе мы исследуем интеллектуальный анализ данных.

1. Интеллектуальный анализ данных

Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. В рамках такой общей формулировки обычный анализ отчетов, построенных по базе данных, также может рассматриваться как разновидность ИАД. Чтобы перейти к рассмотрению более продвинутых технологий ИАД, посмотрим, как можно автоматизировать поиск зависимостей между данными.

Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных . И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.

Классическим считается определение, данное одним из основателей направления Григорием Пятецким-Шапиро : DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.

Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:

· специализированных "коробочных" программных продуктов для интеллектуального анализа;

· математических пакетов;

· электронных таблиц(и различного рода надстроек над ними);

· средств интегрированных в системы управления базами данных (СУБД);

· других программных продуктов.

В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line (OLAP)и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.

Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.

В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная - параметр, значение которого рассматриваем как зависящее от других параметров (независимых переменных). Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.

Рассмотрим основные задачи интеллектуального анализа данных.

Задача классификации заключается в том, что для каждого варианта определяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен". Необходимо отметить, что для решения задачи необходимо, чтобы множество классов было известно заранее и было бы конечным и счетным.

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.

Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.

Также можно говорить о классификации задач интеллектуального анализа данных по назначению, в соответствии с которой, они делятся на описательные (descriptive) и предсказательные (predictive). Цель решения описательных задач - лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.

Но вернемся к перечислению задач интеллектуального анализа данных.

Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Другое название этой задачи - сегментация. Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.

Кластеризация относится к задачам обучения без учителя (или "неуправляемым" задачам).

Задача определения взаимосвязей , также называемая задачей поиска ассоциативных правил , заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.

Данная задача также относится к классу "обучение без учителя".

Анализ последовательностей или сиквенциальный анализ одними авторами рассматривается как вариант предыдущей задачи, другими - выделяется отдельно. Целью, в данном случае, является обнаружение закономерностей в последовательностях событий. Подобная информация позволяет, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример применения - анализ последовательности переходов по страницам пользователей web-сайтов.

Анализ отклонений позволяет отыскать среди множества событий те, которые существенно отличаются от нормы. Отклонение может сигнализировать о каком-то необычном событии (неожиданный результат эксперимента, мошенническая операция по банковской карте …) или, например, об ошибке ввода данных оператором.

В таблице 1.1 приведены примеры задач интеллектуального анализа данных из различных областей.

Таблица 1.1. Примеры применения интеллектуального анализа данных

Информационные технологии

Торговля

Финансовая сфера

Классификация

Оценка кредитоспособности

Регрессия

Оценка допустимого кредитного лимита

Прогнозирование

Прогнозирование продаж

Прогнозирование цен акции

Кластеризации

Сегментация клиентов

Сегментация клиентов

Определения взаимосвязей

Анализ потребительской корзины

Анализ последовательностей

Анализ переходов по страницам web-сайта

Анализ отклонений

Обнаружение вторжений в информационные системы

Выявление мошенничества с банковскими картами

Сегодня количество фирм, предлагающих продукты ИАД, исчисляется десятками, однако, не рассматривая их подробно, приведем лишь классификацию процессов ИАД, применяющихся на практике.

В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений (Business Objects) до нейронных сетей (NeoVista). Пока трудно говорить о перспективности или предпочтительности тех или иных методов. Технология ИАД сейчас находится в начале пути, и практического материала для каких-либо рекомендаций или обобщений явно недостаточно.

Необходимо также упомянуть об интеграции ИАД в информационные системы. Многие методы ИАД возникли из задач экспертного анализа, поэтому входными данными для них традиционно служат "плоские" файлы данных. При использовании ИАД в СППР часто приходится сначала извлекать данные из Хранилища, преобразовывать их в файлы нужных форматов и только потом переходить собственно к интеллектуальному анализу. Затем результаты анализа требуется сформулировать в терминах бизнес-понятий. Важный шаг вперед сделала компания Information Discovery, разработавшая системы OLAP Discovery System и OLAP Affinity System, предназначенные специально для интеллектуального анализа многомерных агрегированных данных .

интеллектуальный анализ данные прогнозирование

Заключение

Интеллектуальный анализ данных (ИАД, data mining, KDD - knowledge discovery in databases) представляет собой новейшее направление в области информационных систем (ИС), ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных.

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.

Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена.

Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.

Список литературы

1. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике. М. СИНТЕГ 2002. 306 с.

2. Дюк В., Самойленко А. Data Mining. Издательский дом "Питер". СПб, 2001.

3. Васильев В.П. Информационно-аналитические системы. Практикум на ПК.МФ МЭСИ -2007.



Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter
ПОДЕЛИТЬСЯ:
Выселение. Приватизация. Перепланировка. Ипотека. ИСЖ