DATAMI NING: классификация и регрессия. Машинное обучение

<

091913 0034 DATAMINING1 DATAMI NING: классификация и регрессия. Машинное обучение

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Основателем и одним из идеологов Data Mining считается Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro)

Современные технологии Data Mining перерабатывают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. Data Mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот, например, некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д.

Методы DataMining позволяют решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Ниже приведено краткое описание основных задач анализа данных.

1) Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, заранее известно.

2) Задача регрессии, подобно задаче классификации, позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

3) Задача ассоциации. При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.

4) Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

5) Последовательные шаблоны – установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

6) Анализ отклонений – выявление наиболее нехарактерных шаблонов.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто используемого в англоязычной литературе и обозначающего все технологии Data Mining.

В случае supervised learning задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных – классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы и, если оно неудовлетворительно, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.

Unsupervised learning объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Отсюда и название — unsupervised learning. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К ним относятся кластеризация и поиск ассоциативных правил.

При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Например, когда человек обращается в банк за предоставлением ему кредита, банковский служащий должен принять решение: кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решение принимается на основании данных об исследуемом объекте (в данном случае — человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В результате анализа этой информации банковский служащий должен отнести человека к одному из двух известных классов «кредитоспособен» и «некредитоспособен».

Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: приобрести, «заработать», «выгодное предложение» и т. п.).

В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта.

В Data Mining задачу классификации рассматривают как задачу определения ‘значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении — независимыми переменными.

Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть:

– информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;

– сообщения, классифицированные вручную как спам или как письмо;

– распознанные ранее матрицы образов цифр.

На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:

– количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;

– в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;

– для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.

На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).

Задача классификации и регрессии имеет геометрическую интерпретацию. Рассмотрим ее на примере с двумя независимыми переменными, что позволит представить ее в двумерном пространстве (рис. 2.1.1). Каждому объекту ставится в соответствие точка на плоскости. Символы «+» и «-» обозначают принадлежность объекта к одному из двух классов. Очевидно, что данные имеют четко выраженную структуру: все точки класса «+» сосредоточены в центральной области. Построение классификационной функции сводится к построению поверхности, которая обводит центральную область. Она определяется как функция, имеющая значения «+» внутри обведенной области и «-» — вне.

Как видно из рисунка 1, есть несколько возможностей для построения обводящей области. Вид функции зависит от применяемого алгоритма.

Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, — это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов — числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfilling.

091913 0034 DATAMINING2 DATAMI NING: классификация и регрессия. Машинное обучение

Рис. 1 Классификация в двумерном пространстве

 

Суть первой из них заключается в том, что классификационная функция при построении «слишком хорошо» адаптируется к данным, и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.

<

 

 

3 Понятие информация, данных, знания

 

Информация (от лат. informatio, разъяснение, изложение, осведомленность) — сведения о чем-либо, независимо от формы их представления.

Информация — это:

–  данные, определенным образом организованные, имеющие смысл, значение и ценность для своего потребителя и необходимая для принятия им решений, а также для реализации других функций и действий;

–  совокупность знаний о фактических данных и зависимостях между ними, являющихся одним из видов ресурсов, используемых человеком в трудовой деятельности и быту;

– сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы представления;

– сведения, неизвестные до их получения;

– значение, приписанное данным;

– средство и форма передачи знаний и опыта, сокращающая неопределенность и случайность и неосведомленность;

– обобщенный термин, относящийся к любым сигналам, звукам, знакам и т.д., которые могут передаваться, приниматься, записываться и/или храниться

Характерными чертами информации являются следующие:

– это наиболее важный ресурс современного производства: он снижает потребность в земле, труде, капитале, уменьшает расход сырья и энергии;

– вызывает к жизни новые производства;

– является товаром, причем продавец информации ее не теряет после продажи;

– придает дополнительную ценность другим ресурсам, в частности, трудовым. Действительно, работник с высшим образованием ценится больше, чем со средним;

– информация может накапливаться.

Известны также следующие трактовки понятия «данные». Данные это:

– факты, цифры, и другие сведения о реальных и абстрактных лицах, предметах,   объектах,   явлениях   и   событиях,   соответствующих определенной предметной области, представленные в цифровом, символьном, графическом, звуковом и любом другом формате;

– информация, представленная в виде, пригодном для ее передачи и обработки автоматическими средствами, при возможном участии автоматизированными средствами с человеком;

–   фактический материал, представленный в виде информации, чисел, символов или букв, используемый для описания личностей, объектов, ситуаций или других понятий с целью последующего анализа, обсуждения или принятия соответствующих решений.

Из всего многообразия подходов к определению понятия «данные» на наш взгляд справедливо то, которое говорит о том, что данные несут в себе информацию о событиях, произошедших в материальном мире, поскольку они являются регистрацией сигналов, возникших в результате этих событий. Однако данные не тождественны информации. Станут ли данные информацией, зависит от того, известен ли метод преобразования данных в известные понятия. То есть, чтобы извлечь из данных информацию необходимо подобрать соответствующий форме данных адекватный метод получения информации. Данные, составляющие информацию, имеют свойства, однозначно определяющие адекватный метод получения этой информации. Причем необходимо учитывать тот факт, что информация не является статичным объектом — она динамически меняется и существует только в момент взаимодействия данных и методов. Все прочее время она пребывает в состоянии данных. Информация существует только в момент протекания информационного процесса. Все остальное время она содержится в виде данных.

Одни и те же данные могут в момент потребления представлять разную информацию в зависимости от степени адекватности взаимодействующих с ними методов.

По своей природе данные являются объективными, так как это результат регистрации объективно существующих сигналах, вызванных изменениями в материальных телах или полях. Методы являются субъективными. В основе искусственных методов лежат алгоритмы (упорядоченные последовательности команд), составленные и подготовленные людьми (субъектами). В основе естественных методов лежат биологические свойства субъектов информационного процесса. Таким образом, информация возникает и существует в момент диалектического взаимодействия объективных данных и субъективных методов.

Переходя к рассмотрению подходов к определению понятия «знания» можно выделить следующие трактовки. Знания — это:

–  вид информации, отражающей знания, опыт и восприятие человека -специалиста (эксперта) в определенной предметной области;

–  множество всех текущих ситуаций в объектах данного типа и способы перехода от одного описания объекта к другому;

–   осознание и толкование определенной информации, с учетом путей наилучшего ее использования для достижения конкретных целей, характеристиками знаний являются: внутренняя интерпретируемость, структурируемость, связанность и активность. .

Основываясь на приведенных выше трактовках рассматриваемых понятий, можно констатировать тот факт, что знание — это информация, но не всякая информация — знание. Информация выступает как знания, отчужденные от его носителей и обобществленные для всеобщего пользования. Другими словами, информация — это превращенная форма знаний, обеспечивающая их распространение и социальное функционирование. Получая информацию, пользователь превращает ее путем интеллектуального усвоения в свои личностные знания. Здесь мы имеем дело с так называемыми информационно-когнитивными процессами, связанными с представлением личностных знаний в виде информации и воссозданием этих знаний на основе информации

Таким образом, учитывая вышеизложенное, можно сделать вывод, что фиксируемые воспринимаемые факты окружающего мира представляют собойданные. При использовании данных в процессе решения конкретных задач — появляется информация. Результаты решения задач, истинная, проверенная информация (сведения), обобщенная в виде законов, теорий, совокупностей взглядов и представлений представляет собой знания 

13 Технология и методы обработки экономической информации

 

Сбор, хранение, обработка, передача информации в числовой форме осуществляется с помощью информационных технологий. Особенностью информационных технологий является то, что в них и предметом и продуктом труда является информация, а орудиями труда – средства вычислительной техники и связи.

Основная цель информационных технологий — производство необходимой пользователю информации в результате целенаправленных действий по ее переработке.

Технология автоматизированной обработки экономической информации строится на следующих принципах:

• интеграции обработки данных и возможности работы пользователей в условиях эксплуатации автоматизированных систем централизованного хранения и коллективного использования данных (банков данных);

• распределенной обработки данных на базе развитых систем передачи;

• рационального сочетания централизованного и децентрализованного управления и организации вычислительных систем;

• моделирования и формализованного описания данных, процедур их преобразования, функций и рабочих мест исполнителей;

• учета конкретных особенностей объекта, в котором реализуется машинная обработка экономической информации.

Обработка экономической информации предполагает выполнение логических и арифметических операций над исходными данными. Логическая обработка включает операции сортировки (подбор, упорядочение, объединение), выборку данных из информационной базы и т.п. Арифметические операции – алгебраическое сложение, деление, умножение и т.д.

Системы обработки финансово-экономической информации служат для обработки числовых данных, характеризующих различные производственно-экономические и финансовые явления и объекты, а также для составления соответствующих управленческих документов и информационно-аналитических материалов. Они включают: универсальные табличные процессоры (Microsoft Excel); специализированные бухгалтерские программы («1С: Бухгалтерия»); специализированные банковские программы (для внутрибанковских и межбанковских расчетов); специализированные программы финансово-экономического анализа и планирования и др.

При поиске решений в экономической сфере используются следующие методы обработки и анализа информации:

1. Эвристические — используются когда информации недостаточно и нельзя точно очертить границы применения формализованных методов, оценить допуск ошибки:

метод коллективного блокнота;

мозговой штурм;

приём синектики;

кейс-метод;

2. Традиционные методы:

метод сравнения;

метод относительных и сравнительных величин;

графический метод;

метод группировки.

3. Способ детерминированных факторов:

способ цепных подстановок;

способ абсолютных разниц;

способ относительных разниц;

4. Способы стохастического факторного анализа

корелляционно-регрессионный анализ;

дисперсионный анализ;

компонентный анализ;

многомерный факторный анализ.

5. Способы оптимизированных показателей

– экономико-математические методы;

– программирование;

теория массового обследования;

теория игр;

исследование операций.

С учётом сферы применения в экономике выделяют:

– банковские информационные системы;

– информационные системы фондового рынка;

– страховые информационные системы;

– налоговые информационные системы;

– информационные системы промышленных предприятий и организаций (бухгалтерские и иные информационные системы);

– статистические информационные системы и др.

К видам экономических задач относят:

– учётно-операционные работы (в т.ч. учёт труда, зарплаты, материалов и пр.),

– расчёт нормативов, межбанковские расчёты,

– прогнозно-аналитические работы,

– лизинг,

– обслуживание клиентов, в т.ч. с помощью пластиковых карт.

 

23 Мультимедийные технологии

 

Технология мультимедиа (лат. multi – «много», media – «среда») – способ представления информации в компьютере с возможностью одновременного использования текста, графики, звука, видео и анимационных эффектов.

Мультимедийные технологии — это совокупность современных средств аудио- теле-, визуальных и виртуальных коммуникаций, используемых в процессе организации, планирования и управления различных видов деятельности.

Средства мультимедиа позволяют создавать базы, банки данных и знаний в сфере культуры, науки и производства. Такие продукты всё более завоёвывают рынок пользователей. Мультимедиа технологии широко используются в рекламной деятельности, при организации управления маркетингом средств и методов продвижения товаров и услуг, в обучении и досуговой деятельности.

К компьютерным средствам мультимедиа относят: специальное ПО, а также: CD и DVD драйверы и компакт-диски к ним; аудиокарты, аудио колонки, наушники и микрофоны; видеокарты; аудио- и видео периферийные устройства (цифровые кинокамеры и фотоаппараты и др.).

Технология мультимедиа позволяет вводить, сохранять, перерабатывать и воспроизводить текстовую, аудиовизуальную, графическую, трёхмерную и иную информацию. Свойство интегрировать эти виды данных, компактно и длительно хранить их на электронных носителях, не разрушающихся со временем и не ухудшающих свои характеристики при копировании, позволяет утверждать, что они могут отражать богатейшие национальные богатства России в мультимедийных БД, которые вместе с системами гипертекста, гипермедиа и WWW обеспечат пользователям почти моментальный доступ к любому их фрагменту.

Организации и подразделения, обладающие информационными ресурсами и средствами мультимедиа, использующими мультимедийные технологии порой называют медиатеками. В России медиатеки находят широкое распространение в библиотеках и учебных заведениях. В этом случае считается, что медиатека – хранилище информационных медиаресурсов.

Технические средства мультимедиа, как и любые компьютерные информационные системы, позволяют выполнять все виды информационных процессов.

23 Управление проектами в Microsoft Project

 

Управление проектами (проектный менеджмент — project management)- это планирование, координация и контроль работ по проекту для достижения его целей в рамках установленного бюджета и сроков, с надлежащим качеством.

       К достаточно распространенным и поддерживаемым на российском рынке программным продуктам относятся «большие» мультипроектные профессиональные системы — PrimaVera Planner , Open Plan Professional и более «скромные» — Microsoft Project , Sure Track Manager. 

       Наиболее популярна на сегодняшний день в мире программа управления проектами MS Project.

Microsoft Project стал фактически стандартом среди средств автоматизации индивидуальной работы менеджеров проектов. Свою популярность он заслужил благодаря удачному сочетанию простоты использования, дружеского интерфейса и наиболее необходимых инструментов управления проектами.

Microsoft Project рассчитан, в первую очередь, на пользователей, которые не являются профессионалами в управлении проектами. Таким образом, его можно отнести к «непрофессиональным системам» управления проектами. с другой стороны, с помощью Microsoft Project можно управлять проектами со значительным количеством работ и ресурсов.

Microsoft Project входит в семейство Microsoft Office, что подтверждается следующими его свойствами:

построение интерфейса и справочной системы на единственных с Microsoft Office принципах;

возможность сохранения данных проектов в базе данных Access;

двусторонний обмен данными с Outlook;

Среди преимуществ Microsoft Project также можно назвать усовершенствованные средства групповой работы, что позволяют одному менеджеру одновременно управлять несколькими проектами с большим числом участников. По мнению Gartner Group, Microsoft Project – лучший выбор для организаций, где используется матричная схема управления, то есть проектные команды допускают взаимодействие сотрудников из разных департаментов.

К недостаткам системы можно отнести ограниченные средства управления бюджетом и отсутствие средств для управления рисками проекта.

Для расширения функциональности системы разработанные дополнительные модули, доступные для бесплатной загрузки через Internet. Кроме того, существует web-сервис Microsoft ProjectCentral.com, предназначенный для организации совместной работы над проектами для групп, распределенных территориально. ProjectCentral.com предоставляет членам рабочей группы и всем заинтересованным лицам веб-страницы для работы с информацией проекта.

 

 

43 Статистические пакеты

 

Потребность в средствах статистического анализа данных очень велика, что и послужило причиной для развития рынка статистических программ.

Наилучший выбор статистического пакета для анализа данных зависит от характера решаемых задач, объема обрабатываемых данных, квалификации пользователей, имеющегося оборудования.    

Число статистических пакетов, получивших распространение в России, достаточно велико (несколько десятков). Из зарубежных пакетов этоSTATGRAPHICS, SYSTAT, STATISTICA, SPSS, SAS, CSS. Из отечественных можно назвать такие пакеты, как STADIA, ЭВРИСТА, МЕЗОЗАВР, САНИ, КЛАСС-МАСТЕР, СТАТЭксперт и др.

Для пользователей, имеющих дело со сверхбольшими объемами данных или узкоспециальными методами анализа, пока нет альтернативы использованию профессиональных западных пакетов. Среди интерактивных пакетов такого рода наибольшими возможностями обладает пакетSAS.

Если Вам необходимо обработать данные умеренных объемов (несколько сотен или тысяч наблюдений) стандартными статистическими методами, подойдет универсальный или специальный статистический пакет, надо только убедиться, что он содержит нужные методы обработки.

Пакеты STADIA и STATISTICA являются универсальными пакетами, содержащими большинство стандартных статистических методов. Пакеты SPSS и SyStat перенесены на персональные компьютеры с больших ЭВМ предыдущих поколений, поэтому, наряду с представительным набором тщательно реализованных вычислительных методов, они сохраняют и некоторые архаические элементы. Однако имеющиеся в них возможности командного языка (впрочем, очень непростые в изучении и использовании) могут быть весьма полезны для сложных задач обработки данных. Пакеты STADIA и STATISTICA  исходно разработаны для ПЭВМ, а поэтому проще в обращении. Эти пакеты, пожалуй, содержат наибольшее количество методов статистического анализа.

STATISTICA — это универсальная интегрированная система, предназначенная для статистического анализа, визуализации данных и разработки пользовательских приложений. Программа содержит широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе. Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и промышленных задач: карты контроля качества, анализ процессов и планирование эксперимента.

Универсальный российский статистический пакет STADIA — за 15 лет существования и развития стал аналитическим инструментом для многих тысяч пользователей в различных областях науки, техники, планирования, управления, производства, сельского хозяйства, экономики, бизнеса, маркетинга, образования, медицины по всей русскоязычной Евразии. По своим базовым возможностям сопоставим с наиболее известными западными статистическими пакетами. Отличается простотой использования применительно к отечественной аудитории.

Следует обратить внимание на удивительную компактность пакета STADIA: он требует в несколько раз меньше места на диске, чем его конкуренты, и при этом не уступает, а часто и превосходит их по своим функциональным возможностям.

<

Комментирование закрыто.

MAXCACHE: 0.95MB/0.00167 sec

WordPress: 23.04MB | MySQL:114 | 1,346sec