Системный анализ и интегральные оценки многомерных объектов в задачах финансового мониторинга тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Бекетнова, Юлия Михайловна

  • Бекетнова, Юлия Михайловна
  • кандидат науккандидат наук
  • 2014, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 134
Бекетнова, Юлия Михайловна. Системный анализ и интегральные оценки многомерных объектов в задачах финансового мониторинга: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2014. 134 с.

Оглавление диссертации кандидат наук Бекетнова, Юлия Михайловна

Оглавление

Перечень условных обозначений и сокращений

Введение

Глава 1. Анализ предметной области и постановка задачи исследования

1.1. Сущность проблемы сравнения векторных показателей в прикладных отраслях. Проблема снижения размерности и различные методы её решения

1.2. Анализ существующих методов снижения размерности

1.2.1. Экспертно-статистические и эвристические методы снижения размерности

16

1.2.2. Многомерное шкалирование

1.2.3. Метод экстремальной группировки признаков и метод корреляционных плеяд

1.2.4. Факторный анализ

1.2.5. Метод главных компонент

1.2.6. Распознавание образов

1.3. Анализ проблемной области

1.3.1. Социально-экономические предпосылки отмывания доходов

1.3.2. Обзор нормативной базы в сфере регулирования процедуры внесения юл и исключения юл из егрюл

1.3.3.1. Регистрация юридических лиц в егрюл

1.3.3.2. Регистрация изменений, вносимых в учредительные документы ЕГРЮЛ37

1.3.3.3. Регистрация юридических лиц в связи с ликвидацией

1.4. Многомерная классификация и типологизация регионов РФ

1.4.1. Общие положения

1.4.2. Задача типологизации

1.5. Постановка задачи и обоснование выбора метода исследования 48 Выводы по главе 1 49 Глава 2. Проблема выбора и синтез интегральных оценок субъектов финансовой

деятельности

2.1. Особенности реализации метода главных компонент

2.1.1. Математическая модель метода главных компонент

2.1.2. Геометрическая интерпретация метода главных компонент

2.1.3. Блок схема алгоритма 5

2.1.4. Реализация обратной факторной задачи

2.1.5. Анализ существующих методов нахождения собственных чисел и собственных векторов

2.1.6. Свойства метода (^Я разложения матрицы

2.1.7. Свойства метода вращений (метода Гивенса)

2.1.8. Метод Якоби, его достоинства 62 2.1.19. Алгоритм классического метода Якоби 64 2.1.10. Приведение матрицы собственных чисел к виду необходимому для метода главных компонент 64 Выводы по главе 2 65 Глава 3. Синтез системотехнических решений задачи исследования

3.1. Модифицированный метод главных компонент в задаче оценки субъектов финансовой деятельности

3.2. Синтез и интерпретация интегральных оценок субъектов финансовой деятельности

3.3. Проверка и интерпретация интегральных оценок субъектов финансовой деятельности

3.4. Верификация полученных результатов в обработке статистических данных ФНС России о юридических лицах сведения о которых содержатся в ЕГРЮЛ 91 Выводы по главе 3 93 Глава 4. Оценка положительного эффекта и перспектив применения результатов исследований

4.1. Информационная система Росфинмониторинга

4.2. Рейтингование регионов Российской Федерации

4.3. Ранжирование субъектов финансовой деятельности

4.4. Ранжирование профессиональных участников рынка ценных бумаг

4.5. Определение рейтингов показателей в оценке эффективности работы межрегиональных управлений Росфинмониторинга и анализ информативности первой главной компоненты 124 Выводы по главе 4 125 3 аключение 126 Список литературы 132 Приложение 1 135 Приложение 2

! П г I Т: I

Перечень условных обозначений и сокращений

Условное обозначение Расшифровка

курсивом обозначены скалярные величины

ПОЛУЖИРНЫМ обозначены матрицы

полужирным курсивом обозначены вектора

т знак транспонирования

Сокращение Расшифровка

АО Автономный округ

под Противодействие отмыванию доходов

ПФР Подразделение финансовой разведки

ВВП Внутренний валовый продукт

БАТБ, ФАТФ Financial action task force, международная организация, созданная для борьбы с легализацией денежных средств

РФ Российская Федерация

ФЗ Федеральный закон

ВИР Внешние информационные ресурсы

МРУ Межрегиональные управления

СУБД Система управления базой данных

ПК Налоговый кодекс

УК Уголовный кодекс

ГК Гражданский кодекс

ЕГРЮЛ Единый государственный реестр юридических лиц

НДС Налог на добавленную стоимость

ЭВМ Электронно-вычислительная машина

Сокращение Расшифровка

СКФО Северо-Кавказский Федеральный округ

ЦФО Центральный Федеральный округ

СЗФО Северо-Западный Федеральный округ

УФО Уральский Федеральный округ

ЮФО Южный Федеральный округ

СФО Сибирский Федеральный округ

ПФО Приволжский Федеральный округ

ДФО Дальневосточный Федеральный округ

юл Юридическое лицо

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Системный анализ и интегральные оценки многомерных объектов в задачах финансового мониторинга»

ВВЕДЕНИЕ

Задача системного анализа и интегральных оценок многомерных объектов часто возникает в различных фундаментальных и прикладных исследованиях. Как правило, эта задача обусловлена фундаментальной проблемой сравнения многомерных векторов, для которых отношения «больше-меньше» не определено, что приводит к ситуации «проклятия размерности». Решение этой проблемы сводится к снижению размерности решаемой задачи, что нашло отражение в разработке таких системных подходов как симплекс-метод, принцип Парето, метод ветвей и границ, методы факторного анализа и др. Анализ этих подходов, а также решений практических задач, который приведен в диссертации позволил прийти к выводу, что наиболее перспективным из этих методов является метод главных компонент факторного анализа.

При использовании этого метода анализируемые многомерные объекты приводятся к матрице типа «объект — свойства». Эта матрица путем линейных ортогональных преобразований приводится к главным осям гиперэллипсоида рассеивания в многомерном пространстве. Геометрический смысл этих преобразований сводится к переносу начала координат и последовательному применению матриц поворота. Алгебраический смысл этих преобразований сводится к решению вековых уравнений и отысканию собственных векторов и собственных значений. Так, например, в двумерном случае начало координат переносится в центр рассеивания исходных данных, а координатные оси совмещаются с главными осями эллипсоида рассеивания. Полуоси эллипсоида рассеивания принято называть главными компонентами. Длинна этих полуосей есть скаляр, который является линейной комбинацией исходных координат.

Таким образом, в основу метода главных компонент положена линейная модель. Если N — число исследуемых объектов, п — число признаков, то математическая модель принимает вид [12]:

г=1

где г= 1,2,...,я, у=1,2,...,и;/—г-я главная компонента; а]Г —вес г-ой компоненты в j-ой переменной; у'; -нормированное значение у-го признака, полученное из эксперимента, на основе наблюдения. В матричной форме выражение (1) имеет вид У=А1-[12].

Однако, сложность использования этого метода до последнего времени не позволяла его реализовать, в силу вычислительной трудоемкости, и, следовательно, требуется его модификация.

К задачам подобного типа относятся задачи финансового мониторинга. В таких задачах в качестве исследуемых многомерных объектов могут быть, например, субъекты финансовой деятельности, персонал, задействованный в сфере финансового мониторинга и другие объекты, которые могут быть заданы упорядоченным набором характеристик. Гипотеза автора сводилась к тому, что решение таких задач позволит оценить возможность использования указанных объектов в целях отмывания нелегальных денежных средств.

Однако, применение методов, ранее применявшихся в работах исследователей школы профессора Г.О. Крылова, привело к необозримым и трудно интерпретируемым результатам при решении задач финансового мониторинга, что потребовало модернизации этих методов. Такую модернизацию можно реализовать за счет учета корреляции компонент многомерных объектов, которым ставятся в соответствие, например, субъекты финансовой деятельности.

Таким образом, актуальность диссертационного исследования обусловлена необходимостью системного анализа и синтеза интегральных оценок многомерных объектов, которые заданы набором коррелированных показателей.

Объектами исследования в диссертации являются многомерные объекты, компоненты которых коррелированы.

Предметом исследования является модифицированный метод главных компонент факторного анализа и его интерпретации в прикладных областях.

Цель и задачи исследования заключается в решении задачи системного анализа и синтеза интегральных оценок многомерных объектов, разработке методов повышения качества принятия управленческих решений в сфере финансового мониторинга. Достижение поставленной цели предполагает решение следующих основных задач:

1. Постановка и формализация задачи системного анализа интегральных оценок многомерных объектов с коррелированными компонентами.

2. Выбор и обоснование метода решения задачи формирования интегральных оценок многомерных объектов.

3. Разработка алгоритма решения задачи формирования интегральных оценок многомерных объектов с коррелированными компонентами.

4. Разработка метода идентификации многомерных объектов с коррелированными компонентами на основе текущей информации.

5. Синтез интегральных оценок многомерных объектов с коррелированными компонентами.

6. Разработка методики ранжирования многомерных объектов.

Научная новизна

В диссертации получены следующие результаты, характеризующиеся научной новизной.

о Поставлена, формализована и решена задача системного анализа интегральных оценок многомерных объектов финансового мониторинга с коррелированными компонентами, о Предложен, обоснован и модифицирован алгоритм решения задачи формирования интегральных оценок многомерных объектов финансового мониторинга с коррелированными компонентами.

о Синтезированы интегральные оценки многомерных объектов с

коррелированными компонентами, о Создана методика ранжирования многомерных объектов, позволяющая осуществить классификацию объектов финансового мониторинга с коррелированными компонентами.

Практическая значимость

Результаты, полученные в ходе диссертационного исследования использованы в практической деятельности Росфинмониторинга для расчета показателя добросовестности юридических лиц, проводящих финансовые операции и сделки. Всего было обработано более 250 ООО юридических лиц, что позволило повысить эффективность работы аналитиков Росфинмониторинга в среднем на 85% по сравнению с традиционно применявшимися методиками анализа. Результаты диссертационного исследования также внедрены в учебный процесс на кафедре «Финансового мониторинга» факультета «Кибернетика и Информационная безопасность» НИЯУ МИФИ. Внедрение результатов подтверждается соответствующими актами.

Методы исследования

Для решения поставленных задач в работе применяются методы системного анализа, методы математической статистики, факторного анализа, численные методы линейной алгебры.

Диссертационная работа по своему содержанию соответствует пунктам 2,4, 5, 6 Паспорта специальности 05.13.01.

Апробация работы

Основные результаты диссертации докладывались на следующих всероссийских и международных семинарах и конференциях:

о II Международная научно-практическая конференция «Научный поиск в современном мире» (г. Москва, 2012 г.).

о V Международная заочная научно-практическая конференция «Научная дискуссия: Вопросы физики, математики, информатики» (г. Москва,

2012 г.).

о V Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Информационные технологии в науке, бизнесе и образовании» (г. Москва, Финансовый университет при правительстве Российской Федерации, 2012 г.). о I Международный конгресс по информационной безопасности национальных экономик в условиях глобализации «InfoSecurityFinance» (г. Москва, 2013 г.). о VI Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Информационные технологии в науке, бизнесе и образовании (технологии безопасности)» (г. Москва, Финансовый университет при правительстве Российской Федерации,

2013 г.).

Публикации результатов

Основные результаты диссертации опубликованы в 11 печатных работах, из них 5 статей в периодических научных изданиях, рекомендованных ВАК России (из них одна опубликована в журнале, представленном в базе цитирования Scopus), 5 работ в статьях и материалах конференций.

Личный вклад автора в проведение исследования

Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами. Объем и структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы, и изложена на 135 листах машинописного текста, в том числе основного текста на 123 листах. Работа иллюстрирована 16 таблицами и 26

рисунками. Список литературы содержит 87 источников, в том числе 28 на иностранных языках.

Положения, выносимые на защиту

1. Постановка и формализация задачи оценки многомерных объектов финансового мониторинга с коррелированными компонентами.

2. Модификация метода оценки многомерных объектов финансового мониторинга с коррелированными компонентами.

3. Алгоритм решения задачи интегральных оценок многомерных объектов финансового мониторинга с коррелированными компонентами.

4. Метод идентификации многомерных объектов финансового мониторинга с коррелированными компонентами на основе текущей информации.

5. Синтез интегральных оценок многомерных объектов с коррелированными компонентами.

6. Методика ранжирования многомерных объектов финансового мониторинга.

Достоверность и обоснованность результатов, полученных в диссертации, обусловлены доказательствами, опирающимися на методы системного анализа, методы математической статистики, факторного анализа, численные методы линейной алгебры.

Глава 1. Анализ предметной области и постановка задачи исследования

1.1. Сущность проблемы сравнения векторных показателей в прикладных отраслях. Проблема снижения размерности и различные методы её решения

Суть проблемы сравнения векторных показателей состоит в том, что результаты исследований в прикладных областях человеческих знаний (вычислительная техника, медицина, образование и т.п.), как правило, представляются в виде таблицы (матрицы) вида "объект — свойства": X = (Хь Х2, ..., Хп), где Xi=(jc/(1), xf2\ ..., х^})т - вектор значений анализируемых признаков (свойств) xfl\ хр\ ..., присущих /-ому объекту однако операция сравнения векторов не определена в математике, поэтому сравнить между собой объекты прикладной области часто представляется невозможным.

Например, в вычислительной технике давно стоит проблема сравнения вычислительной мощности ЭВМ различной архитектуры, работающих под операционными системами различных производителей. Существующие синтетические тесты производительности процессоров SPEC, drystone, wetstone мало говорят о производительности вычислительной системы в целом, а прагматические тесты типа WinBench, направлены на оценку производительности лишь для определённого круга задач, например связанных, в случае WinBench с офисной деятельностью. Кроме того вышеприведённые тесты не подходят для оценки производительности цифровых сигнальных процессоров, которые в настоящее время находят всё более широкое применение. (Данной проблеме посвящен сайт www.eembc.org).

Вышеприведённая проблема, как правило, решается переходом от многомерных наблюдений к одному интегральному показателю. Задача построения не поддающегося непосредственному измерению интегрального показателя по заданным значениям частных критериальных характеристик хР\ хр\ ..., xfp\ анализируемого объекта может рассматриваться как задача

снижения размерности исследуемого признакового пространства П(р)(Х) до единицы [7]. Однако, задача снижения размерности составляет, в свою очередь, отдельную проблему.

Проблема снижения размерности векторов заключается в том, что в исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число р признаков х(1), х(2\ ..., х(р), регистрируемых на каждом из множества обследуемых объектов (предприятий, пациентов, технических систем и пр.), очень велико — порядка ста и более. Тем не менее, для имеющихся многомерных наблюдений

XI = хР\ ..., хР)т, / = 1, 2,..., п (1.1.1)

необходимо провести статистическую обработку, осмыслить ее результаты, и, возможно, ввести в базу данных для того, чтобы иметь возможность их использовать в нужный момент.

Необходимость представления каждого из наблюдений (1.1.1) в виде вектора 2некоторых вспомогательных показателей г(Г), г(2),..., с существенно меньшим (чем р) числом компонент р' может быть обусловлена в первую очередь следующими причинами:

- требуется наглядное представление (визуализации) исходных данных (1.3.1). Это достигается проецированием данных на специально подобранное трехмерное пространство (р' = 3), плоскость (р' = 2) или числовую прямую (целенаправленное проецирование и томографический анализ);

- требуется лаконично представить исследуемые модели (например, для упрощения счета и интерпретации полученных статистических выводов);

- требуется существенно сжать объемы хранимой статистической информации (с минимальными потерями ее информативности), если говорить о записи и хранении массивов типа (1.1.1) в специальной базе данных.

При этом новые (вспомогательные) признаки г(]\ 2{1\ ..., г{рГ) могут быть выбранными из исходных или их можно определить по некоторому правилу по

совокупности исходных признаков, например, как их линейные комбинации. При формировании новой системы признаков к последним предъявляются различные требования, такие, как наибольшая информативность (в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т. п. При выборе варианта формальной конкретизации этих требований становится ясно, какой из алгоритмов снижения размерности отвечает в наибольшей степени условиям решаемой задачи.

Можно выделить, как минимум, три основных типа предпосылок, которые обусловливают возможность перехода от большого числа р исходных показателей состояния (поведения, эффективности функционирования) рассматриваемой системы к существенно меньшему числу р' переменных, которые являются наиболее информативными. Это, во-первых, дублирование информации, представленной сильно взаимосвязанными признаками; во-вторых, малая «вариабельность» признаков (то есть, неинформативность признаков, мало меняющихся при переходе от одного объекта к другому); в-третьих, возможность агрегирования, т. е. простого или «взвешенного» суммирования, по некоторым признакам.

Задача перехода (с наименьшими потерями в информативности) к новому набору признаков * (1), *(2), ..?(рГ) может быть описана следующим образом. Пусть Z - Z(X) — некоторая /7-мерная вектор-функция исходных переменных х(2), ..., х{р) (р'«р) и пусть 1Р{2{Х)) — определенным образом заданная мера информативности р-мерной системы признаков Z(J0 — (г(Х\Х), ..., г(рГ)(Х)). Выбор конкретного функционала 1Р< (X) непосредственно зависит от решаемой задачи и должен опираться на один из следующих критериев: критерий автоинформативности, представляющий собой максимальное сохранение

информации, содержащейся в исходном массиве относительно самих

исходных признаков; и критерий внешней информативности, то есть, получение

максимума из ' м " информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков найденного в классе ^ допустимых преобразований исходных показателей х(2\ х{р) что

1р,(2(Х))=ты{1р,(г(Х))}^ (1 л2)

При выборе того или иного варианта конкретизации этой постановки задачи, то есть, определение меры информативности 1Р{2) и класса допустимых преобразований, приводит к конкретному методу снижения размерности: методу экстремальной группировки параметров, к факторному анализу, методу главных компонент и подобным им методам.

1.2. Анализ существующих методов снижения размерности

1.2.1. экспертно-статистические и эвристические методы снижения

размерности

Очень часто в различных отраслях ставятся практические задачи оценки объектов или систем по различным наборам показателей. Таким образом, исследуемая система или объект (сложное изделие, отдельного специалиста, производственное предприятие) характеризуется набором поддающихся измерению частных критериальных показателей х(1), х(2), ..., х(р\ При этом, требуется перейти к некоторой не поддающейся непосредственному измерению скалярной интегральной оценке у. Так, например, возникает необходимость определить рейтинг футболиста, или оценить вклад отдельного специалиста при реализации группового проекта, решить, в какое предприятие выгоднее

инвестировать, и подобные задачи. При этом постулируется, что латентный показатель у является функцией известного общего вида от х(2), ..., х^, т. е. у =/(х(1), х(2), ..., х{р)\ 0), и требуется подобрать лишь неизвестное значение векторного параметра 0.

Для решения этой задачи исходную статистическую информацию вида (1.1.1) приходится обрабатывать одним из следующих видов экспертных оценок для получения искомого показателя у:

1) балльная оценка «выходного качества» у, т. е. значения у3\, уэг, ..., у-т оценок экспертов по определенной балльной шкале;

2) ранжирование анализируемых объектов, т. е. их упорядочение по степени убывания «выходного качества» у, получая таким образом ранг Яэ = {Я^} 1=1,...,п, то есть порядковые номера объектов в этом упорядоченном ряду;

3) результаты попарных сравнений анализируемых объектов по определенному «выходному качеству» или результат разбиения контрольной совокупности объектов на группы, которые однородны с точки зрения «выходного качества»; в обоих случаях экспертные оценки могут быть представлены с помощью булевой матрицы Г = (у^), I,} = 1,.. .,п, у,у = 1 если Ог, не хуже О;, и у,у = 0 в противном случае.

Алгоритмы определения неизвестного параметра 0 используют в качестве исходных статистические данные (1.1.1), дополненные одним из вариантов экспертных данных (вот почему метод называется экспертно-статистическим), и опираются на следующую идею. В том случае если известно значение параметра 0', можно было бы вычислить значение целевой функции у =/(х(1), х<2), ..., х(р); 0') для каждого из контрольных объектов и определить с помощью этой целевой функции и балльные оценкиуиуг, .-,Ут и ранг 11(0') = {Кг(©')}, /=1,...,и, и матрицу парных сравнений Г(0') = (у,у(©')).

Поэтому если необходимо формализовать с помощью целевой функции ДХ;0) экспертные критерийные оценки, в соответствии с которыми формируется

единым интегральный показатель «выходного качества» у, естественно подчинить

алгоритм поиска параметра 0 оптимизационному критерию вида [7]:

-1

>=1

г{яэмт

, вариант

1

1=1

, вариант

, вариант

(1.2.1)

(здесь под О) подразумевается коэффициент ранговой корреляции Спирмэна между ранжировками »5 и 0. Разработаны алгоритмы и программы, позволяющие вычислять © в задаче максимизации критерия /р- (2, (X; 0)) для всех трех вариантов

[7].

Применение таких методов для оценки мастерства спортсменов приведено в [2]. Вышеуказанными методами был проведен анализ макроструктура фондов потребления, результаты которого приведены в [8]. На основании данных методов был построен сводный показатель эффективности деятельности промышленных предприятий [9].

К недостаткам метода можно отнести то, что его реализация основана не только на статической информации об объектах, но и на использовании экспертных оценок анализируемого интегрального свойства. Эксперты, в свою очередь, могут оказаться политизированными, а также выносить свои оценки исходя из личных мотивов, что не может не влиять на объективность результатов. Существенным условием достоверности и эффективности этих методов представляется однозначное определение анализируемого интегрального свойства, а также компетентность и непредвзятость мнений привлекаемых к исследованию экспертов.

Далее будут рассмотрены методы, подчиненные некоторым частным целевым установкам (наименьшее искажение геометрической структуры исходных «выборочных точек», наименьшее искажение их эталонного разбиения на классы и т. д.), но не формулируемых в терминах вероятностно-статистической теории, в

отличие от других, рассматриваемых в главе методов. Однако, отсутствие строгой вероятностно-статистической модели, лежащей в основе тех или иных методов, не исключает возможности использования отдельных вероятностно-статистических понятий и соответствующей терминологии, как это имеет место, например, в методе экстремальной группировки признаков, в методе корреляционных плеяд и некоторых других. Процедура выбора целевой установки, подходящей именно для данной конкретной задачи, практически не формализована, носит эвристический характер, т.е., как правило, обусловливается лишь опытом и интуицией исследователя. Поэтому такие методы называют эвристическими.

При отсутствии априорной или выборочной предварительной информации о природе исследуемого вектора наблюдений и о генеральных совокупностях, из которых взяты эти наблюдения, точно в аналогичном невыгодном положении находятся и методы факторного анализа и главных компонент. Однако для них все-таки существует принципиальная возможность теоретического обоснования (при наличии соответствующей дополнительной информации), в то время как лишь некоторые из эвристических методов удается впоследствии теоретически обосновать в рамках строгой математической модели.

1.2.2. Многомерное шкалирование

Многомерное шкалирование — это совокупность методов, которые позволяют по заданной информации о мерах различия или близости между объектами рассматриваемой совокупности присваивать каждому из этих объектов вектор характеризующих его количественных показателей; при этом размерность искомого координатного пространства заранее задана, а помещение в него анализируемых объектов производится таким образом, чтобы структура взаимных различий или близостей между ними, измеренных с помощью присвоенных им вспомогательных координат, в среднем наименее отличалась бы от заданной, в

зависимости от того или иного функционала качества. Многомерное шкалирование применяется, когда данные представлены в виде матрицы попарных расстояний между объектами или удаленностей, или их порядковых отношений.

В таком случае исследователь в качестве массива исходных статистических данных имеет матрицу размера пхп, если рассматриваются характеристики попарной близости объектов, или рхр, если рассматриваются характеристики попарной близости признаков вида

р = {ру\ и 7=1,2...т, т-п или т = р (122)

где величины рц интерпретируются либо как расстояния между объектами (признаками) i и у, либо как ранги, задающие упорядочение этих расстояний. Задача многомерного шкалирования состоит в «размещении» объектов (признаков) в такомр -мерном пространстве (р'<< тт(р, п)), то есть таком выборе координатных осей ..., ОТР^ , чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (1.1.1) или (1.2.2), оказалась бы наименее искаженной при некотором критерии средней «степени искажения» Л{7) взаимных попарных расстояний.

Одна из достаточно общих схем многомерного шкалирования определяется критерием [27]:

(1.2.3)

где с1у — расстояние между объектами О,, и О/, в исходном пространстве, ^ ^{2) — расстояние между теми же объектами в искомом пространстве меньшей размерностир', а а и (3 — свободные параметры, конкретные значений которых выбирает исследователь.

Определив меру информативности искомого набора признаков X, например, как величину, обратную упомянутой выше величине степени искажения

геометрической структуры исходной совокупности точек, сведем эту задачу к

ш=

общей постановке (1.1.2), полагая

1+Ё<КД2)-Ч

Р

[27].

К недостаткам метода следует отнести то, что вычислительные процедуры весьма трудоемки (порядок числа умножений растет как и2). Классической метрической модели многомерного шкалирования и ее решению посвящены работы [25, 27, 32].

1.2.3. Метод экстремальной группировки признаков

и метод корреляционных плеяд

Метод экстремальной группировки признаков подразумевает разбиение исходной совокупности показателей на заданное число р' групп ..., таким образом, что признаки, принадлежащие одной группе, были бы взаимокоррелированы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелированы слабо. Одновременно происходит замена каждой (/-й) группы сильно коррелированных исходных показателей одним вспомогательным «равнодействующим» показателем г(г), который находится в тесной корреляционной связи с признаками своей группы. Определив в качестве класса допустимых преобразований ^ исходных показателей все нормированные (£>[г(г)] = 1, О — дисперсия случайной величины) линейные комбинации х(2), х^ находится решение (¿ь..., ¿у; ..., ъ^),

максимизируя (по и функционал

где г(х, г) — коэффициент корреляции между переменными хиг.

Метод корреляционных плеяд, равно как и метод экстремальной группировки, предназначен для нахождения таких групп признаков — «плеяд», в

которых корреляционная связь, т. е. сумма модулей коэффициентов корреляции между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (межплеядная) — мала. По определенному правилу по корреляционной матрице признаков образуется граф, который затем с помощью различных приемов разбивается на подграфы. Элементы, которые соответствуют каждому из подграфов, и составляют плеяду.

Нужно упорядочить признаки и принимать в рассмотрение только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Бекетнова, Юлия Михайловна, 2014 год

СПИСОК ЛИТЕРАТУРЫ

1. Абоян И.А., Левин Э.Г., Головко С.Ю. и др. Диагностика рака предстательной железы на основании серологической концентрации общего и свободного PSA и их соотношения // Актуальные вопросы лечения онкоурологических заболеваний / Материалы 3-й Всероссийской научной конференции с участием стран СНГ. 1999. С.61-62.

2. Абусев P.A., Лумельский Я.П. Несмещенные оценки и задачи классификации многомерных нормальных совокупностей // Теория вероятностей и ее применения. 1980. № 2. С. 381—389.

3. Айвазян С. А. Многомерный статистический анализ в социально-экономических исследованиях // Экономика и математические методы. 1977. Т. 13. Вып. 5. С. 968—985.

4. Айвазян С. А. Об опыте применения экспертно-статистического метода построения неизвестной целевой функции // Многомерный статистический анализ в социально-экономических исследованиях. М.: Наука, 1974. С. 56— 86.

5. Айвазян С.А., Бежаева 3. И., Староверов О.В. Классификация многомерных наблюдений. М.: Статистика, 1974. 240 с.

6. Айвазян С.А., Бухштабер В. М. Анализ данных, прикладная статистика и построение общей теории автоматической классификации // Методы анализа данных // Пер. с фр. М.: Финансы и статистика, 1985. С. 5—22.

7. Айвазян С.А., Бухштабер В. М., Енюков И. С. и др. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

8. Айвазян С.А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 472 с.

9. Айвазян С.Л., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985. 488 с.

Ю.Амосов A.A., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров. М.: Высшая школа, 1994. 542 с.

11 .Андерсон Т. Введение в многомерный статистический анализ // Пер. с англ. М.: ГИФМЛ, 1963. 500 с.

12.Андрукович П.Ф. Некоторые свойства метода главных компонент // Многомерный статистический анализ в социально-экономических исследованиях. М.: Наука, 1974. С. 189—228

И.Андрукович П.Ф. Применение метода главных компонент в практических исследованиях. Межфакультетская лаборатория статистических методов. М: Изд. МГУ, 1973. № 36. 124 с.

14.Беллман Р., Заде JI. Принятие решений в расплывчатых условиях // Вопросы анализа и процедуры принятия решений. М.: Мир, 1975. С. 172—215.

15.Бусленко Н. П. Моделирование сложных систем. М.: Наука, 1968. 355с.

16.Бухштабер В. М., Маслов В. К. Томографические методы анализа данных // Применение многомерного статистического анализа в экономике и оценке качества продукции. Тез. докл. 3 Всесоюз. науч.-техн. Конференции. Тарту, 1985. Ч. I. С. 33—42.

17.Бухштабер В. М., Маслов В. К. Факторный анализ и экстремальные задачи на многообразиях Грассмана. Математические методы решения экономических задач. М.: Наука, 1977. № 7. С. 87—102.

18.Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1973.416 с.

19.Вентцель Е. С. Теория вероятностей. М.: Наука, 1964. 576 с.

20.Выханду JI. К. Об исследовании многопризнаковых биологических систем // Применение математических подходов в биологии. Л.: Изд-во ЛГУ, 1964. С. 19—22.

21.Гантмахер Ф. Р. Теория матриц. М.: Наука, 1967. 575 с.

22.Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: Мир, 1999.

23.Дикушин Ф. А., Самойлов Д. А. Реинжиниринг системы управления лечебным учреждением // Тезисы докладов 2-ой Российской научной практической конференции Реинжиниринг бизнес-процессов на основе современных информационных технологий. М.: МЭСИ, 1998. С.37.

24.Дубров A.M. Последовательный анализ в статистической обработке информации. М.: Статистика, 1976. 160 с.

25.Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы. М.: Финансы и статистика, 2003. 352 с.

26.Дуда Р., Харт П. Распознавание образов и анализ сцен // Пер. с англ. М.: Мир, 1976.512 с.

27.Дэйвисон М. Многомерное шкалирование: методы наглядного представления данных // Пер. с англ. М.: Финансы и статистика, 1988. 254 с.

28.Ефимов Н. В. Квадратичные формы и матрицы. М.: Наука, 2012. 160 с.

29.Жуковская В.М., Мучник И.Б. Факторный анализ в социально-экономических исследованиях. М.: Статистика, 1976. 152 с.

ЗО.Зубков В.А., Осипов С.К. Российская Федерация в международной системе противодействия легализации (отмыванию) преступных доходов и финансированию терроризма. М: Спецкнига, 2007. С. 38 - 205.

31.Зубков В. А., Осипов С.К. Международные стандарты в сфере противодействия отмыванию преступных доходов и финансированию терроризма. М: Юриспруденция, 2010. С. 5-18.

32.ИберлаК. Факторный анализ. М.: Статистика, 1980. 389 с.

33.Каменский B.C. Методы и модели неметрического шкалирования // Автоматика и телемеханика, 1977. № 8. С. 118— 156.

34.Крылов В.И., Бобков В.В., Монастырный П.И. Вычислительные методы // М.: Наука, 1976. Т. 1.304 с.

35.Крылов В.И., Бобков В.В., Монастырный П.И. Вычислительные методы // М.: Наука, 1977. Т.2. 400 с.

36.Крылов Г.О., Агафонов В.П. Системный анализ исследования операций // Лекции. М.: МИРЭА, 1990. 216 с.

37.Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.: Мир, 1967. 144 с.

38.Лумельский В. Я. Агрегирование объектов на основе квадратичной матрицы // Автоматика и телемеханика. 1970. № 1. С. 133—143.

39.Максимов Г. К. Некоторые вопросы теории статистической группировки // Вести статистики. №2. 1974. С. 68-72.

40.Мэйндональд Дж. Вычислительные алгоритмы в прикладной статистике // М.: Финансы и статистика, 1988. 471 с.

41.06 информации, информационных технологиях и о защите информации: Федеральный Закон РФ от 27 июля .2006 г. № 149-ФЗ: принят Гос. Думой Федер. Собр. Рос. Федерации 8 июля 2006 г.: одобр. Советом Федерации Федер. Собр. Рос. Федерации 14 июля 2006 г. // Рос. Газ. — 2006. — 29 июля.

42.0 противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма: Федеральный Закон РФ от 7 августа 2001 г. № 115-ФЗ: принят Гос. Думой Федер. Собр. Рос. Федерации 13 июля 2001 г.: одобр. Советом Федерации Федер. Собр. Рос. Федерации 20 июля 2001 г. // Рос. Газ. — 2001. — 9 августа.

43.Окунь Я. Факторный анализ //Пер. с польск. М.: Статистика, 1974. 200 с.

44.0рлов А.И. Прикладная статистика // М: Экзамен, 2006. С.155- 204.

45.Парлетт Б. Симметричная проблема собственных значений. Численные методы. М.: Мир, 1983. 382 с.

46.Патрик Э. Основы теории распознавания образов /Пер. с англ. М.: Сов. радио, 1980.407 с.

47.Рао С. Р. Линейные статистические методы и их применения / Пер. с англ. М.: Наука, 1968. 547с.

48.Монастыный П.И. Сборник задач по методам вычислений // М.: Наука, 1994. 382с.

49.Селезнев В.М. Автоматизированный синтез интегральных оценок военно-медицинских объектов методом главных компонент // Диссертация на соискание ученой степени кандидата технических наук. 2000. С.9 - 20.

50.Терентьев П. В. Дальнейшее развитие метода корреляционных плеяд // Применение математических методов в биологии. 1960. № 1. С. 44—62.

51 .Терехина А. Ю. Анализ данных методами многомерного шкалирования. М.: Наука, 1986. 168 с.

52.Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978.416 с.

53.Турбович И. Т., Гитис В. Г., Маслов В. Г. Опознание образов. М.: Наука, 1971.246 с.

54.Уилкинсон Дж. Алгебраическая проблема собственных значений. М.: Наука, 1970.

55.Указания по медицинскому учету в Вооруженных Силах СССР на мирное время. М.: Воениздат, 1977. 328 с.

56.Форсайт Дж., Малкольм М., Моулер К. Машинные методы математических вычислений. М.: Мир, 1980.

57.Я.А. Фомин. Распознавание образов. Теория и применение // М.: Фазис, 2012. 432 с.

58.Фукунага К.. Введение в статистическую теорию распознавания образов // Пер, с англ. М.: Наука, 1979. 367 с.

59.Харман Г. Современный факторный анализ /Пер. с англ. М: Статистика, 1972. 486 с.

60.Aiwzian S. A. Probabilistic —Statistical Modelling of the Distributary Relations in Society // Private and Enlarged Consumption. — Ed. by L. Solari, Q. — N Du Pasquier North — Holland: Publishing Company Amsterdam — New York — Oxford. — 1976. — P. 285—247.

61.Anderson T. W., Rubin ff. Statistical inference in factor analysis. // Proc. 3 Berkeley Symp. Math. Statist, and Probab. — Univ. Calif. Press, 1956, 5. — P. 11—50.

62.Anderson T. W. Asymptotic theory for component analysis// Ann. Math. Statist. — 1963. — Vol. 34. — P. 122—148.

63.Andrukowich P. F. a. o. Abstract painting as a specific — Generale—Language. A Stat. Appr. to the problem//Metron XXIX.— 1971. —№ 1—2.

64.Abdi H. Partial least square regression, PLS - regression // Willey interdisciplinary reviews: computational statistics. 2010. Vol. 2. P. 97 — 106.

65.Bartlett M.S. Factor analysis in psychology as a statistician sees // Uppsala: Almqvist and Wiksell. 1953. P. 23—34.

66. Chen H., Reuss D., Hung D., Sick V. A practical guide for using proper orthogonal decomposition in engine research // International Journal of Engine Research. 2013. P. 307-319.

67.Chen H., Reuss D., Sick V. On the use and interpretation of proper orthogonal decomposition of in-cylinder engine flows // Measurement Science and Technology. 2012. P. 85 — 97.

68.Geiger B., Kubin G. Relative information loss in the PCA // IEEE Information theory workshop. 2012. P. 562 — 566.

69. Lu H., Plataniotis K.N., Venetsanopoulos A.N. A survey of multilinear substance learning for tensor data // Pattern recognition. 2011. Vol. 44 (7). P. 1540 —1551.

70.Devun S. J., Gnanadesikan R., Kettering J. R. Robust Estimation of Dispersion Matrices and Principal Components//J. Amer. Stat. Ass. — 1981. — Vol. 76. — P. 354—362.

71.Girshik M. A. Principal components // J. Amer. Stat. Ass.— 1936. —Vol. 31.— P. 519—528.

72.Holzinger K., Harman H. Factor analysis. — Univ. Chicago Press, 1941.

73.Jacobi C.G.J. Uber ein Leichtes Verfahren Die in der Theorie der Sacularstrouge Vorkommendem Gleichungen Numerisch Aufzulösen,// Crelle's ~ 1846 J. 30,5194.

74.Kruscal J. B. Monotone Regression: Continuity and Differentiability Properties // Psvchometrika. — 1971. — Vol. 36. —№ 1.— P. 57—63.

75.La Budde C.D. "Two Classes of Algorithms for Finding the Eigenvalues and Eigenvectors of Real Symmetric Matrices", J.ACM —1964. —11, 53-58.

76.Mays R. Interactive maximum reliability cluster analysis // Educational and Psychological

77.0kamoto M. Optimality Principal Components Multivariate Analysis // Proc. 3 Int. Symp. Dayton. — 1967.

78.0kamoto M., Kanazawa M. Minimization of Eigenvalues of a matrix and Optimality of principal components // Ann. Math. Statist. — 1968. — Vol. 39. — №3.

79.Rao C. .R.The use and interpretation of principal components analysis in applied research // Sankhya, A. — 1964. — Vol. 26.— № 4. — P. 329—358.

80.Rao C. R. Estimation and tests of significance in factor analysis // Psychometrika.

— 1955. — 20. — P. 93—111.

81.Rao C. R. Linear Statistical Inferences and its Applications.— N.-Y.: Wiley. 1965. 82.Sammon J. W. A nonlinear mapping for Data Structure Analysis // IEEE Trans.

Comput. — 1969. — C— 18.— № 5.—p. 401—409. 83.Shepard R. N. The analysis of proximités: multidimensional scaling with an

unknown distance function // Psychometrika. — 1962. — Vol. 27. — № 2—3. 84.Spearman C. General intelligence objectively determined and measured // Amer. J. Psychol. — 1904. — Vol. 15.— P. 201—293.

85.Takane Y., Young F. W., de Leeuw J. Nonmetric individual differences multidimensional scaling: an alternative least squares method with optimal scaling features // Psychometrika. — 1977. —Vol. 42. — №1.

86.Torgerson IF. S. Multidimensional Scaling. Theory and Method// Psychometrika.

— 1952. —Vol. 17. —№4.

87.Young F. W. Null C. H. Multidimensional scaling of nominal data: the recovery of metric information with ALSCAL // Psychometrika. — 1978: — Vol. 43. — №3.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.