Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Кучин, Иван Юрьевич
- Специальность ВАК РФ05.13.01
- Количество страниц 132
Оглавление диссертации кандидат технических наук Кучин, Иван Юрьевич
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМЫ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ПЕРСОНАЛЬНЫМ ДАННЫМ
1.1. Влияние свойств данных на методы их обработки
1.2. Описание категории «персональные данные»
1.3. Проблема идентификации по персональным данным
1.3.1. Анализ проблемы идентификации личности по персональным данным
1.3.2. Идентификация личности по персональным данным
1.3.3. Фактор связности данных
1.4. Построение модели оценки характеристики доступности персональных данных
1.4.1. Реальное положение дел с доступностью персональных данных на рынке информационных услуг
1.4.2. Влияние природы данных на их доступность
1.4.3. Желание субъекта добровольно раскрывать информацию о себе
1.4.4. Результаты оценки доступности данных
1.4.5. Проведение поискового эксперимента по оценке доступности персональных данных
1.5. Формирование общей схемы идентификации данных
1.5.1. Результаты оценки доступности данных
1.5.2. Анализ факторов, влияющих на информативность атрибутов
1.5.3. Влияние числа и распределение значений в атрибуте на его информативность
1.5.4. Влияние числа атрибутов и зависимости между ними на информативность
1.6. Обобщение проблемы идентификации личности по персональным данным
1.7. Выводы по первой главе
ГЛАВА 2. ПОИСК ЗАКОНОМЕРНОСТЕЙ В БАЗАХ С ПЕРСОНИФИЦИРОВАННОЙ ИНФОРМАЦИЕЙ
2.1. Поиск знаний в больших базах данных
2.2. Предлагаемые усовершенствования метода SSA-Гусеница
2.2.1. Этап разложение данных в методе SSA
2.2.2. Этап восстановления ряда в модели SSA
2.2.3. Диагональное усреднение
2.2.4. Параметры и предлагаемые методы
2.3. Возможная реализация метода SSA-Гусеница
2.4. Нахождение скрытых закономерностей в базах с персональными данными
2.5. Использования персонифицированной информации в качестве объекта поиска знаний методами Data Mining
2.6. Выводы по второй главе
ГЛАВА 3. ОБЕЗЛИЧИВАНИЕ ПЕРСОНАЛЬНЫХ ДАННЫХ
3.1. Актуальность и классификация подходов обезличивания
3.2. Атака на основе связей («join attack»)
3 3. Обезличивание методом сокращения идентифицирующей способности базы данных
3.3.1. Модель «А>анонимности»
3.3.2. ^-минимальное обезличивание
3.3.3. Оценка сложности модели ^-минимального обезличивания
Обобщенные данные предложенных алгоритмов для решения проблемы к-минимального обезличивания приведены в таблице 3.3
3.3.4. Выводы по методу обезличивания путем сокращения идентифицирующей способности информации
3.4. Обезличивание путем использования недоступных идентификаторов
3.4.1. Описание метода обезличивания
3.4.2. Варианты обеспечения безопасности «базы-справочника»
3.5. Достоинства и недостатки существующих методов обезличивания
3.6. Обезличивания с использованием неполных идентификаторов с возможностью восстановления
3.6.1. Формализация предлагаемого метода обезличивания
3.6.2. Алгоритм «обезличивания с восстановлением»
3.6.3. Тестирование предложенного метода обезличивания на базе реальной базе данных. Обсуждение результатов
3.7. Обезличивания путем привязки к графу операционной системы
3.8. Выводы по третьей главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах2013 год, кандидат технических наук Волокитина, Евгения Сергеевна
Моделирование процессов обезличивания персональных данных и оценка эффективности используемых методов на основе модели нарушителя2023 год, кандидат наук Мищенко Евгений Юрьевич
Защита персональных данных в информационных системах методом обезличивания2011 год, кандидат технических наук Шередин, Роман Валериевич
Методологические основы разработки персонифицированной модели философского знания с использованием компьютерной техники2006 год, кандидат философских наук Каверин, Олег Борисович
Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях2004 год, кандидат технических наук Муратова, Елена Анатольевна
Введение диссертации (часть автореферата) на тему «Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей»
ВВЕДЕНИЕ
Активное внедрение информационных технологий для повышения эффективности управления привело к формированию больших объемов собранных данных. Количественный рост информации в настоящее время приводит к накоплению качественно новых знаний [43, 63]. Традиционные методы обработки накопленных данных, не дают эффективных подходов для ее интеллектуального анализа, в отличие от методов нового и активно развивающегося научного направления Data Mining, нацеленного на поиск ранее неизвестных знаний.
Особый интерес в качестве объекта поиска новых закономерностей представляет персонифицированная информация или персональные данные (ПДн), т.е. информация, генерируемая или так или иначе связанная с конкретной личностью. Значительная потребность в использовании этой информации и ее анализе, в том числе методами Data Mining, в настоящее время испытывается в двух сферах: в бизнес аналитике (в основном для понимания и прогнозирования покупательских предпочтений людей) и сфере государственных услуг (в связи с активным переводом услуг населения в электронный формат: единая карта гражданина РФ, электронные очереди, электронное правительство и прочие сервисы).
В рамках указанной обработки персонифицированной информации все острее проявляются противоречия требований интеллектуального анализа данных и сохранения приватности личности при использовании ее данных. Так 34,7% организаций [93], обрабатывающих персональные данные, в качестве основного препятствия к использованию их в качестве объекта исследования называют неясность положений Федерального закона №152 «О персональных данных»[102]. В частности, законодательно установлено, но не регламентировано требование проведения предварительной процедуры обезличивания персональных данных перед их исследованием [102, Ст.6 п.9], что значительно препятствует полноценному и безопасному их использованию в качестве объекта поиска новых знаний.
С учетом всего вышесказанного в настоящее время возникает столкновение интересов, связанных с обработкой электронной персонифицированной информацией следующих сторон: бизнес, государства и субъекты персональных данных вместе с контролирующими органами, регулирующими вопросы обеспечения безопасной обработки этих данных. Полное выполнение требований одной из сторон непременно
вступает в конфликт с требованиями другой стороны. Единственным и естественным решением этого противоречия является использование методов обезличивания.
Направлением Data Mining занимались и продолжают заниматься многие российские и зарубежные ученые: Г. Пиатецкий-Шапиро [63], A.B. Дюк [47], И.А. Чубукова [105], Н. Edelstein [17] и др. Использование методов Data Mining применительно к анализу персонифицированной информации без угрозы приватности личности рассмотрены в работах: P.Samarati [21,23], G.Aggarwal [18], RJ Bayardo [10] и др. Наконец, вопросами обезличивания персональных данных в нашей стране посвящены работы: С.Д. Рябко [88], Е.А. Саксонова [91], Р.В.Шередина [91] и др.
Диссертационная работа посвящена разработке альтернативной модели обезличивания персональных данных, позволяющей подготовить данные к анализу методами Data Mining и решить задачу безопасного использования данных по достижению первичных целей их обработки. В работе проверяется возможность использования некоторых методов аппарата анализа временных рядов на базах с персонифицированной информацией и предлагаются усовершенствования существующего метода. Кроме того, предложена новая процедура защитного преобразования данных, зависящая от параметров конкретной среды реализации, для повышения безопасности ее применения. Указанные мероприятия должны способствовать развитию эффективной и в то же время безопасной обработки ПДн, чем и обосновывается актуальность темы диссертационного исследования.
Объект исследования - базы данных с персонифицированной информацией жителей РФ, находящиеся в свободном доступе в сети Интернет.
Предмет исследования - методы, модели и алгоритмы обработки больших наборов персонифицированных данных.
Целью диссертационного исследования - повышение эффективности анализа, поиска новых знаний и безопасной обработки на основе обезличивания персонифицированной информации.
Задачи исследования:
1. Разработка способов оценки свойств персонифицированной информации на основе построения их классификационной структуры;
2. Модификация метода S SA-Гусеница для решения задач DataMining применительно к персональным данным;
3. Построение модели и алгоритма обезличивания данных, позволяющих при необходимости восстанавливать исходные данные;
4. Разработка алгоритма защитного преобразования, зависящего от параметров конкретной операционной среды обработки.
Методы исследования. В процессе работы использовались методы системного анализа, математического моделирования, теории вероятностей, математической статистики, графов.
Достоверность и обоснованность подтверждена результатами компьютерных экспериментов и внедрением работы в ООО «Новая Клиника» (г. Астрахань).
Научная новизна:
1. Сформирована классификационная структура свойств персональных данных вместе со способами оценки этих свойств, которые позволяют повысить степень эффективности и безопасности обработки данных в процессе поиска новых знаний;
2. Модифицирован метод 88А-Гусеница применительно к анализу данных, не являющихся временными рядами, а также разработана процедура эффективного выбора длины окна, позволяющая результативнее определять характеристики регулярных составляющих в базах данных;
3. Предложена новая модель обезличивания, усовершенствующая модель «к-анонимности» и обеспечивающая более высокий уровень функциональности, по сравнению с последней, за счет реализации возможности восстановления
обезличенной информации;
4. Разработан новый алгоритм защитного преобразования данных, который обеспечивает адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
Практическая значимость.
1. Полученные в работе количественные оценки свойств баз данных с персонифицированной информацией могут быть использованы для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных;
2. Модифицированный метод 88А-Гусеница позволяет применять различные варианты этого метода для анализа данных, не являющихся временными рядами;
3. Разработанный в работе алгоритм обезличивания данных может быть использован для безопасного хранения и обработки персональных данных в коммерческих целях.
Апробация работы. Основные положения и отдельные результаты диссертации докладывались и обсуждались на Международной научно-технической конференции «Современные информационные технологии - 2011» (Пенза, 2011), Международной конференции по информационной безопасности «Info Security Russia» (Москва, 2010), I международной научно-практической конференции «Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств» (Астрахань, 2008), Международной отраслевой научной конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010).
Публикации. Основные результаты диссертационного исследования опубликованы в 6 печатных работах: 3 статьях в журналах из списка, рекомендованного ВАК РФ, 3 материалах и трудах конференций. Все работы опубликованы без соавторов.
Структура и объем работы. Работа состоит из введения, 3 глав, заключения, списка литературы из 106 наименований и 5 приложений. Основная часть работы изложена на 117 страницах машинописного текста, содержит 17 таблиц и 45 рисунков.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Односторонняя интеграция информационных систем в территориально распределённых организациях2009 год, кандидат технических наук Тарханов, Иван Александрович
Многоагентная система для поиска и обработки тематико-ориентированной информации2007 год, кандидат технических наук Карцан, Игорь Николаевич
Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах2010 год, кандидат технических наук Терехов, Алексей Андреевич
Модели и процедуры построения программ- агентов для формирования семантической сети2004 год, кандидат экономических наук Хмельницкий, Николай Георгиевич
Методы и алгоритмы построения информационных систем персональных данных в защищенном исполнении2013 год, кандидат технических наук Куракин, Александр Сергеевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Кучин, Иван Юрьевич
3.8. Выводы по третьей главе
1. Были рассмотрены различные походы к обезличиванию, принципы, на которых они основаны, и их практическая значимость;
2. Предложена новая модель обезличивания, позволяющая подготавливать данные к анализу методами Data Mining и решать задачу безопасного использования данных по достижению первичных целей их обработки;
3. Разработан алгоритм реализации предложенной модели, использующий результаты выявленных закономерностей в часто встречаемых атрибутах баз персональных данных, который будучи реализованным в виде программы для ЭВМ, показал свою пригодность для решения поставленной задачи на реальной базе данных.
4. Предложен новый алгоритм защитного преобразования данных, обеспечивающий адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
ЗАКЛЮЧЕНИЕ
1. Сформирована классификационная структура свойств персонифицированной информации и предложены способы количественной оценки их характеристик, что позволяет использовать их для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных.
2. Проведен ряд поисковых экспериментов с использованием сети Интернет с целью выявления степени доступности персонифицированной информации. На основе статистических характеристик атрибутов баз персональных данных, полученных в ходе поискового эксперимента (объем данных - более 16 млн. записей), выявлены закономерности, которым подчинены персональные данные. Полученные закономерности позволяют провести классификацию идентификаторов личности по степени их доступности и адаптировать механизмы защиты данных с учетом результатов классификации.
3. Модифицирован метод 88А-Гусеница, позволяющий использовать аппарат исследования временных рядов для анализа БД произвольного содержания.
4. Предложена новая процедура поиска длины окна для метода 88А-Гусеница. Продемонстрирована эффективность разработанной процедуры в задачах выявления скрытых периодических закономерностей, в частности, было отмечено уменьшение времени поиска длины окна в 6 раз, по сравнению с направленным перебором для базы данных объемом 2000 записей.
5. Разработана модель обезличивания персональных данных, совмещающая в себе существующие подходы к обезличиванию и позволяющая решать задачи, для которых пока не существовало эффективных решений. Разработан алгоритм обезличивания, реализующий предлагаемую модель, который был успешно апробирован на базе данных негосударственного пенсионного фонда.
6. Предложен новый алгоритм защитного преобразования данных, обеспечивающий адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
Список литературы диссертационного исследования кандидат технических наук Кучин, Иван Юрьевич, 2012 год
СПИСОК ЛИТЕРАТУРЫ
1. A Globally Optimal k-Anonymity Method for the De-Identification of Health Data. / К. E. Emam et al. // Journal of the American Medical Informatics Association. -September/Octember 2009. - Vol. 16, №5. - P. 670-682.
2. An Ad Omnia Approach to Defining and Achieving Private Data Analysis / C. Dwork // Microsoft Research: Springer-Verlag Berlin Heidelberg. - 2008. - P. 1-13.
3. An efficient hash-based algorithm for minimal k-anonymity / X. Sun, M. Li, H. Wang, A. Plank // CRPIT, Australia, 2008. - Vol. 74. - P. 101-107.
4. An Empirical Study of Operating System Errors. / A. Chou, J. Yang, B. Chelf, S. Hallem, D. Engler. - [Электронный ресурс]. - URL: http://pdos.csail.mit.edU/6.097/readings/osbugs.pdf(дата обращения: 23.09.2011г.).
5. Anonymization-Based Attacks in Privacy-Preserving Data Publishing / R. C.-W. Wong, A. W.-C. Fu, K. Wang, J. Pei // ACM Transactions on Database Systems. - June 2009. - Vol. 34, No. 2, Article 8. - P. 8:1 - 8:46, App-1 - App-12.
6. Broomhead D., King G. Extracting qualitative dynamics from experimental data. // Physica D. - 1986. - Vol. 20. - P. 217-236.
7. Cadzow J. A. Signal Enhancement - A Composite Property Mapping Algorithm // IEEE Transactions on Acoustics, Speech and Signal Processing. - 1988. - Vol. 36. - P. 49-62.
8. Can We Make Operating Systems Reliable and Secure? / Andrew S. Tanenbaum, Jorrit N. Herder, Herbert Bos. - [Электронный ресурс]. - URL: http://www.cs.vu.nl/~ast/reliable-os/ (дата обращения: 17.08.2011г.).
9. Ciriani V. k-Anonymity / V. Ciriani, S. De Capitani di Vimercati, S. Foresti, P. Samarati // Springer US, Advances in Information Security. - 2007. - 36 p.
10. Data Privacy Through Optimal k-Anonymization / R. J. Bayardo, R. Agrawal // ICDE 2005. - 2005. - P. 217-228.
11. Eisner J. В., Tsonis A. A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. New York, London: Plenum Press, 1996. - 164 p.
12. Enhanced P-Sensitive K-Anonymity Models for Privacy Preserving Data Publishing / X. Sun, H. Wang, J. Li, T. M. Truta // Transactions on Data Privacy. - 2008. №1. - P. 53-66.
13. Generalizing Data to Provide Anonymity when Disclosing Information (Extended Abstract) / P. Samarati, L. Sweeney // ACM, 1998. - [Электронный ресурс]: ACM Digital Library. - URL: http://dl.acm.org/citation.cfm?id=275487.275508 (дата обращения: 4.08.2011г.).
14. Golyandina N. E., Nekrutkin Y. V., Zhigljavsky A. A. Analysis of Time Series Structure: SSA and Related Techniques. Boca Raton: Chapmap & Hall/CRC, 2001. - 305 p.
15. Guide to Protecting the Confidentiality of Personally Identifiable Information (PII): Recommendatios of the NIST / E. McCallister, T. Grance, K. Scarfone // NIST Special Publication 800-122, U.S., 2010. - [Электронный ресурс]. Режим доступа свободный. - URL: http://csrc.nist.gov/publications/nistpubs/800-122/sp800-122.pdf (дата обращения: 4.10.2011г.).
16. Incognito: Efficient Full-Domain K-Anonymity / К. LeFevre, D. J. DeWitt, R. Ramakrishnan // SIGMOD Conference, 2005. - P. 49-60.
17. Introduction to data mining and knowledge discovery. / Herbert A. Edelstein // Two Crows Corporation. - 1999. - 40 p.
18. Managing and mining graph data. / Charu C. Aggarwal, Haixun Wang. Boston/Dordrecht/London: Kluwer Academic Publishers. - 2010 - 608 p.
19. On the Complexity of the k-Anonymization Problem / Venkatesan T. Chakaravarthy, Vinayaka Pandit, Yogish Sabharwal // IBM Research - India, New Delhi and Bengaluru. arXiv:1004.4729vl [cs.CC] - 27 Apr 2010. - 9 p. - [Электронный ресурс]: Cornell University Library. - URL: http://arxiv.org/abs/1004.4729 (дата обращения: 23.07.2011г.).
20. POkA: Identifying Pareto-Optimal k-Anonymous Nodes in a Domain Heirarchy Lattice / Rinku Dewri, Indrajit Ray, Indrakshi Ray, Darrell Whitley // CIKM, 2009. - P. 1037-1046.
21. Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression / P. Samarati, L. Sweeney // Tech Report, Computer Science Laboratory, SRI International, 1998. - 19 p.
22. Providing k-Anonimity in Data Mining / A. Friedman, R. Wolff, A. Schuster // The VLDB Journal, 2008. - Vol. 17, №4. - P. 789-804.
23. Samarati P. Protecting Respondents' Identities in Microdata Release / IEEE transactions on knowledge and data engineering. - November/December 2001. - Vol. 13, №6.-P. 1010-1027.
24. Simple software flow analusis using GNU cflow. / Chaos Golubitsky. -[Электронный ресурс]. - URL: http://www.glassonion.org/ (дата обращения: 13.08.2011г.).
25. Software Errors and Complexity. An Empirical Investigation. / V. Basili, B. Perricone // Communications of the ACM. - January 1984. - Vol. 27, №1. -[Электронный ресурс]: Departament of Computer Science University of Mariland. - URL: http ://www.cs.umd.edu/~basili/publications/j ournals/J20 .pdf (дата обращения: 20.09.2011г.).
26. Sweeney L. k-anonymity: a model for protecting privacy. // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. - 2002. - №10(5). - P. 557-570.
27. Vautard R., Yiou P., Chil M„ Singular-spectrum analysis: A toolkit for short, noisy chaotic signals // Physica D. - 1992. - Vol. 58. - P. 95-126.
28. Александров Ф. И., Голяндина H. Э. Автоматизация выделения трендовых и периодических составляющих временного ряда в рамках метода «Гусеница»-88А. // Методы. Алгоритмы. Программы. - 2004. - № 3-4 (7-8). - С. 54-61.
29. Александров Ф. И. Разработка программного комплекса автоматического выделения и прогноза аддитивных компонент временных рядов в рамках метода «Гусеница»-SSА.: дис. ... канд. физ.-мат. наук: 05.13.18. Санкт-Петербург, 2006. - 152 с.
30. Бахмутский M.J1. Алгоритм выделения тренда зашумленных больших временных рядов. // Международный журнал «Программные продукты и системы». 2011, №4. [13.12.2011]. - [Электронный ресурс]. - URL: http://swsys.ru/index.php?page=article&id=2908 (дата обращения 10.01.2012).
31. Большаков, А.А. Методы обработки многомерных данных и временных рядов / Учебное пособие для вузов: А.А. Большаков, P.M. Каримов. - М.: Горячая линия-Телеком, 2007. - 522с.
32. Бонгард М. М. О понятии «полезная информация». // Проблемы кибернетики. / М., 1963. - 187 с.
33. Бонгард M. M. Проблема узнавания. Москва: Издательство «Наука», 1967. -320 с.
34. Брейман А. Д. Математическое и программное обеспечение адаптивных систем персональных баз данных: автореф. дис. ... док. тех. наук: 05.13.11. Москва, 2007. - 34 с.
35. Буй Д., Глушко И. Обобщенное исчисление на домене. / Markov К., Velychko V., Voloshin О. // Information Models of Knowledge. / Kiev - Sofia: Ithea, 2010. - C. 392-397. - ISBN 978-954-16-0048-1.
36. Бухштабер В. M. Многомерные развертки временных рядов. Теоретические основы и алгоритмы // Обозрение прикл. промышл. матем. Сер. Вероятн. и статист. -1997. - Т. 4, вып. 4. - С. 629-645.
37. Вельдер И. А. Система правовой защиты персональных данных в Европейском Союзе: дис. ... канд. юр. наук: 12.00.10. Казань, 2006. - 164 с.
38. Гарфинкель С. Все под контролем: Кто и как следит за тобой. Екатеринбург: У-Фактория, 2004. - 228 с.
39. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д. JI. Данилова, А. А. Жиглявского. СПб.: Пресском, 1997. - 308 с.
40. Гмурман В. Е. Теория вероятностей и математическая статистика: учеб. пособие для вузов. 9-е изд., стер. М.: Высш. шк., 2003. - 479 с.
41. Голяндина Н. Э. Метод «Гусеница»-S SA: анализ временных рядов: учеб. пособие. СПб., 2004. - 76 с.
42. Голяндина Н. Э. Метод «Гусеница»-88А: прогноз временных рядов: учеб. пособие. СПб., 2004. - 52 с.
43. Груман Г. Информационный потенциал больших данных. // Технологический прогноз. Большие данные: как извлечь из них информацию: ежеквартальный журнал. Российское издание. - 2010. - Вып. 3. - С. 15-24.
44. Гусятников В.Н. Эффективность алгоритмов сопоставления персональных данных. // Международный журнал «Программные продукты и системы». 2011, №1. [10.03.2011]. - [Электронный ресурс]. - URL: http://www.swsys.ra/index.php?page=article&id=2726 (дата обращения: 20.09.2011г.).
45. Дементеева А. А. Защита персональных данных: метод, рек. для руководителей служб здравоохранения Краснодарского края [Текст] / А. А.
Дементеева, Е. В. Дерябин; под ред. JI. Н. Шмыгленко, В, Н. Зиманина. - Краснодар: ГУЗ МИАЦ, 2010. - 88 с.
46. Добыча данных в сверхбольших базах данных / В. Ганти, Й. Герке, Р. Рамакришнан // Открытые системы. - 1999. - №09-10. - С. 38-45.
47. Дюк В. А. Поиск сложных непериодических шаблонов в последовательности чисел и символов методами локальной геометрии // Труды СПИИРАН. / СПб: СПИИРАН, 2002. - Т.2, вып. 1. - С. 263-268.
48. Заявление Пенсионного Фонда России, 11 мая 2011 года. - [Электронный ресурс]: Пенсионный Фонд Российской Федерации. - URL: http://www.pfrf.ru/press_center/31902.html (дата обращения: 13.08.2011г.).
49. Интернет-архив Waybackmachine. - [Электронный ресурс]. - URL: http://www.archive.org/ (дата обращения: 13.09.2011г.).
50. ИСС «LARIX - 2011 Версия Professional Лето 2011 года». - [Электронный ресурс]: Сайт Московского центра экономической безопасности. - URL: http://www.businessinfo.ru/product_2527.html (дата обращения: 20.09.2011г.).
51. Канн Д.А., Лебедев И.С., Сухопаров Е.А. Идентификация объектов текста в информационных системах. // Международный журнал «Программные продукты и системы». 2009, №2. [17.06.2009]. - [Электронный ресурс]. - URL: http://www.swsys.ru/index.php?page=article&id=2279 (дата обращения: 14.09.2011г.).
52. Корогодин В. И., Корогодина В. Л. Информация как основа жизни. Дубна: Издательский центр «Феникс», 2000. - 208 с.
53. Криминалистика: издание второе, переработанное и дополненное. / Под ред. проф. И.Ф. Герасимова и проф. Я.Я. Драпкина. Москва: «Высшая школа», 2000. -672 е.- УДК 343.98 ББК 67.52 К 82.
54. Кристофидес Н. Теория графов. Алгоритмический подход. / Перевод на русский // Москва: изд. «Мир», 1978. - 432 с.
55. Курош А. Г. Курс высшей алгебры. М.: Наука, 1968. - 432с.
56. Кучин И.Ю. Анализ и классификация проблем обработки персонифицированной информации в медицинских учреждениях // Астраханский медицинский журнал. - 2011. - Т.6, № 4. - С. 119-123.
57. Кучин И.Ю. Анализ программных средств информационной среды с помощью методов теории графов. // Сб. трудов I международной научно-
практической конференции «Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств». Астрахань: ООО «Типография «Нова», 2008.-С. 178-180.
58. Кучин И.Ю. Защита конфиденциальности персональных данных с помощью обезличивания // Вестник АГТУ. Серия «Управление, вычислительная техника и информатика». - 2010. - №2. - С. 158-162.
59. Кучин И. Ю. Некоторые вопросы по защите персональных данных // Сб. статей международной научно-технической конференции «CIT conference». Пенза: Пензенская гос. тех. академия, 2010. -Вып.12. - С. 126-130.
60. Кучин И.Ю. Новации в проблематике обезличения персональных данных // Информационная безопасность регионов. - 2011. - №2(9). - С. 13-17.
61. Кучин И.Ю. Обзор существующих методов анализа программного кода // Актуальные проблемы гуманитарных и естественных наук. Москва. - 2012. -№02(37). - С. 94-98.
62. Лав Р. Разработка ядра Linux: 2 издание. СПб.: Издательство «Вильяме»,
2006. - 448 с.
63. Левкович-Маслюк Л. Великие раскопки и великие вызовы. // Компьютера. -
2007. -№11(679). - С. 48-51.
64. Матвеев Ю.Н. Детектирование аномальных информативных признаков в сигналах для предиагностики дефектов оборудования. // Международный журнал «Программные продукты и системы». 2006, №3. [20.03.2006]. - [Электронный ресурс]. - URL: http://www.swsys.ru/iiidex.php?page=article&id=481 (дата обращения: 14.09.2011г.).
65. Матвеев Ю.Н., Гаганов П.Г., Азарова Л.В. Детектирование аномальных информативных признаков в стационарных технологических процессах // Программные продукты и системы. - 2004. - №1. - С. 38-41.
66. Медико-криминалистическая идентификация. Настольная книга судебно-медицинского эксперта. / Под общ. ред. д.м.н., проф. В. В. Томилина. // М.: Издательская группа НОРМА-ИНФРА-М, 2000. - 472 с.
67. Модели оценки ценности информации. - [Электронный ресурс]: Википедия. Свободная энциклопедия. - URL: http://ru.wikipedia.org/wiki/ (дата обращения: 25.11.2011г.).
68. О чем врут пользователи социальных сетей. Пресс-выпуск №1691. -[Электронный ресурс]: ВЦИОМ: Всероссийский центр изучения общественного мнения. - URL: http://wciom.ra/index.php?id=459&uid=l 11364 (дата обращения: 25.08.2011г.).
69. Обезличивание персональных данных. - [Электронный ресурс]. - URL: http://sbchel.ru/news/obezlichivanie-personalnykh-dannykh.html (дата обращения: 20.07.2011г.).
70. Обобщенные предложения органов государственной власти и заинтересованных организаций по гармонизации законодательства в сфере персональных данных. - [Электронный ресурс]: Портал персональных данных. -URL: http://pd.rsoc.ru/ (дата обращения: 10.12.2011г.).
71. Омаров В. О подходах по минимизации выполнения требований закона «О персональных данных». - [Электронный ресурс]: ИСПДн.ру. - URL: http://www.ispdn.ru/publications/omarov.pdf (дата обращения: 27.08.2011г.).
72. Островский А. М. О компьютерных технологиях поиска эмпирических закономерностей в базах данных. // Социология: 4M. - 2008. - №27. - С. 140-157.
73. Официальный сайт разработчиков метода анализа и прогноза временных рядов «Гусеница». - [Электронный ресурс]. - URL: http://www.gistatgroup.com/ (дата обращения: 1.12.2011г.).
74. Официальный сайт пакета анализа данных и построения графиков Origin Lab. - [Электронный ресурс]. - URL: http://www.originlab.ru/ (дата обращения: 17.07.2011г.).
75. Официальный сайт Российского хемометрического общества. [Электронный ресурс]. - URL: http://rcs.chph.ras.ru/ (дата обращения: 27.12.2011г.).
76. Паспортом по лицу. - [Электронный ресурс]: Газета «Ведомости». Архив. -Доступ к статье имеют только подписчики электронной версии. URL: http://www.vedomosti.ru/newspaper/article/103246/ (дата обращения: 28.06.2011г.).
77. Петрыкина Н.И. Правовое регулирование оборота персональных данных в России и странах ЕС (сравнительно-правовое исследование): дис. ... канд. юр. наук: 12.00.14. Москва, 2007. - 173 с.
78. Подсчитано число пользователей Интернета в России в 2011 году. -[Электронный ресурс]: Взгляд. Деловая газета. - URL: http://vz.ru/news/201 l/12/27/550090.html (дата обращения: 12.01.2012г.).
79. Портал статистики сайтов и ведения онлайн-дневников. - [Электронный ресурс]. - URL: http://www.Hveinternet.ru/rating/ru/ (дата обращения 30.08.2011г.).
80. Постановление Правительства РФ от 15.09.08г. № 687. - [Электронный ресурс]. - URL: http://ispdn.ru/law/532/ (дата обращения: 4.06.2011г.).
81. Постановление Правительства Российской Федерации от 17 ноября 2007г. №781 «Об утверждении Положения об обеспечении безопасности персональных данных при их обработке в информационных системах персональных данных» // РГ. -Федеральный выпуск №4523. - 21 ноября 2007.
82. Приказ ФСТЭК России №58 «Об утверждении положения о методах и способах защиты информации в информационных системах персональных данных». -[Электронный ресурс]. - URL: http://www.fstec.ru/_docs/doc_781.htm (дата обращения: 4.06.2011г.).
83. Приказ ФСТЭК, ФСБ, Мининформсвязи 13.02.08 г. № 55/86/20 «Порядок проведения классификации информационных систем персональных данных». -[Электронный ресурс]. - URL: http://ispdn.ru/law/530/ (дата обращения: 4.06.2011г.).
84. Просветова О.Б. Защита персональных данных: дис. ... канд. юр. наук: 05.13.19. Воронеж, 2005. - 193 с.
85. Прохоров А. Ю. Политико-правовые технологии ограничения свободы слова в современных средствах массовой информации: на примере сети Интернет: дис.... канд. юр. наук: 23.00.02. Ростов-на-Дону, 2007. - 169 с.
86. Прохоров А.Ю., Сотников А.Н. Поиск во временном ряде фрагментов, «похожих» на заданный шаблон. // Международный журнал «Программные продукты и системы». 2003, №3. [24.09.2003]. - [Электронный ресурс]. - URL: http://swsys.ru/index.php ?page=article&id=623 (дата обращения: 03.11.2011г.).
87. Руководство по обеспечению конфиденциальности персональных данных (ПДн): Рекомендации Национального института стандартов и технологий. / Э. МакКалистер, Т. ГрансКарен, Скарфоун. - 36 с. - [Электронный ресурс]. - URL: http://www.ispdn.ru/ (дата обращения: 10.10.2011г.).
88. Рябко С.Д. Об обезличивании персональных данных. - [Электронный ресурс]: Журнал «Information Security / Информационная безопасность». 2009, №5. -URL: http://www.itsec.ru/articles2/focus/ob-obezlichivanii-personaljnyh-dannyh (дата обращения: 13.11.2011г.).
89. Сайт Московского центра экономической безопасности. - [Электронный ресурс]. - URL: http://www.mceb.ru (дата обращения: 14.10.2011г.), http://www.businessinfo.ru (дата обращения: 14.10.2011г.).
90. Сайт статистики посещаемости Интернет-ресурсов компании Alexa Internet. - [Электронный ресурс]. - URL: http://www.alexa.com/topsites/countries/RU (дата обращения 28.09.2011г.).
91. Саксонов Е. А., Шередин Р. В. Процедура обезличивания персональных данных. // Электронное научно-техническое издание «Наука и образование». Март 2011, №3. - [Электронный ресурс]. - URL: http://technomag.edu.ru/doc/173146.html (дата обращения: 15.07.2011г.).
92. Самые популярные сайты у офисных сотрудников. - [Электронный ресурс]: РБК.Рейтинг. - URL: http://rating.rbc.ru/article.shtml72011/08/08/33379224 (дата обращения: 7.09.2011г.).
93. Сергеев Р. Защита персональных данных в информационных системах. -[Электронный ресурс]: IS027000.ru Искусство управления информационной безопасностью. - URL: http://wvvw.iso27000.ru/chitalnyi-zai/zaschita-personalnyh-dannyh/zaschita-personalnyh-dannyh-v-informacionnyh-sistemah (дата обращения: 15.05.2011г.).
94. Сеть профессиональных контактов «Яндекс. Мой круг». - [Электронный ресурс]. - URL: http://moikrug.ru/ (дата обращения: 2.09.2011г.).
95. Современные биометрические методы идентификации. - [Электронный ресурс]. - URL: http://habrahabr.ru/blogs/infosecurity/126144/ (дата обращения: 14.10.2011г.).
96. Социальная сеть «ВКонтакте». - [Электронный ресурс]. - URL: http://vkontakte.ru/ (дата обращения: 5.09.2011г.).
97. Спинеллис Д. Анализ программного кода на примере проектов Open Source. СПб.: Издательство «Вильяме», 2004. - 528 с.
98. Стратонович P.JI. Теория информации. М.: «Сов. радио», 1975г. - 424 с.
99. Судебно-медицинская идентификация личности. - [Электронный ресурс]: Образовательный портал «N A-Crime». - URL: http://www.na-crime.narod.ru/med_personality.html#q01 (дата обращения: 30.10.2011г.).
100. Таненбаум Э., Вудхалл А. Операционные системы. Разработка и реализация (+CD). Классика CS: 3 издание. СПб.: Издательство «Питер», 2007. - 704 с.
101. Федеральный закон РФ от 15.11.1997 г. №143-Ф3 «Об актах гражданского состояния». - [Электронный ресурс]: Гарант. Информационно правовой портал. -URL: http://base.garant.ru/173972/ (дата обращения: 10.06.2011г.).
102. Федеральный закон РФ от 27.07.2006 г. № 152-ФЗ «О персональных данных». - [Электронный ресурс]: Гарант. Информационно правовой портал. - URL: http://base.garant.ru/12148567/ (дата обращения: 14.08.2011г.).
103. Харкевич А. А. О ценности информации. // Проблемы кибернетики: сб. / М.: Физматгиз, 1960. - С. 53-57.
104. Чирков А. Г. Исследование причин долговременной нестабильности современных квантовых стандартов частоты с помощью программы «Гусеница»-88А. Санкт-Петербург: Издательство Политехнического университета, 2007. - 40 с.
105. Чубукова И. А. Курс «Data Mining». - [Электронный ресурс]: Электронная библиотека Кодгес. - URL: http://www.kodges.ru/10257-kurs-lekcijj-intuit-po-data-mining.html (дата обращения: 28.08.2011).
106. Эсбенсен К. Анализ многомерных данных: избранные главы. / Перевод с англ. С. В. Кучерявского, под ред. О. Е. Родионовой. Черноголовка: Издательство ИПХФ РАН, 2005. - 160 с.
Описание баз данных, характеристики которых исследуются в настоящей работе
Таблица П1.1
Базы данных, полученные путем поиска в сети Интернет и находящиеся в
свободном (бесплатном) доступе
№ Название БД (формат) Кол-во записей Список атрибутов Актуальность базы Комментарии
1 БД жителей г. Астрахани (ЙЬО 364014 «фамилия», «имя», «отчество» («ФИО»)», «дата рождения», «адрес регистрации», «серия и номер паспорта», «пол» 2002г. Информация только по взрослому населению (имеющие паспорта)
2 БД жителей Астраханской области (ЛЫ) 732453 «ФИО», «дата рождения», «адрес регистрации», «серия и номер паспорта», «пол» 2005г. База данных взрослого населения (1985 года рождения и старше)
3 БД жителей г. Тюмень (.с!Ы) 565394 «ФИО», «дата рождения», «адрес регистрации», «серия паспорта», «номер паспорта», «дата выдачи паспорта» 2006г. Полная база данных жителей Тюмени, включая детей, самые младшие из которых имеют дату рождения -конец декабря 2005г.
4 БД УВД г. Тольятти (АЫ) 1004130 «ФИО», «дата рождения», «адрес регистрации», «серия и номер паспорта», «кем и когда выдан паспорт», «пол», «национальность», «гражданство», «фотография» Осень 2002г. Содержит данные, особо охраняемые законодательством
5 БД Московской области (без Москвы) (.аы) 11461238 «ФИО», «дата рождения», «адрес регистрации», «серия и номер паспорта», «дата выдачи паспорта», «ИНН» и «данные по предыдущему паспорту» 2005г. База данных, незаконно предлагаемая к продаже компанией МЦЭБ, которую при желании можно найти бесплатно
6 БД Абонентов ВееНпе, МТС и Мегафон (.(1Ьх) * (см. коммент.) «ФИО», «дата рождения», «серия и номер паспорта», «кем и когда выдан паспорт», «номер сотового телефона» 2009г. Подборка баз данных сотовых операторов. * - В отличие от всех предыдущих баз доступ к информации удалось получить только с программой, идущей в комплекте. Указать точное количество данных не представляется возможным
7 «Телефонный справочник г. Астрахань» 512060 «ФИО», «адрес регистрации», «номер домашнего телефона», «почтовый индекс» 2006г. Полный телефонный и адресный справочник жителей города Астрахань.
8 БД ГИБДД 1489896 «ФИО», «дата рождения», 2005г. База данных по
№ Название БД (формат) Кол-во записей Список атрибутов Актуальность базы Комментарии
Самарской области (.mde) (физич. лиц) «адрес регистрации», «серия и номер паспорта», «кем и когда выдан паспорт», «полные данные по авто и мототранспорту и их владельцам) авто и мото-транспорту физических и юридических лиц: гос. номер, технические хар-ки транспортного средства, категория, цена, номер двигатели (VIN) и т.п.)»
Итого: ~ 16 млн. записей.
Таблица П1.2
Базы данных, полученные не из сети Интернет
№ Название БД (формат) Кол-во записей Список атрибутов Актуальность базы Комментарии
1 БД негосударственного пенсионного фонда (.хк , .Ш) 2157 «фамилия», «имя» и «отчество» (ФИО); «ФИО при рождении»; «дата рождения», «место рождения», «пол», «серия и номер паспорта», «кем и когда выдан паспорт», «адрес регистрации», «адрес проживания», «домашний телефон», «мобильный телефон», «номер страхового пенсионного свидетельства (СНИЛС)»... 2006г. Информация преимущественно жителей Астраханской области
2 БД Общеобразов. школы г. Астрахань -ученики (.х1я) 288 «ФИО», «дата рождения», «пол», «класс» , «ФИО родителей» 2010г.
3 БД Общеобразов. школы г. Астрахань - персонал (.х1в) 84 «ФИО «пол», «должность» 2010г.
4 БД Общеобразов. школы г. Астрахань - родители (.хк) 484 «ФИО», «пол», «ФИО ребенка» 2010г.
5 БД Поликлиники г.Астрахань - персонал (.с1Ы) 97 «ФИО», «дата рождения», «адрес регистрации», «серия и номер паспорта», «дата выдачи паспорта», «ИНН» и «данные по предыдущему паспорту» 2005г.
6 «Обезличенная» БД с результатами медицинского исследования (.<1Ь1) 50 «инициалы», «город проживания», «поликлиника», «ФИО лечащего врача», «назначенное лечение», «комментарии к лечению», служебные поля... БД использовалась при проведения научной работы в 2005 году. Обезличивание было проведено врачом перед публикацией материалов.
Исходные данные и расчет коэффициентов «вероятность нахождения
атрибута в базе данных» - РА1 и степень заполнения атрибута Л-, -
Таблица П 2.1
Расчет коэффициента РА
Атрибут База Фам. Имя Отч. пол дата рож. адрес паспорт (п.) п. когда
Астрахань + + + + + + - -
Астрахан. область + + + - + + + -
Тюмень + + + - + + + +
Тольятти + + + + + + + +
Московская область + + + + + + + +
ВееНпе + + + - + - + +
Тел. справочник Астрахани + + + - - + - -
ГИБДД Самарская область + + + - + + + +
Всего 8 8 8 3 7 7 6 5
Ра 1 1 1 0,375 0,875 0,875 0,75 0,625
Атрибут База п.кем ИНН тел. (дом) фото нац. гражд авто почт, индекс
Астрахань - - - - - - - -
Астрахан. область - - - - - - - -
Тюмень - - - - - - - -
Тольятти + - - + + + - -
Московская область + + - - - - - -
ВееНпе + - - - - - - -
Тел. справочник Астрахани - - + - - - - +
ГИБДД Самарская область + - - - - - + -
Всего 5 1 1 1 1 1 1 1
РА 0,625 0,125 0,125 0,125 0,125 0,125 0,125 0,125
+ - атрибут присутствует в базе данных, - в противном случае
Таблица П 2.2
Расчет коэффициента Ра
База —-—___ Фам. Имя Отч. пол дата рож. адрес паспорт (п.) п. когда
Астрахань 1 1 0,99 0,99 0,99 1 0,19 0
Астрахан. область 1 1 0,98 0 1 0,96 0,83 0
Тюмень 0,99 0,99 0,99 0,76 0,99 1 0,87 0,77
Тольятти 1 0,99 0,99 0,99 0,99 0,92 0,89 0,88
Московская область 1 0,99 0,99 0,26 0,88 0,22 0,49 0
Тел справочник Астрахани 1 0,97 0,96 0 0 0,89 0 0
ГИБДД Самарская область 1 1 0,99 0 0,72 0,93 0,69 0,51
среднее значение, Ра 0,99 0,99 0,989 0,43 0,8 0,85 0,57 0,31
База -----...... п.кем ИНН тел. (дом) фото нац. гражд. авто почт, индекс
Астрахань 0 0 0 0 0 0 0 0
Астрахан. область 0 0 0 0 0 0 0 0
Тюмень 0 0 0 0 0 0 0 0
Тольятти 0,88 0 0 0,15 0,93 0,8 0 0
Московская область 0 0,19 0 0 0 0 0 0
Тел справочник Астрахани 0 0 1 0 0 0 0 0,42
ГИБДД Самарская область 0,51 0 0 0 0 0 1 0
среднее значение, Рд 0,2% 0,03 0,14 0,21 0,13 0,11 0,14 0,06
Распределения кол-ва уникальных значений атрибута «фамилия»
к &
|=; В
I ©
ей
Е>
1С К
с
>5 ¡3 №
г
в
со X
3 а ¡т к
£3
с
с
^
о ¡т
50000
30000
20000
10000
• Тюмень
■ ТОЛЬЯТТИ
- АСТРАХАНСКАЯ ОБЛ.
—,-г-,-г—!-,................... -'....................|.......<-|—-т--Г
0 50000 100000 150000 200000 250000 300000 350000
Число записей (размер БД)
Рис. П.3.1. Диапазон уникальных значений атрибута «фамилия» 3 баз данных
жителей городов РФ
60000 -|
55000 -
IX ЗЕ 50000-
I ф 45000 -
т
го X 40000 -
со
X 35000 -
л
X л 30000-
ц
го 25000-
X >. 20000-
о § 15000-
у 10000-
5000-
0- с
I Фамилия I Отчество [Имя
50000
1-■-1-'-1-■-г
100000 150000 200000 250000 300000 350000
Размер базы данных
Рис. П.3.2. Средние распределения уникальных значений атрибутов «фамилия», «имя» и «отчество», подсчитанные для баз данных жителей пяти городов РФ
Базовый метод SSA-Гусеница Шаг 1: Вложение
Одномерный метод.
Процедура вложения есть преобразование исходного одномерного ряда в последовательность L-мерных векторов, число которых равно K = N-L +1: X^if^...,/^)1 A<i<K. Эти вектора образуют траекторную матрицу Х = [Х, :...\ХК] ряда F. Записывая матрицу более подробно, заметим, что ху = fi+j-2 ■> т-е- матрица X имеет одинаковые элементы на диагонали i + j = const:
( h Л к /к- 1
А к к ■ • /к
х = fi /з к • /к+1
Jl-\ к /¿+1 /n- 1 у
Комплексный метод.
Траекторная матрица строится абсолютно аналогично, поэтому метод можно считать естественным обобщением одномерного:
Х =
\CL-1 CL CL+1
-К-I
-К
'К+1
-N-lJ
= F + /G,
где Е и в - траекторные матрицы вещественных рядов Р и С соответственно. Размерность траекторной матрицы X равна Ь х К.
Двумерный метод.
Построим последовательности Ь -мерных векторов для рядов Т7 и С:
г
с
с
2
С
2
В каждой из последовательностей число векторов равно К = Н-Ь+1. Траекторной матрицей двумерного ряда, порожденной длиной окна I, назовем матрицу
Другими словами, траекторная матрица двумерного ряда представляет собой расположенные последовательно траекторные матрицы Ж и О одномерных рядов /-1 и С, полученные при одинаковой длине окна Ь. Таким образом, размерность получившейся матрицы равна 1x2К.
Замечание 2.1. Ясно, как изменится первый шаг метода при произвольном числе рассматриваемых рядов произвольной (не обязательно одинаковой) длины.
Будем считать, что наблюдается система из 5 временных рядов Р^ = , где
к = . Параметр Ык, таким образом, есть длина к -го ряда. Выбираем Ь такое, что 1 <Ь<Ык для любого к. Для каждого к вычислим Кк=Ык-Ь +1 векторов
Тогда траекторная матрица многомерного ряда будет иметь вид
где Х(0 - траекторная матрица ряда соответствующая длине окна I.
Размерность матрицы X равна £ х ^Г Кк .
к=1
Замечание 2.2. При фиксированных длинах рядов и длине окна Ь траекторная матрица однозначно определяет ряды, по которым она построена.
Шаг 2: Сингулярное разложение
Результатом этого шага является сингулярное разложение траекторной матрицы ряда.
Одномерный и двумерный методы.
Рассмотрим матрицу 8 = XXт, где X - траекторная матрица одномерного или двумерного вещественного временного ряда, соответствующая длине окна I.
Поскольку 8 положительно полу определена,; ее собственные числа неотрицательны. Обозначим через Л),...,Л1 собственные числа матрицы 8, взятые в порядке убывания >...>0) и через и1,...,и1 ортонормированную систему собственных векторов матрицы 8, соответствующих этим собственным числам.
Пусть ё = шах{ и таких, что Я1 > 0}. Обозначив
Л/Л
получим разложение траекторной матрицы:
(1) Х = Х1+...+Х</5где Х^^иу?.
Отметим, что ортонормированные вектора У1 являются собственными векторами матрицы ХТХ, соответствующими тем же собственным числам ^.
В стандартной терминологии дД называются сингулярными числами, £/,. и У{ -
левыми и правыми сингулярными векторами матрицы X соответственно. Каждая из матриц X,- имеет ранг 1. Поэтому их можно назвать элементарными матрицами.
Набор (Д,,/У,,^) мы будем называть г-и собственной тройкой сингулярного разложения.
На геометрическом языке система собственных векторов II1 задает ортонормированный базис в линейном пространстве, порождаемом столбцами исходной матрицы X. Аналогично, вектора У/ задают ортонормированный базис
линейного пространства, порождаемого строками матрицы X.
В другой (статистической) терминологии вектора 111 называются
собственными, вектора У, - факторными, направление, задаваемое г'-м собственным
вектором 111 - г-м главным направлением, вектор 2г = -¡^¡У1, составленный из
проекций векторов Х] на г-е главное направление - вектором 1-х главных
компонент.
Прокомментируем результат этапа разложения для двумерного случая. При
таком подходе 8 = ХХТ +ССТ,
п
л'4
и
1
X = Xик(итк¥,иткС) = X[ики[¥:С
Аг=1 ¿=1
Таким образом, для каждого из рядов получено разложение столбцов их траекторных матриц по общему базису (£/,,.
(2) ¥ =
к=1 к=1
Эти разложения, однако, не обязаны быть сингулярными разложениями матриц Г и С.
Комплексный метод.
В этом случае 8 = XX*, где X* - эрмитово-сопряженная к X матрица, Б = (Г + Ю)(РТ - Л5Т )= (РРТ + ССТ)+/(вГ1 - ЖС7).
Заметим, что Б является эрмитовой и имеет неотрицательные собственные числа Л1>...>Л1>0. Снова обозначим с1 число ненулевых собственных чисел матрицы 8. Пусть и1,...,17а - (комплекснозначные) собственные вектора, соответствующие собственным числам Л1,...,Лс1, причем ир*к = 3]к, где 8]к - символ Кронекера.
Тогда, если при к = 1,...,с1 положить Ук = Х*ик/-,[Лк , то сингулярным разложением матрицы X является разложение
(3) Х = Х1+...+Х</,где Хк=^икУк\
Как и в одномерном случае, ¥к является собственным вектором матрицы Х*Х, соответствующим собственному числу Лк, причем = 5]к.
Обозначим ик = Рк + 1()к, тогда
П = -4= (Рт - )ик = 4= ((рЧ + Ста)+ - сЧ))
л/лк -4Ак
и
(4) +1ак%р^+дткс)-{дтк¥-ртко\
к=1
Разделяя вещественные и мнимые слагаемые в (4), получаем представления
(5) г = £(ркркт + +(ркд7к - окркг )с,
к=1
(6) о = fjp.pl + (2к0[ )с +{дкркт - Рка1 )е .
к=1
Замечание 2.3. Сингулярные разложения (1) и (3) единственны тогда и только тогда, когда все собственные числа Лк различны. Это очевидное утверждение
является, тем не менее, существенным для 8 Б А.
Замечание 2.4. Сравнение (2) с (5) и (6) показывает, что для двумерного варианта разложение каждого из рядов зависит только от траекторной матрицы этого конкретного ряда и собственных векторов, полученных на основе траекторной матрицы двумерного ряда. Если же используется комплексный подход, то на разложение каждого ряда траекторная матрица другого влияет непосредственно. Конечно, если мы производим сингулярные разложения траекторных матриц рядов Р и С по отдельности, то они являются «независимыми».
Замечание 2.5. Если рассматриваемые ряды совпадают (Р = С), то в
комплексном варианте метода 8 = РРТ +ССТ =2ГРТ, что совпадает с матрицей 8 двумерного варианта. В этом случае у каждого из собственных векторов ик=Рк +iQk либо Рк = 0, либо (¿)к = 0. А это означает, что разложения (2) и (5), (6), полученные этими двумя методами, будут идентичными. Поскольку при удвоении всех элементов матрицы 8 ее ортонормированная система собственных векторов не изменяется, то это разложение будет совпадать также с последовательным одномерным сингулярным разложением каждого из рядов по отдельности. Конечно, здесь подразумевается, что длина окна I во всех разложениях одна и та же.
Замечание 2.6. Вид левых и правых сингулярных векторов, трактуемых в 88А как временные ряды, является очень важным для следующего шага метода -группировки (см., например, [3] или [5]). При этом для одномерного 88А левые и правые сингулярные вектора обладают определенной симметрией, так как в этих случаях сингулярные разложения траекторных матриц с длиной окна Ь п K = N-L+\ эквивалентны. Комплексный 88А (с точностью до того, что вместо транспонирования здесь рассматривается эрмитово сопряжение) также обладает подобным свойством.
Для двумерного 88А такая симметрия отсутствует, так как столбцы и строки траекторной матрицы имеют здесь различный смысл: в то время как каждый столбец
траекторной матрицы X - это отрезок длины Ь одного из рядов Г и С, строка матрицы X состоит из «пристыкованных» отрезков длины К рядов ^ иб.
Сингулярные вектора наследуют эту структуру: если левый сингулярный вектор (собственный вектор) по-прежнему трактуется как (одномерный) временной ряд длины I, то правый сингулярный вектор (факторный вектор) скорее следует трактовать как два одномерных ряда длины К, первый из которых относится к ряду ^, а второй - к ряду С.
Замечание 2.7. Даже если собственное число Я комплексной эрмитовой матрицы простое, то существует множество нормированных на единицу собственных векторов этой матрицы, соответствующих Я. Действительно, если X - собсгвенный вектор такой матрицы, то вектор сХ, где с - произвольное комплексное число, по модулю равное 1, тоже является собственным и имеет ту же длину. Поэтому левые и правые сингулярные вектора 11к и Ук в комплексном случае не имеют смысла по отдельности. Их свойства проявляются только в виде элементарной матрицы хк = -Щи^, которая определяется однозначно, если Як - простое собственное
число матрицы 8.
Замечание 2.8. Нахождение собственных чисел и соответствующей системы ортогональных собственных векторов комплексной эрмитовой матрицы 8 = А+/В размера 1хЬ сводится к такой же задаче для действительной матрицы
А -В В А
которая имеет размер 21x21. Эта матрица является симметрической, так как (-В) = Вт. Каждому действительному собственному значению Я и соответствующему собственному вектору Х = У+гг исходной матрицы Б соответствуют собственное число Я кратности два и пара собственных векторов (Г,2)т, (- У)1 действительной матрицы Б. В самом деле, если
(а+гвХг+а)=а7 - ш+¡(\г+в г) = я(г+¿г),
то
ГА -в^ (¥) 'АУ- =я
—
чв А, Л Л
Л4 -В^
В А
(-г
УК У У
(-2Л
-В2 + А7
=л
Верно и обратное. При этом легко видеть, что из ортогональности вещественных собственных векторов следует ортогональность комплексных и наоборот. Неоднозначность определения собственных векторов У и 2 матрицы Б соответствует множественности нормированных собственных векторов, соответствующих собственному числу Л эрмитовой матрицы 8.
Шаг 3. Группировка
Процедура группировки формально одинакова для всех рассматриваемых разновидностей Б 8А.
На основе разложения (1) процедура группировки делит все множество индексов {1,...,£/} на т непересекающихся подмножеств /,,..., 1т.
Пусть I = {/',,...,гр}. Тогда результирующая матрица Х1, соответствующая группе /, определяется как Х1 = Х^ +... + Хг .
Такие матрицы вычисляются для / = /),...,/„, тем самым разложение С1) может
быть записано в сгруппированном виде:
(7) Х = Х/1+... + Х/и.
Процедура выбора множеств /,,...,/,„ и называется группировкой собственных троек.
Шаг 4. Диагональное усреднение Одномерный и комплексные методы.
На последнем шаге базового алгоритма каждая матрица сгруппированного разложения переводится в новый ряд длины N.
Пусть У - матрица размера ЬхК с элементами уц, 1 <г<Ь, 1 < / < А'.
Положим I* =тт(Ь,К), К* =тах(Ь,К) и И = Ь + К-\. Пусть если 1<К и
г у = ур в остальных случаях.
Диагональное усреднение переводит матрицу У вряд (£0,..., по формуле
(8)
8к=\
| к+1 + 1 М
к-]+2
1 1
ь /=1
1 Ы-К*+1
1 5л.
,¿-7+2
дляО<&<1*-1, для I? —\<к< К*. для К* < к
' ]=к-Г+2
Это выражение соответствует усреднению элементов матрицы вдоль «диагоналей» / + / = ¿+2: выбор к = 0 дает g() =уи, для к = 1 получаем gx=(yn+У2\)l'2■ и Т-Д- Применив диагональное усреднение к матрицам Х4,
полученным на этапе группировки, приходим к разложению исходного ряда в сумму ш рядов.
Такая процедура обладает свойством оптимальности: траекторная матрица У ряда, полученного из некоторой матрицы У с помощью диагонального усреднения, является ближайшей к У по матричной норме среди всевозможных ганкелевых (в нашей терминологии, траекторных) матриц той же размерности. При этом, если исходная матрица У является траекторной для некоторого временного ряда Т7, то полученный в результате диагонального усреднения ряд С совпадает с Р .Отметим, что матричная норма вещественной матрицы равняется корню квадратному из суммы квадратов всех элементов матрицы. Для комплексной матрицы определение аналогично
Акт о внедрении диссертационного исследования
: - , УТВЕРЖДАЮ
Генеральный директор 001) «Новая Клиника» ■ А.В.Корноухов
- ((юта)
АКТ
об использовании результатов кандидатской диссертационной работы
Кучина И.Ю.
«Обработка баз дамиых с иерсоиифииированиой информацией для задач обемютиваший я поиска закономерностей»
В ООО «Новая Клиника» был изменен технологический процесс обработки персональных данных пациентов в том числе с применением технологам обезличивания на основе недоступных идагшфишгоров. В результате внедрения стали выполняться требования законодательства РФ в области безопасной обработки конфиденциальной информации, а также было реализовано право пациентов получать медицинские услуги анонимно.
Заместитель главного врача но лечебной работе _> Ибрагимов М.Ш./
„.......у
У _______
_^^ ~_] Кучме И.Ю./
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.