Интеграция автономных источников данных для прогнозирования свойств неорганических веществ тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Масютин, Виталий Викторович

  • Масютин, Виталий Викторович
  • кандидат науккандидат наук
  • 2014, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 133
Масютин, Виталий Викторович. Интеграция автономных источников данных для прогнозирования свойств неорганических веществ: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2014. 133 с.

Оглавление диссертации кандидат наук Масютин, Виталий Викторович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ПРОБЛЕМЫ КОМПЬЮТЕРНОГО ПРОГНОЗИРОВАНИЯ СВОЙСТВ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ

1.1. Особенности компьютерного прогнозирования свойств неорганических веществ

1.2. Формальная постановка задачи компьютерного прогнозирования свойств неорганических веществ

1.3. Применение основных принципов и методов системного анализа к проблеме компьютерного прогнозирования свойств неорганических веществ

1.4. Информационные системы по свойствам неорганических веществ

1.5. Задача интеграции различных источников данных для обеспечения информационной поддержки компьютерного прогнозирования свойств неорганических веществ

ГЛАВА 2. ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ ТЕХНОЛОГИЙ ИНТЕГРАЦИИ ДАННЫХ

2.1. Методы интеграции данных

2.2. Построение неформального описания информационных процессов, осуществляемых при интеграции данных

2.3. Моделирование потоков данных

2.4. Функциональное моделирование процессов обработки информации при интеграции данных

ГЛАВА 3. ПРИМЕНЕНИЕ ТЕХНОЛОГИЙ ИНТЕГРАЦИИ ДАННЫХ ДЛЯ КОМПЬЮТЕРНОГО КОНСТРУИРОВАНИЯ НЕОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

3.1. Выбор среды реализации интегрированной ИС

3.2. Состав и схема метабазы, соедржащей описания источников данных53

3.3. Назначение, описание и примеры адаптеров извлечения и преобразования данных

3.4. Разрабьотка программы-посредника

3.5. Защита информации при интеграции данных

ГЛАВА 4. ПРИМЕНЕНИЕ ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ ПРОГНОЗИРОВАНИЯ

СВОЙСТВ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

СПИСОК ИЛЛЮСТРАЦИЙ

СПИСОК ТАБЛИЦ

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Интеграция автономных источников данных для прогнозирования свойств неорганических веществ»

Введение

Необходимым условием развития современной электронной промышленности является разработка новых неорганических веществ, обладающих заданными электрическими и магнитными свойствами. Одним из методов, обеспечивающих сокращение времени и затрат на получение новых материалов, является компьютерное конструирование, позволяющее предсказать свойства нового вещества на основе информации об уже известных веществах и их свойствах. В настоящее время качественная информационная поддержка синтеза неорганических веществ с заданными свойствами основана на применении специализированных баз данных (БД), содержащих данные о структуре и свойствах синтезированных ранее соединений. Такие БД разрабатываются во всех промышленно развитых странах. Наибольшего прогресса в этом добились США и Япония, которые на базе NIST (National Institute of Standards and Technology - Национальный институт стандартов и технологий, США) [1] и NIMS (National Institute for Materials Science Technology - Национальный институт материаловедения, Япония) [2] разрабатывают специализированные информационные ресурсы. В России лидером в области создания баз данных по электрическим и магнитным свойствам неорганических веществ является Институт металлургии и материаловедения им. А.А. Байкова РАН (ИМЕТ РАН) [3].

Ни одна из существующих информационных систем по свойствам неорганических соединений не способна предоставить исчерпывающую информацию обо всей совокупности свойств конкретного вещества. Фрагментарность данных является одной из проблем, существенно усложняющей создание новых веществ с требуемыми свойствами. Отметим, что информация в различных информационных системах может храниться не только в форматах распространенных баз данных, но и в других видах, например, в форматах электронных таблиц, текстовых форматах, формате XML, бинарных проприетарных форматах и т.п. Помимо этого, использование различных информационных ресурсов для специалиста-

химика-технолога осложняется различными режимами доступа к данным, полученным из этих ресурсов.

Одним из путей решения проблемы является интеграция информационных ресурсов. Актуальность интеграции в последние годы была осознана не только на национальном, но и на международном уровне, что вызвало появление специальной международной комиссии (Materials Task Group), целью которой является выработка стандартов для интеграции материаловедческих информационных ресурсов. Однако, несмотря на предпринимаемые усилия, говорить об успехах в этой области преждевременно [4].

Таким образом, интеграция разнородных информационных ресурсов, позволяющая обеспечить химиков-технологов достоверной информацией о свойствах и технологиях получения неорганических веществ, является актуальной научной задачей.

Целью диссертации является обеспечение информационной поддержки синтеза новых неорганических веществ с заданными электрическими и магнитными свойствами на основе интеграции специализированных баз данных.

Для достижения поставленной цели в диссертации поставлены и решены следующие задачи:

• Проведен системный анализ проблемы прогнозирования свойств новых неорганических веществ с заданными электрическими и магнитными свойствами;

• На основе системного анализа технологий интеграции информационных ресурсов разработан комплекс информационных моделей технологий интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ;

• Обоснован выбор среды реализации интегрированной информационной системы;

• Разработана структура метабазы, описывающей свойства автономных источников данных, в которых содержится информация о составе и свойствах неорганических веществ, с учетом разрешения семантических конфликтов гетерогенности;

• Разработаны адаптеры извлечения и преобразования данных и программа-посредник, обеспечивающая интеграцию баз данных, содержащих информацию о составе и свойствах неорганических веществ;

• Выполнено прогнозирование кристаллической структуры неорганических соединений по данным, полученным из автономных источников;

• Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ.

Объектом исследования являются базы данных по свойствам неорганических веществ с заданными электрическими и магнитными свойствами и технологии их интеграции.

Предметом исследования является применение технологий интеграции данных для информационной поддержки синтеза неорганических веществ с заданными электрическими и магнитными свойствами.

Научная новизна работы заключается в следующем

• Проведен системный анализ проблемы прогнозирования свойств новых соединений на основе данных об их составе с учетом особенностей неорганического материаловедения;

• Разработана схема интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ, без передачи данных в общее хранилище;

• На основе проведенного системного анализа технологий интеграции данных разработан комплекс информационных моделей интеграции автономных источников данных, содержащих информацию о составе и свойствах неорганических веществ, включающий в себя функциональные модели и модели потоков данных;

• Разработана структура метабазы, описывающая свойства автономных источников данных, содержащих информацию о составе и свойствах неорганических веществ, с учетом разрешения семантических конфликтов гетерогенности;

• Обоснован выбор среды реализации интегрированной информационной системы.

Практическая значимость работы:

• Для разрешения синтаксических и системных конфликтов гетерогенности разработаны адаптеры извлечения и преобразования данных, полученных из различных баз данных по свойствам неорганических веществ и материалов;

• Разработана программа-посредник, обеспечивающая интеграцию автономных источников данных, содержащих информацию о составе и свойствах неорганических веществ;

• Разработана схема защиты информационного обмена по открытым каналам связи сети Интернет при интеграции баз данных, содержащих информацию о составе и свойствах неорганических веществ;

• Выполнено прогнозирование возможности образования и типа кристаллической структуры для халькогенидных шпинелей состава АВ2Х4, где X = S, Se, Те.

В основу решения поставленных задач положены методы системного анализа (декомпозиция, классификация, иерархическое упорядочение, абстрагирование, формализация, композиция, моделирование), методология моделирования потоков данных DFD, методология функционального моделирования систем IDEF0, методология проектирования баз данных IDEF1X, теория реляционных баз данных, иерархическая модель данных XML, методология быстрой разработки приложений RAD.

Глава 1. Системный анализ проблемы компьютерного прогнозирования свойств неорганических веществ.

1.1. Особенности компьютерного прогнозирования свойств

неорганических веществ

В области современного материаловедения широко используются информационные системы, как для моделирования различных физико-химических процессов, так и для хранения больших объемов информации о структуре и свойствах неорганических соединений, относящихся к различным классам. На стыке этих областей исследований в настоящее время разрабатываются методы и программные средства, предназначенные для решения задач компьютерного конструирования соединений [5].

Под компьютерным конструированием соединений (computer-assisted design) понимаются гипотезы о свойствах еще не синтезированных химических соединений, основанные на анализе взаимосвязей между их качественным и количественным составом и проявляемыми свойствами. Такой подход позволяет существенно сократить финансовые и временные затраты на поиск химических соединений с требуемыми свойствами. Термин "компьютерное конструирование" (computer-assisted design) впервые появился в 70-х годах XX века в работах Corey и Wipke применительно к построению структуры сложных органических соединений с помощью компьютера [6]. Задача компьютерного конструирования неорганических соединений была сформулирована чуть позднее, в 90-е годы XX века. Методы решения этой задачи отличаются от методов, используемых для органических соединений, поскольку для неорганических соединений правило валентности соблюдается не для всех видов химических связей между атомами.

Применительно к неорганическим соединениям компьютерное конструирование имеет ряд особенностей и позволяет строить следующие виды гипотез [7]:

• образование (или отсутствие образования) соединений и их количественный состав;

• тип кристаллической структуры;

• значения электрических и магнитных свойств.

Для решения указанных задач применяются следующие подходы:

• квантовомеханический подход, основанный на решении уравнения Шредингера или его обобщений;

• простейшие эмпирические критерии образования соединений с заданными свойствами;

• решающие правила, получаемые с помощью методов компьютерного распознавания образов в N-мерном пространстве признаков.

Применение квантовомеханического подхода к решению задач прогнозирования свойств неорганических соединений ограничено сложностью приближенного численного решения уравнения Шредингера.

К наиболее известным эмпирическим критериям образования соединений в настоящее время можно отнести критерий Маттиаса для прогноза новых сверхпроводников с кристаллической структурой типа Al 5, правила Юм-Розери для определения способности химического элемента растворяться в металле с образованием твёрдого раствора, диаграммы Даркена-Гурри для прогноза взаимной растворимости металлов, правило Лавеса для предсказания кристаллической структуры некоторых интерметаллических соединений [8]. Для конструирования неорганических соединений с заданными свойствами необходимо разработать новые критерии. Основным достоинством таких критериев является их простота, позволяющая построить наглядные проекции в полученном пространстве свойств. К недостаткам этого подхода следует отнести высокую трудоемкость и учет ограниченного количества признаков.

Построение сложных многомерных решающих правил является естественным развитием предыдущего подхода. Его реализация стала возможной только с использованием современных вычислительных систем,

оснащенных специальными программами анализа больших массивов данных. По существу, этот подход основан на концепции «черного ящика», в рамках которой исследователь располагает только набором входных и выходных параметров, но не знает, каким образом входные параметры влияют на результат. Такие методы называют анализом данных (data analysis или data mining [9]). К недостаткам этих методов, с точки зрения любой предметной области, можно отнести не только недостаточную строгость полученных моделей, но и частую невозможность их интерпретации. Однако для многих сложно формализуемых задач эти методы являются единственным возможным способом построения некоторой модели исследуемых взаимосвязей.

1.2. Формальная постановка задачи компьютерного прогнозирования

свойств неорганических веществ

С формальной точки зрения, задача выявления и анализа взаимосвязей между составом и свойствами соединения является задачей распознавания образов. Целью решения этой задачи является формирование классифицирующих правил, которые позволяют разбить множество уже известных соединений, каждое из которых описано с помощью набора признаков, на классы, соответствующие свойствам этих соединений [10]. Полученные правила могут быть применены и к еще не синтезированным соединениям, в результате чего может быть получен прогноз свойств новых соединений.

Анализ литературных источников позволил выявить особенности неорганического материаловедения, как предметной области, при использовании математических методов распознавания [11]:

• Малая информативность признаков — свойств химических элементов.

• Сильная закоррелированность признаков, как следствие периодического закона (все свойства элементов находятся в периодической зависимости от общего параметра - атомного номера химического элемента).

• Отсутствующие значения признаков. Существенно, что эта неопределенность может иметь различную природу - некоторые свойства соединений могут быть просто не изучены, а некоторые не могут быть получены.

• Частая асимметрия в размерах классов.

• Возможность экспериментальных ошибок в данных.

Формально задача формирования классифицирующих правил ставится следующим образом:

Описанием объекта является вектор признаков хеХ. Классом называется некоторое подмножество объектов

Ку = {хеХ|у*(х)=у}

множества X.

Пусть уеУ - множество наименований классов. Тогда функция

задает отображение, определённое для всех хеХ, которое задает разбиение X на подмножества Ку.

Обучающая выборка представляет собой множество пар 8={(хьу})}, для которых у*(х!)=уь то есть множество известных значений функции у*.

Основной гипотезой для применения алгоритмов классификации в распознавании образов является предположение, что множество ХхУ является вероятностным пространством с вероятностной мерой Р. Элементы обучающей выборки (х,,уО появляются случайно и независимо в соответствии с распределением Р.

Таким образом, задача классификации заключается в построении функции-классификатора Р(х), приближающей отображение у*, основываясь на обучающей выборке 8.

Рассмотрим некоторые из наиболее широко используемых методов распознавания образов, которые используются специалистами для компьютерного конструирования неорганических веществ.

Статистические модели требуют наличия полной априорной информации, на основе которой могут быть определены вероятностные характеристики классов, что весьма затруднительно при решении задач прогнозирования свойств неорганических соединений, явно носящих прецедентный характер. Данные задачи отличаются тем, что априорная информация о представительности некоторых классов отсутствует. Так в ряде случаев, классы могут быть представлены в виде единичных прецедентов (в одном классе один или два объекта).

Метод ближайших соседей (k-nearest neighbors, kNN) основан на использовании метрики р(х, х') в пространстве объектов X для формализации понятия сходства. Метрика является функцией расстояния между прецедентами. В качестве такой функции расстояний, в частности, может выступать евклидова метрика.

Для произвольного объекта и из X элементы обучающей выборки Х{ = {х],..., Х{} располагаются в порядке возрастания расстояний до и:

р(и, XltU) < р(и, Х2,г) < . . . < р(и, XiJ,

где xiiU - i-й сосед объекта и. Аналогичное обозначение вводится и для ответа на i-u соседе: yiiU = y(xiiU). Таким образом, каждый объект и из X порождает свою перенумерацию выборки^ = {xjtW ..., X{iU}.

Простейшим случаем данного метода является метод ближайшего соседа. Обозначим функцию распознавания через а. Она относит классифицируемый объект и к тому классу, которому принадлежит ближайший объект из обучающей выборки:

а(и;Х{) =у1и.

Таким образом, распознавание сводится к ранжированию объектов обучающей выборки по степени близости к распознаваемому объекту в соответствии с метрикой р. Качество классификации, соответственно, определяется тем, насколько удачно выбрана эта метрика [12].

В более общем случае рассматривается не 1 наиболее близкий к распознаваемому объект, а некоторая ближайшая окрестность К* в пространстве признаков, содержащая к объектов.

Каждый из соседей дг(>и, * = 1, . . . , к голосует за отнесение объекта и к классу у^и. В результате объект и относится к тому классу, которому принадлежит большинство ближайших к нему объектов обучающей выборки:

к

а(и;Х1,к) = агётах £ [у ^ =у] уеП=1

Параметр к подбирается с помощью скользящего контроля, т.е. выбирается то значение к, при котором число ошибок классификации минимально:

к

1 г I ь.

/=1 К

Достоинствами этого метода являются простота реализации и возможность введения различных модификаций; возможность интерпретации классификации неизвестных объектов путем предъявления ближайшего прецедента или нескольких ближайших прецедентов.

К основным недостаткам метода стоит отнести снижение его эффективности при малых объемах обучающей выборки и высокой размерности признакового пространства. Метод не позволяет построить решающие правила, решение основывается на всем массиве доступных данных обучающей выборки.

Методы обнаружения логических закономерностей в данных [13] основаны на вычислении частоты комбинаций отдельных логических событий в подгруппах данных. На основании их анализа делается заключение о полезности той или иной комбинации для установления различных ассоциаций в данных для классификации и прогнозирования.

Результат работы данных методов оформляется в виде так называемого дерева решений или правил типа «ЕСЛИ... ТО ...».

Предикат L/x) называется логической закономерностью класса Kj при выполнении следующих условий:

L/xj) = 1 хотя бы для одного Xi из класса Kj (1),

L/Xi) = 0 для всех объектов обучающей выборки, не принадлежащих классу Kj, т.е. для х,- 0 Kj (2),

f(Lj) = max, где f - некоторый оптимизационный критерий (3).

Критерием качества является функционал:

f(Lj) = <количество объектов обучающей выборки xt из Kj : Lj(x¡) — 1> /

Предикат Lj(x) называется частичной логической закономерностью класса Kj, если выполнены условия 1 и 3, а условие 2 заменено на более слабое: ({х&Щ L(Xi) = 1}) /\{L(Xi) = 1}\ < 8,

В целом популярность логических методов обнаружения закономерностей определяется наглядностью результатов их работы. Проблемами являются сложность перебора вариантов за приемлемое время и поиск оптимальной композиции выявленных правил.

Методы, основанные на принципе разделения [14], предполагают построение гиперповерхности в n-мерном пространстве признаков, которая в некотором смысле наилучшим образом будет разделять наборы классов в этом признаковом пространстве.

Наиболее известным методом, основанным на принципе разделения, является линейный дискриминант Фишера. Первоначально этот метод был разработан для разделения имеющихся объектов на 2 класса [15]. Основная идея метода заключается в проекции векторов признаков на некоторую прямую, что эквивалентно вычислению линейной комбинации их компонент. Сама прямая (коэффициенты линейной комбинации) выбирается таким образом, чтобы отношение расстояния между проекциями средних векторов различаемых классов к сумме разброса проекций векторов внутри каждого

класса было максимально. Таким образом, линейный дискриминант Фишера переводит многомерное пространство признаков в одномерное. Известны модификации этого метода для большего количества классов.

Более общим методом является построение линейной разделяющей гиперплоскости. Задача при построении такой поверхности состоит в вычислении некоторой линейной относительно признаков функции Дх) = а]Х] + а2Х2 + ... + а^сп + ап+/. Рассмотрим случай с двумя классами. При классификации используется следующее решающее правило: если/(и)>0, то объект и относится к первому классу, если /(и)<0, то ко второму, а если /(и)=0, то - отказ от классификации объекта.

Основной задачей является поиск такой функции /(х), для которой число невыполненных неравенств в системе: А/(ид>0, /=7..Ш] А/(и^<0, /=т]..т

является минимальным (ш - количество объектов). Если система совместна, то достаточно найти любое ее решение а], а2,..., ат ап+1, если же она несовместна, то находится некоторое «обобщенное» решение, т.е. решение некоторой ее максимальной совместной подсистемы. В результате находится специальная кусочно-линейная поверхность, правильно разделяющая максимальное число элементов обучающей выборки

Искусственные нейронные сети (ИНС) базируются на упрощенной математической модели биологических нейронных систем [16]. Элементарной единицей обрабатываемой информации в ИНС является образ произвольной длины, обычно представляемый в виде либо одномерного вектора, либо двумерной матрицы чисел, а элементарной операцией - срабатывание искусственного нейрона. Множество входных сигналов, обозначенных хь х2,..., хп, поступает на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые вектором X, соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес \уь \уп, и

поступает на суммирующий блок, обозначенный Е. Каждый вес соответствует «силе» одной биологической синаптической связи. Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически. Далее этот результат преобразуется с помощью активационной функции.

Активационная функция моделирует нелинейную передаточную характеристику биологического нейрона. В качестве активационной функции часто используется логистическая или «сигмоидальная» (8-образная) функция

Ди) = 1/(1 + еаи).

При уменьшении а функция становится более пологой, в пределе при а = 0 вырождаясь в горизонтальную линию на уровне 0,5, при увеличении а функция приближается к виду функции скачка с порогом 0. Выходное значение нейрона для такой функции лежит в диапазоне (0, 1). Следует отметить, что сигмоидальная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где функция имеет пологий наклон.

Другой широко используемой активационной функцией является гиперболический тангенс. По форме это функция сходна с логистической функцией и часто используется биологами в качестве математической модели активации нервной клетки. Подобно логистической функции гиперболический тангенс является Б-образной функцией, но он симметричен относительно начала координат, и в точке и = 0 значение выходного сигнала равно нулю. В отличие от логистической функции гиперболический тангенс принимает значения различных знаков, что оказывается выгодным для ряда сетей.

Нейронная сеть представляет собой совокупность искусственных нейронов, определенным образом соединенных друг с другом и с внешней средой с помощью связей, определяемых весовыми коэффициентами [17].

Каждый элемент из множества входов X отдельным весом соединен с каждым искусственным нейроном. Вычисление выходного вектора и, компонентами которого являются выходы нейронов, сводится к матричному умножению

и = Х\У, где и и X - векторы-строки.

Конкретный вид выполняемого сетью преобразования данных обусловливается не только характеристиками нейронов, но и особенностями ее архитектуры. Нейронные сети являются универсальным аппаратом для задания алгоритмов, т.к. можно использовать нейроны с различными функциями состояния и активации, двоичными, целочисленными и другими значениями весов и входов. В ходе прогнозирования ИНС относит к той или иной области каждый новый объект, поданный на вход сети в виде совокупности значений признаков.

В основе применения ИНС лежит использование алгоритмов, получаемых при помощи обучения на примерах. Эти алгоритмы кодируются в ИНС в виде значений весов нейронов. Обученная таким образом ИНС способна решать задачу распознавания образов. Обучение осуществляется путем последовательного предъявления входных векторов с одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети постепенно становятся такими, чтобы каждый входной вектор вырабатывал требуемый выходной вектор. Таким образом, по конечному набору пар (вход, выход), называемому обучающей выборкой, формируется отображение Дх)=у.

Для обучения многослойных нейронных сетей с последовательными связями используется алгоритм «обратного распространения ошибки» (Ьаскргора§а1;юп). Это итеративный градиентный алгоритм, целью которого является минимизация среднеквадратичного отклонения текущего выхода и

желаемого выхода. Алгоритм основан на последовательной настройке вначале выходных нейронов сети, а затем проходит сеть в обратном направлении до первого слоя. Веса настраиваются в соответствии с формулой:

где - вес от нейрона / или от элемента входного сигнала / к нейрону у в момент времени х{ - выход нейрона / или 1-ый элемент входного сигнала, г - шаг обучения, gj - значение ошибки для нейронау.

Если нейрон с номером у принадлежит последнему слою, то

gj=Уj(\-Уj)(dj-yj)

где 4 - желаемый выход нейрона у, у^ - текущий выход нейрона у.

Если нейрон с номером у принадлежит одному из слоев с первого по предпоследний, то

gJ=xJ(l-xJ)YJgkwjk

к

где к пробегает все нейроны слоя с номером на единицу больше, чем у того, которому принадлежит нейрон у.

Одним из наиболее известных и хорошо зарекомендовавших себя алгоритмов обратного распространения ошибки является алгоритм Левенберга-Маркардта [18, 19]. Минимизируемой целевой функцией ошибки ИНС является величина:

ад^ЕоЯ?-';,)2

где у— реальное выходное состояние нейрона ] выходного слоя N

нейронной сети при подаче на ее входы р-го вектора; - идеальное (желаемое) выходное состояние этого нейрона. Суммирование ведется по всем нейронам выходного слоя и по всем обрабатываемым сетью входным векторам. Минимизация ведется методом градиентного спуска, что означает

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Масютин, Виталий Викторович, 2014 год

Список литературы

1. Интернет-источник http://www.nist.gov

2. Интернет-источник http://www.nims.go.jp/eng

3. Интернет-источник http://www.imet.ac.ru

4. Интернет-источник http://www.codata.org/taskgroups/TGmatlsdata/index.html

5. Gasteiger J. Handbooks of Cheminformatics: From Data to Knowledge, 4 Vols.,

Wiley-VCH, Weinheim, 2003

6. Corey E.J., Wipke W.T. Computer assisted design of complex organic synthesis

// Science. 1969. V.166. №10 Oct. - P.178-192.

7. Киселева H.H. Компьютерное конструирование неорганических

соединений: использование баз данных и методов искусственного интеллекта // Ин-т металлургии и материаловедения им. А.А. Байкова. М.: Наука, 2005. - 289 с.

8. Даркен JI.C., Гурри Р.В. Физическая химия металлов. М.: Металлургиз-дат,

1960. 583 с.

9. Криват Б., Макленнен Д., Танг Ч. Microsoft SQL Server 2008: Data Mining -

интеллектуальный анализ данных. СПб.: BHV, 2009. 720 с.

10. Фомин Я. А. Распознавание образов: теория и применения.— 2-е изд.— М.: ФАЗИС, 2012. — 429 с.

11. Горелик A. JL, Скрипкин В. А. Методы распознавания.— 4-е изд.— М.: Высшая школа, 1984,2004. — 262 с.

12. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин JI. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989- 607 с.

13. Larin S.B., Ryazanov V.V. The Search of Precedent-Based Logical Regularities for Recognition and Data Analysis Problems // Pattern Recognition and Image Analysis. 1997. Vol.7. №3. P. 322-333.

14. Burges C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery.1998. №2, P. 121-167.

15. Кобзарь А. И. Прикладная математическая статистика. — M.: Физматлит, 2006. - 816 с

16. Хайкин С. Нейронные сети: полный курс — 2-е. — М.: «Вильяме», 2006.-1104 с.

17. Круглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика. — 1-е. — М.: Горячая линия - Телеком, 2001. — 382 с.

19. Marquardt, D.W. An algorithm for least-squares estimation of non-linear parameters. Journal of the Society of Industrial and Applied Mathematics, 1963,11 (2), p. 431-441.

20. Бирюков A.C., Рязанов B.B., Шмаков A.C.. Решение задач кластерного анализа коллективами алгоритмов. Журнал вычислительной математики и математической физики, Т.48, 2008, N 1, стр. 176-192.

21. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «РАСПОЗНАВАНИЕ». Математические методы. Программная система. Практические применения. М.:изд-во ФАЗИС, 2006. - 176 с.

22. Witten I.H., Frank Е. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). — Morgan Kaufmann, 2005

23. Кафаров B.B., Дорохов И.Н. Системный анализ процессов химической технологии. - М., Наука, 1976, 500 с.

24. Антонов, А. В. Системный анализ: Учеб. для вузов / А. В. Антонов. - 2-е изд., стер. - М.: Высшая, школа, 2008. -456 с.

25. Анфилатов B.C., Емельянов А.А., Кукушкин А.А. Системный анализ в управлении. -М.:Финансы и статистика, 2002-368 с.

26. Костров А.В. Системный анализ и принятие решений. - Владимир: ВлГТУ, 1995.-68 с.

27. Спицнадель В.Н. Основы системного анализа. - СПб.: Изд. Дом «Бизнес-пресса», 2000 - 326 е..

28. Волкова В.Н., Денисов А.А. Основы теории систем и системного анализа. - СПб: СПбГТУ, 2001, 512 с.

29. Советов Б.Я., Яковлев С.А. Моделирование систем М.: Высшая школа, 2009, - 343 с.

30. Чен П.П. Модель "сущность-связь" - шаг к единому представлению данных. СУБД, N3, 1995 г.

31.Калянов, Г.Н. Моделирование, анализ, реорганизация и автоматизация бизнес-процессов: Учеб. пособие. - М.: Финансы и статистика, 2006- 240 с.

32. Дубейковский В.И. Практика функционального моделирования с AllFusion Process Modeler. - М.: ДИАЛОГ-МИФИ, 2004 - 464 с.

33. Дейт, К. Дж. Введение в системы баз данных, 8-е издание.: Пер. с англ. — М.: Издательский дом "Вильяме", 2005. — 1328 с

34. Костров А.В. Основы информационного менеджмента. - М.: Финансы и статистика, 2001. -336 с.

36. Гейн К., Сарсон Т. Структурный системный анализ: средства и методы/Пер.с англ.: под ред.А.В.Козлинского - М.:Эйтекс, 1993.-360 с.

37. Буч Г., Рамбо Дж., Джекобсон А. Язык UML. Руководство пользователя— 2-е изд. — М., СПб.: ДМК Пресс, Питер, 2004. — 432 с

38. Хантер Д., Рафтер Дж. и др. XML. Базовый курс— М.: Вильяме, 2009. — 1344 с.

39. Масютин В.В., Дударев В.А. Системный анализ технологий интеграции гетерогенных баз данных. // Материалы VII международной научно-практической конференции «Новейшие достижения европейской науки -2011», том 34, Математика, София, 2011

40. Масютин В.В., Дударев В.А., Поляков A.A. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика, №4(40), 2012 с. 38-43

41. Киселева H.H., Дударев В.А., Столяренко A.B., Земсков B.C. Компьютерное конструирование неорганических соединений, перспективных для поиска новых материалов для электроники // Изв.ВУЗов. Материалы электронной техники, 2006, №3 - стр. 61-68.

42. Интернет-источник http://phase.imet-db.ru

43. Киселева Н., Мурат Д., Столяренко А. и др. База данных по свойствам по свойствам тройных неорганических соединений «Фазы» в сети Интернет. Информационные ресурсы России, №4, 2006.

44. Интернет-источник http://diag.imet-db.ru

45. Интернет-источник http://si.imet-db.ru

46. Масютин В.В., Дударев В.А. На пути к единой информационной системе по свойствам неорганических веществ // Интеграл, №6(50), 2010. с. 30 -31.

47. Черняк JI. Интеграция данных: синтаксис и семантика. Открытые системы, № 10, 2009

48. Дударев В.А., Масютин В.В. Интеграция автономных источников данных для исследования свойств полупроводниковых материалов // Прикладная информатика, № 4(52), 2014, с. 34-38.

49. Архипенков С.Я., Голубев Д.В., Максименко О.Б., Хранилища данных. М.:Диалог-МИФИ, 2002 - 528 с.

50. Бритов П. А., Липчинский Е.А. Практика построения хранилищ данных: SAS System / Корпоративные системы, № 3, 1999.

52. Калашян А.Н., Калянов Г.Н. Структурные модели бизнеса: DFD-технологии - М: Прикладные информационные технологии, 2009. -256 с.

53. Бурляева Е.В., Колыбанов К.Ю., Панова С.А. Информационная поддержка систем принятия решений на производственных предприятиях химического профиля - М.: Издательство МИТХТ им. М.В. Ломоносова, 2013.-196 с.

54. Методология функционального моделирования. Рекомендации по стандартизации. Р 50.1.028-2001, ИПК Издательство стандартов, 2001.

55. Черемных C.B., Ручкин B.C., Семенов И.О. Структурный анализ систем. IDEF-технологии. М.: Финансы и статистика, 2006-208 с.

56. Маклаков C.B. Моделирование бизнес-процессов с AllFusion Process Modeler (BPwin 4.1). // M.: ДИАЛОГ-МИФИ, 2004 - 210 с.

57. Масютин В.В. Информационное моделирование технологий интеграции данных. // Материалы II научно-практической конференции «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010

58. Липаев В.В. Технико-экономическое обоснование проектов сложных программных средств. М.: Синтег, 2004. - 284 с.

59. Интернет-источник http://www.veritest.com.

60. Интернет-источник http://www.forrester.com.

61. Интернет-источник http://www.jupiterresearch.com.

62. Интернет-источник http://www.objectwatch.com.

63. Костров А.В., Матвеев Д.А. Информационный менеджмент. Оценка эффективности информационных систем - Владимир: ВлГУ, 2004. - 116 с.

64. Интернет-источник http://www.forrester.com.

65. Масютин В.В. Информационное моделирование технологий интеграции данных. // Материалы II научно-практической конференции «Инновационные и информационные технологии в образовании, экономике, бизнесе и праве», МГУТУ, Волоколамск, 2010

66. Интернет-источник http://www.w3.org/TR/soap/

67. Интернет-источник http://www.iso.ru/journal/articles/271.html

68. Масютин В.В. Защита информации в технологиях интеграции данных // Материалы научно-практической конференции «Приоритетные

69. Олифер В. Г.,Олифер Н. П. Компьютерные сети. Принципы, технологии, протоколы. —изд. 4-е. — СПб: Питер, 2010. — 944 с.

70. Белов К.П., Третьяков Ю.Д., Гордеев И.В., Королева Л.И., Кеслер Я.А. Магнитные полупроводники - халькогенидные шпинели. - М.,МГУ,1981, 260 с.

71.Масютин В.В., Дударев В.А. Компьютерное конструирование новых неорганических соединений состава АВ2Х4. // Материалы научно-технической конференции «Наукоемкие химические технологии 2011», МИТХТ им.М.В. Ломоносова, Москва, 2011

Список иллюстраций

Рис. 1.1. Системный анализ проблемы прогнозирования свойств новых неорганических веществ.......................................................................................26

Рис. 2.1 Схема интеграции автономных источников данных...........................41

Рис. 2.2. Обобщенная диаграмма потоков данных в ИС интеграции данных 42 Рис. 2.3. Обобщенная диаграмма потоков данных в ИС интеграции данных 43

Рис. 2.4. Диаграмма потоков данных первого уровня декомпозиции.............45

Рис. 2.5. Обобщенная функциональная диаграмма процессов интеграции и

обработки данных..................................................................................................47

Рис. 2.6. Функциональная диаграмма первого уровня декомпозиции.............49

Рис .3.1. Схема метабазы.......................................................................................55

Рис. 3.2. Пример XML-документа, описывающего содержимое

информационного источника...............................................................................56

Рис. 3.3. Пример XML-документа, описывающего свойства, освещенные в информационном источнике................................................................................57

Рис. 3.4. Пример XML-документа, описывающего значения свойства в

информационном источнике................................................................................57

Рис. 3.5. Пример XML-документа, подаваемого на вход предметного

посредника для получения глобальных идентификаторов сущностей............59

Рис.3.6. Пример XML-документа, передаваемого в качестве ответа Web-

сервиса на запрос глобальных идентификаторов...............................................60

Рис. 3.7. Пример XML-документа, задающего параметры запроса при вызове

предметного посредника.......................................................................................61

Рис. 3.8. Фрагмент XML-документа, содержащего ответ предметного посредника интегрируемой ИС на запрос значений свойств............................62

Рис. 3.9. Упрощенная схема взаимодействия между группами устройств.....65

Рис. 3.10. Схема защиты информационного обмена между источниками данных и ИС интеграции......................................................................................70

Рис.3.11. Схема защиты информационного обмена между ИС интеграции и пользователями......................................................................................................72

Список таблиц

Таблица 1.1 Базы данных по свойствам неорганических веществ,

используемых в электронике....................................................................

Таблица 2.1. Сравнение подходов к интеграции данных......................

Таблица 3.1. Сравнение информационной безопасности основных

программных платформ............................................................................

Таблица 3.2. Описание таблиц, входящих в метабазу...........................

Таблица 4.1. Результаты экзаменационного распознавания объектов обучающей выборки..................................................................................

28 39

52 54

75

Таблица 4.2. Прогноз типа кристаллической структуры соединений состава

А1УВП284 при нормальных условиях (часть 1).....................................................76

Таблица 4.3 Прогноз типа кристаллической структуры соединений состава

А1УВП284 при нормальных условиях (часть 2).....................................................78

Таблица 4.4. Прогноз типа кристаллической структуры соединений состава

А1УВп28е4 при нормальных условиях (часть 1)...................................................80

Таблица 4.5. Прогноз типа кристаллической структуры соединений состава

А1УВп28е4 при нормальных условиях (часть 2)...................................................82

Таблица 4.6. Прогноз типа кристаллической структуры соединений состава

А1УВп2Те4 при нормальных условиях (часть 1)...................................................84

Таблица 4.7. Прогноз типа кристаллической структуры соединений состава А1уВп2Те4 при нормальных условиях (часть 2)...................................................86

Таблица 4.8. Прогноз типа кристаллической структуры соединений состава АПВШ284 при нормальных условиях (часть 1).....................................................89

Таблица 4.9. Прогноз типа кристаллической структуры соединений состава АПВШ284 при нормальных условиях (часть 2).....................................................91

Таблица 4.10. Прогноз типа кристаллической структуры соединений состава АпВш284 при нормальных условиях (часть 3).....................................................93

Таблица 4.11. Прогноз типа кристаллической структуры соединений состава АпВш284 при нормальных условиях (часть 4).....................................................95

Таблица 4.12. Прогноз типа кристаллической структуры соединений состава АпВш284 при нормальных условиях (часть 5).....................................................97

Таблица 4.13. Прогноз типа кристаллической структуры соединений состава А В 284 при нормальных условиях (часть 6).....................................................99

Таблица 4.14. Прогноз типа кристаллической структуры соединений состава А В 28е4 при нормальных условиях (часть 1).................................................101

Таблица 4.15. Прогноз типа кристаллической структуры соединений состава А В 28е4 при нормальных условиях (часть 2).................................................103

Таблица 4.16. Прогноз типа кристаллической структуры соединений состава А В 28е4 при нормальных условиях (часть 3).................................................105

Таблица 4.17. Прогноз типа кристаллической структуры соединений состава

я

Таблица 4.18. Прогноз типа кристаллической структуры соединений состава

AnBin2Se4 при нормальных условиях (часть 5).................................................109

Таблица 4.19. Прогноз типа кристаллической структуры соединений состава

AnBIn2Se4 при нормальных условиях (часть 6).................................................111

Таблица 4.20. Прогноз типа кристаллической структуры соединений состава AnBni2Te4 при нормальных условиях (часть 1).................................................113

Таблица 4.21. Прогноз типа кристаллической структуры соединений состава AIIBIII2Te4 при нормальных условиях (часть 2).................................................115

Таблица 4.22. Прогноз типа кристаллической структуры соединений состава

АпВш2Те4 при нормальных условиях (часть 3).................................................117

Таблица 4.23. Прогноз типа кристаллической структуры соединений состава

AnBni2Te4 при нормальных условиях (часть 4).................................................119

Таблица 4.24. Прогноз типа кристаллической структуры соединений состава

АпВш2Те4 при нормальных условиях (часть 5).................................................121

Таблица 4.25. Прогноз типа кристаллической структуры соединений состава АпВш2Те4 при нормальных условиях (часть 6).................................................123

i

13

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.