Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения" тема диссертации и автореферата по ВАК РФ 05.13.16, кандидат химических наук Богданова, Татьяна Фоминична
- Специальность ВАК РФ05.13.16
- Количество страниц 138
Оглавление диссертации кандидат химических наук Богданова, Татьяна Фоминична
Базы данных по ИК спектроскопии и их использование для определения структурных особенностей соединений по их спектрам
1. Введение
2. Автоматизированные БД по ИК спектроскопии
3. Поисковые алгоритмы и оценка их эффективности
4. Использование БД по ИК спектроскопии для установления строения органических соединений.
5. Интегрированные ИПС, использующие базы данных по ИК спектроскопии
База данных «ИК спектр - фрагментный состав соединения
1. Представление спектров.
2. Представление структурных формул.
2.1. Поатомный код молекулярного графа.
2.2. Полный набор связных фрагментов молекулярного графа.
2.3. Формирование базы данных А>вершинных связных фрагментов
2.4. Характеристика БД фрагментов.
О возможности использования полных наборов фраг-ментных составов структур для качественного анализа структурных особенностей соединений поискового ответа
1. Введение.
6. Экспертные систе пию гййцие ИК спектроско
ВВЕДЕНИЕ
Современное состояние исследований в области органической химии неразрывно связано с развитием методов молекулярной спектроскопии, обеспечивающих специалистов необходимым аналитическим материалом. Наряду с совершенствованием инструментальных средств, существенно сокращающих сроки экспериментальных работ и открывающих все новые возможности, развиваются программно-аппаратные средства анализа спектральных данных. Комплексы спектрометр-компьютер позволяют не только собирать, регистрировать и оцифровывать экспериментальный материал, но и во многих случаях способствуют его интерпретации, в том числе и на основе использования крупномасштабных баз данных. Этим самым исследователь все больше освобождается от трудоемких и рутинных работ, концентрируя внимание на анализе и осмыслении результатов. В итоге, доведенный до коммерческого и практического использования программный и информационный инструментарий способствует более эффективному применению спектроскопии молекул в различных областях химических исследований.
Одно из центральных мест в молекулярной спектроскопии занимает инфракрасная (ИК) спектроскопия молекул. Это объясняется целым рядом обстоятельств, среди которых: доступность, высокая информативность и чувствительность, возможность регистрации спектра в любом агрегатном состоянии. Особо подчеркнем широту использования метода в практике - трудно представить аналитическое подразделение или лабораторию, решающее задачи идентификации соединений или компонентов смесей, не оснащенное оборудованием по ИК спектроскопии.
Регистрируемый ИК спектр (частоты полос поглощения, интенсивности сигналов, полуширины, форма спектральных кривых и т.п.) содержит важную информацию о природе анализируемого образца. Его'анализ позволяет экспериментатору делать выводы о составе и строении молекул изучаемого объекта. Многолетний опыт анализа ИК спектров обобщен в монографиях и справочных руководствах, а накопленный спектральный материал представлен не только в многочисленных атласах и каталогах спектров, но и в современных базах данных.
В отличие от масс-спектрометрии в ИК спектроскопии хорошо развита теория расчета спектров, позволяющая, в частности, рассчитывать частоты, формы и интенсивности колебаний достаточно сложных органических молекул.
Успехи в области ИК Фурье-спектроскопии позволяют регистрировать спектры в газовой фазе, не искаженные влиянием среды. Сопряженные с хроматографическими установками ИК Фурье-спектрометры обеспечивают регистрацию спектров индивидуальных компонентов достаточно сложных смесей.
К недостаткам, ограничивающим применение ИК спектроскопии в различных областях химии и ее приложений, в частности, в органической химии, можно отнести сильное влияние на вид ИК спектра условий его регистрации, а также существенную (в ИК шкале) ширину наблюдаемых полос поглощения в случае записи спектров жидких или твердых форм образцов. Заметим, что именно в этих агрегатных состояниях представлен на твердых копиях или машиночитаемых носителях основной экспериментальный материал, накопленный за полувековую историю использования метода в практике химического анализа.
Характерная для ИК спектроскопии индивидуальность спектров соединений, наряду с высокой перекрываемостью полос поглощения различных по химической природе групп, часто ставят в тупик даже опытный исследователей, пытающихся отнести изучаемый объект к одному из химических классов. Трудность однозначного установления связи структуры молекулы с соответствующим спектром или фрагмента структуры с фрагментом спектра вынуждает обращаться к другим экспериментальным методам. Интерпретация полученных результатов с целью решения структурных задач удается высококвалифицированным специалистам, владеющим опытом анализа спектров изучаемого химического класса соединений. В тех же многочисленных случаях, когда сведения о природе объекта скудны (анализ объектов окружающей среды, криминалистика, анализ природных продуктов и т.п.), часто возникают непреодолимые затруднения в оценке выносимых заключений. В этих случаях существенную помощь оказывают не столько базы знаний и корреляционные таблицы, сколько базы фактографических данных о ранее исследованных и зарегистрированных колебательных спектрах молекул.
Аналитическая ИК спектроскопия, оснащенная современным информационным инструментарием, обеспечивающим быстрый отбор из десятков тысяч спектров ограниченного числа записей, релевантных запросу, открывает принципиально новые возможности при решении спектро-структурных задач. Индивидуальность спектра - своеобразный «паспорт» вещества - давно и широко используется для идентификации соединения по его ИК спектру [. Сегодня трудно представить современную аналитическую службу, не обладающую информационно-поисковым инструментарием и базой данных, содержащей десятки (или даже сотни) тысяч ИК спектров разнообразных соединений. Тождественность зарегистрированного спектра с одним из спек- ^ тров базы данных, устанавливаемая компьютером за секунды, - современный 4 уровень спектроскопии и информационных технологий в структурных исследованиях. Надо ли говорить, что еще 20 лет назад задача идентификации соединения по спектру традиционными методами требовала длительной и трудоемкой работы самого исследователя.
Успехи, достигнутые в области развития компьютерных средств интерпретации спектров, базирующиеся на методах «искусственного интеллекта», распознавания образов, статистических методах, нейронных сетей и т.п., блестяще демонстрируют перспективность математически обоснованных приемов интерпретации ИК спектров и базирующихся на них систем.
Наиболее развиты среди них системы, базирующиеся на использовании баз знаний - накопленных ранее закономерностей и спектро-структурных корреляций. Математический аппарат этих систем формализует обобщенный интеллект исследователя, методы, пути и приемы решения поставленной задачи. Отсюда название - «системы искусственного интеллекта», «экспертные системы». Современные версии таких систем позволяют решать задачи установления строения соединения по спектру, выявления функциональных групп, заданной компоненты в смеси неизвестного состава и т. д. Основной и-' недостаток систем этого типа заключается в необходимости задания правил интерпретации, формулируемых индивидуально для каждой из решаемых задач. Недостатком является и ограниченность системы рамками заданных и описанных правил, характеризующих заранее заданный набор фрагментов, представляющих те или иные особенности строения изучаемых соединений.
Анализ и сопоставление используемых приемов решения спектро-структурных задач позволяют выделить, как наиболее перспективные, два метода. Первый опирается на базы знаний (искусственный интеллект, экспертные системы), второй - на базы фактографических данных о спектральном поведении разнообразных соединений.
Выбирая в качестве основного направления данной работы развитие второго подхода, мы исходим прежде всего не из его преимуществ перед первым, а из перспектив создания средств, которые бы не имели ограничения на классы анализируемых соединений и опирались на использование всего накопленного экспериментального материала в виде баз данных "структура соединения - его ИК спектр".
По нашему глубокому убеждению ни одна из даже самых детализированных таблиц спектро-структурных закономерностей в ИК и, соответственно, базы знаний, не обладают той полнотой спектро-структурной информации, которая содержится в непрерывно пополняющихся все новыми экспериментальными сведениями базах данных «структура - спектр». Вопрос заключается лишь в том, как извлечь необходимую на том или ином этапе исследований информацию, и какие средства обеспечат наиболее эффективное решение задачи.
Во взаимосвязи «структура - спектр», безусловно, важны и значимы обе компоненты. До недавнего времени, на начальных этапах исследования приоритет отдавался спектрам. В этой области разрабатывались средства наполнения БД, быстрого поиска требуемых по запросу спектров в крупных БД, методы сокращения (сжатия) информации, алгоритмы классификации и т.п. Несомненно, это обусловлено не столько недопониманием роли необходимости хранения и анализа связи структура - спектр, сколько отсутствием средств анализа структурной информации. Развитие вычислительной техники и появление программно-технического инструментария для ввода структурных данных привело к созданию информационно-поисковых систем и БД нового поколения, содержащих не только полную спектральную кривую (полный ИК спектр), но и представление структуры соединения - его структурную формулу. В этот же период начинают разрабатываться средства манипулирования структурными данными: структурный и подструктурный поиск, генерирование структур по заданному набору фрагментов, новые методы представления структурных данных, обеспечивающие их эффективную обработку средствами ЭВМ и т.п. Однако, до сих пор коммерческие системы в ИК спектроскопии, содержащие базы вида структура - спектр, используют структурные сведения лишь как средство отображения поисковых данных.
Традиционное представление структуры соединения - молекулярный граф. Его математическая модель описания - матрица связей, не диагональные элементы которой - типы связей, а диагональные - типы вершин (атомы или группы атомов). Хорошо известно, однако, что математический аппарат работы с матрицами связей сложен и трудоемок, поскольку графы типичных для органической химии соединений содержат десятки вершин. Это обстоятельство сдерживает активное использование сведений о структурах и фрагментах структур в системах, обеспечивающих анализ спектральных и структурных данных. С другой стороны, ИК спектры в БД могут быть представлены векторами Аппарат работы с векторами прост, хорошо проработан и используется в современных информационных системах. Очевидно, что задачу одновременного анализа спектров и структур соединений можно было бы существенно упростить, если структуры соединений (как и спектры) представить в виде векторов. Попытка такого представления и оценка перспектив его использования в информационных системах по ИК спектроскопии и являлась одной из целей настоящей работы.
Выбирая способ описания структур с помощью векторов, мы на данном этапе остановились на описании структур исчерпывающим набором неизоморфных связных Л-вер шинных фрагментов, начиная с двухвершинных, до некоторого заданного числа вершин. В этом состоит принципиальная новизна подхода.
В данном исследовании анализ связи структура - спектр проводится не с позиции заранее заданного (и всегда ограниченного) набора фрагментов, как это делается, например, в системах «искусственного интеллекта», а с позиции анализа исчерпывающего и, разумеется, заранее не заданного списка фрагментов, характеризующего все представленное в БД многообразие структур органических соединений. Оценка достигаемых при этом результатов и составляет основную цель данного исследования.
В ходе исследования впервые для выявления структурных особенностей исследуемого соединения по его ИК спектру предложено использование базы данных нового вида «фрагментный состав соединения - его ИК спектр». Обосновано применение в БД по РЖ спектроскопии представления структурных формул соединений в виде полного набора неизоморфных Л-вершинных связных фрагментов с числом вершин от 2 до 7. Предложена и апробирована методология выявления сведений о фрагментах структуры изучаемых соединений, базирующаяся на использовании информационно-поисковых систем с крупными БД по ИК спектроскопии молекул и анализе информации, извлекаемой из фрагментных составов молекул, обладающих ИК спектрами, наиболее похожими на спектр исследуемого вещества.
Впервые исследовано влияние частоты встречаемости А-вершинных связных фрагментов в структурных формулах соединений поисковых ответов и базы данных на результат идентификации фрагментов изучаемых соединений. Выявлены соотношения корректно и ошибочно распознаваемых фрагментов при различных экспериментальных условиях. Показано, что определяемые фрагменты могут достаточно полно характеризовать строение исследуемого соединения. Впервые получены статистические данные, характеризующие вероятность и достоверность распознаваемых по ИК спектрам фрагментов. Показано, что основанная на поисковом принципе методология обеспечивает надежную идентификацию нескольких тысяч самых разнообразных структурных фрагментов органических соединений. Предложен и апробирован метод построения и ранжирования вероятных структур изучаемого соединения, основанный на использовании информации, извлекаемой из анализа его ИК спектра с помощью базы данных «ИК спектр - фрагментный состав соединения».
Выполнение этой работы было бы невозможно без передачи в распоряжение автора базы данных по И К спектроскопии вида «структура-спектр», сформированной большим коллективом лаборатории, руководимой к.х.н. М.И. Подгорной. Всему этому коллективу автор приносит свою искреннюю благодарность. Автор глубоко признателен сотрудникам лаборатории, в которой он выполнял данное исследование, за их поддержку, помощь в реализации и конструктивное обсуждение этапов работы. Особую благодарность автор приносит своему руководителю - к.х.н. В.Н. Пиоттух-Пелецкому, а также руководителю Научно-технического центра химической информатики - д.х.н., профессору Б.Г. Дерендяеву за постановку темы исследования, постоянный интерес и творческий вклад, обеспечившие выполнение целей сформулированных в работе.
ГЛАВА 1. Базы данных по ИК спектроскопии и их использование для определения структурных особенностей соединений по их спектрам (обзор литературы)
Рекомендованный список диссертаций по специальности «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», 05.13.16 шифр ВАК
Количественная спектроскопия ЯМР поликомпонентных систем из природного органического сырья2007 год, доктор химических наук Рохин, Александр Валерьевич
Рентгеновская флуоресцентная спектроскопия высокого разрешения с использованием органических кристаллов-анализаторов и анализ электронной структуры молекулярных и конденсированных соединений 2Р-элементов2000 год, доктор физико-математических наук Окотруб, Александр Владимирович
Корреляционные модели для расчета физико-химических свойств и биологической активности органических соединений2007 год, доктор физико-математических наук Цыганкова, Ирина Глебовна
Генерирование молекулярных графов с заданными структурными ограничениями1997 год, кандидат физико-математических наук Молодцов, Сергей Георгиевич
Масс-спектрометрия отрицательных ионов природных сероорганических соединений2000 год, доктор химических наук Шмаков, Валерий Серафимович
Введение диссертации (часть автореферата) на тему «Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения"»
Революционные изменения характера исследований в области установления строения синтезируемых или выделяемых веществ природного и антропогенного происхождения вызваны в первую очередь проникновением в практику анализа разнообразных методов спектроскопии молекул. За полувековой период их использования накоплен обширный экспериментальный материал и эмпирические знания, характеризующие корреляционные связи поведения фрагментов молекул и соответствующего спектрального отклика. Начиная с конца 60-х годов, впервые появляются публикации, рассматривающие вопросы использования ЭВМ для целей создания баз данных (БД), а также использования математических методов анализа информации колебательной спектроскопии молекул с целью решения задач установления строения соединений по их ИК спектрам. Уже в этот период формируются два основных направления исследований. Первое - создание систем на основе «искусственного интеллекта», получивших в последнее время название экспертные системы. Второе - создание систем на основе использования фактографических баз данных.
Этапы развития первого направления детально рассмотрены в ряде монографий и обзоров [1-13], включая обстоятельные обзоры достижений за последнее десятилетие, представленные одним из основателей этого направления - М.Е. Эляшбергом [9-13]. Несколько иначе обстоит дело с обозрением успехов во втором направлении. Вероятно, можно с уверенностью утверждать, что наиболее детальный обзор в этой области РЖ спектроскопии представлен Луинжи [8] в 1990 году. Более поздние обобщения литературных " данных, за редким исключением [14], рассматривают вопросы совместного использования БД по различным видам спектроскопии молекул (масс
13 спектрометрии, спектроскопии протонного, углеродного ядерного магнитного резонанса, инфракрасной, ультрафиолетовой спектроскопии, см. например [10]) и поэтому не уделяют должного внимания одному из наиболее доступных и широко распространенных в практике методов - ИК спектроскопии. В то же время базы данных с соответствующим программным обеспечением «будут широким средством анализа в 21 веке» [15]. Эти обстоятельства, а также поставленные в работе цели и используемый для их решения инструментарий и определили основную направленность литературного обзора.
1.2. Автоматизированные БД по ИК спектроскопии /
В течение многих лет коллекции спектроскопических данных создавались в виде печатных форм: атласы спектров, перфорированные карточки и картотеки, каталоги на микрофишах и т.п. В сочетании с известными спектро-структурными корреляциями [16-19] они оказывали существенную помощь химикам и спектроскопистам при интерпретации спектров органических соединений. С появлением ЭВМ и осознанием их возможностей (в конце шестидесятых годов) опубликованная фактографическая информация начинает переноситься на машинно-читаемые носители. Причины столь давнего интереса к формированию компьютерных баз по ИК спектроскопии вытекают из осознания их практического потенциала для аналитической и органической химии, ожидаемой легкости доступа к автоматизированным БД и известной индивидуальности ИК спектров органических соединений.
Ряд первоначально созданных и опубликованных коллекций данных по ИК спектрам, зарегистрированным на призменных и решеточных спектрометрах, например коллекция Садтлера [20], и в настоящее время могут считаться эталонными. Не случайно эта коллекция продолжает и сегодня пополняться ИК спектрами соединений в конденсированной или в газовой фазе. Однако, все более значимыми, емкими и распространенными в практике ста
14 новятся компьютерные БД по ИК спектроскопии, содержащие, наряду с опубликованными ранее, ИК спектры, зарегистрированные на современных спектрометрах. Приведем в качестве примера данные о количестве спектров в различных БД, представленные в обзоре [10].
Таблица 1.1
Базы данных по ИК-спектрам поглощения со структурами соединений
Коллекция Число спектров Комментарии
Sadtler 160 ООО часть БТ-Ж
Sadtler vapor phase 9 200 БТ-Ж
Sprouse Scientific много небольших коллекций
Aldrich-Nicolet 17 000 —
Sigma-Nicolet 10 600 —
Aldrich vapor phase 5 000 —
NIST/EPA vapor phase 5 244 —
NIMCR Japan 46 400 —
Speclnfo 22 600 17 000 полных спектров 6 600 положений полос
Coblentz Society 10 500 4 400 полных спектров
IRDC Japan 19 000 длины волн и интенсивности
По способу доступа [21 ] спектральные БД можно разделить на централизованные и локальные. Централизованные - крупные БД, создатели которых стремятся включить в их состав как можно больше доступной информации. Эти БД, как правило, создаются в коммерческих целях (поставляются с современным спектральным оборудованием), а также для коллективного пользования; в последние годы часть из них доступна по сетям ИНТЕРНЕТ. Локальные БД создаются, пополняются и используются их владельцами. Отбор спектров в локальные БД производится в соответствии с научными интересами их создателей [22-24].
Объединение локальных БД или их присоединение к существующим централизованным БД не всегда оказывается возможным. Причина этого состоит в том, что локальные БД могут сильно различаться по качеству спек
15 тральной информации. Компании, занимающиеся созданием коммерческих БД, и международные организации (С OD ATA, IUP АС), заинтересованные в развитии существующих централизованных БД, предлагают стандарты записи спектров ИК поглощения [25-26] и стандарты обмена спектрами [27-29], например, JCAMP-DX [27].
Основные концепции создания компьютерных БД (отбор, оцифровывание данных, контроль качества спектров, характер дополнительной информации и форматирование данных), рассмотренные в работе [30], не устарели до сих пор, правда, функцию оцифровывания спектра взял на себя современный спектрометр. Сведения об условиях регистрации спектра, структуре соединения и другая сопровождающая спектры информация обычно хранятся в отдельных файлах БД. Организация взаимодействия между файлами зависит от поставленных задач.
Поддержка, пополнение существующих централизованных БД и расширение доступа к ним стоят чрезвычайно дорого [31-32], не сулят научных лавров [33] и невозможны без государственных дотаций. Так, БД 5500 полных ИК спектров, созданная к 198$í\ при помощи правительственных субсидий, не была пополнена до 15000 спектров (в соответствии с планом) из-за прекращения государственного финансирования [33]. Как пишет Хеллер, [34],<:>р «экономические проблемы численных БД связаны с тем, что данных слишком мало и слишком много». При небольшом объеме данных трудно привлечь исследователей к активному использованию БД, в то же время стоимость хранения и поиска информации возрастают с увеличением баз. Огра- / ниченный размер качественных спектральных банков данных препятствует прогрессу в области автоматического установления строения соединений (в настоящее время описано около 20 млн. соединений).
Несмотря на отмеченное, работы в области пополнения БД по ИК спектроскопии продолжаются [15,35].
16
1.2. Поисковые алгоритмы и оценка их эффективности
Информационно-поисковые системы (ИПС), содержащие как компоненту БД по ИК спектроскопии, обеспечивают сравнение спектра неизвестного соединения со спектрами БД. Результатом поиска обычно является список соединений (поисковый ответ), спектры которых наиболее похожи на предъявленный. Результативность поиска зависит от величины БД, способа представления в ней спектров, меры подобия (различия) сравниваемых спектров и применяемого поискового алгоритма. Эти же факторы влияют на скорость поискового процесса.
В первых ИПС [36], когда существовали ограничения на размер памяти ЭВМ, занимаемой БД, спектры представляли в существенно сокращенном виде, например, в виде бинарных кодов (спектральный файл А8ТМ). В этом случае весь спектральный диапазон разбивался на интервалы, а присутствие или отсутствие сигнала в каждом интервале описывалось бинарным вектором (коды единица или нуль). Для увеличения эффективности поиска (разрешающей способности) в ряде ИПС учитывались положения наиболее сильных сигналов в спектрах [37] и/или использовались сведения об интенсивно-стях и полуширинах спектральных полос [38]. С увеличением памяти и быстродействия ЭВМ стало возможным создавать библиотеки полных спектров ИК поглощения и проводить поиски по соответствующим спектрам запроса.
Для оценки меры близости спектров (спектра неизвестного соединения и эталонного спектра из БД) используют разные математические функции. Среди них: сумма квадратов разностей; сумма абсолютных величин разностей интенсивностей спектральных полос или их первых производных [39]; вычисление коэффициентов корреляции [40] или функции взаимной корреляции [41-42]; нечетные моменты в функции взаимной корреляции [43], метрика Гротча [44], методы нечёткой логики [42,45-47] и др. [8,48]. Хорошие результаты достигаются при использовании менее строгих эмпирических функций [49]. Вероятно это обусловлено высокой чувствительностью ИК спектра к условиям его регистрации. Спектры тождественных соединений, >/ строго говоря, не тождественны, хотя до сих пор бытует мнение, что «ИК-спектр - своеобразный паспорт соединения» или его «отпечаток пальцев».
Для ускорения процедуры поиска используют различные приемы, например, сокращение информации в поисковых файлах путем обнуления малоинформативных спектральных интервалов [50] или файлы с иным видом сокращенных спектров [37]. Метод поиска, в котором для идентификации спектров используют только фазовые компоненты Фурье-преобразования [51], позволяет идентифицировать спектры, полученные в разных инструментальных условиях. Ряд эффективных приемов на основе методов факторного анализа и собственных векторов предложен в работах [52-57]. Предварительный отбор спектров по положению сигналов, а затем сравнение полных спектров выборки [8, 58] или предварительная оценка подобия отдельных частей полных спектров рассмотрены в работе [59].
Для хранения и поиска ИК спектров используют иерархические деревья [60,61]. В этом случае много времени занимает построение дерева, но затем процесс поиска происходит довольно быстро. Разработан алгоритм, позволяющий повторять поиск в узлах дерева, это приводит к более качественным результатам, но занимает больше времени [62]. В работе [63] предлагается для интерпретации ИК спектров применять методы нечеткой логики.
Методы оценки эффективности библиотечного поиска (library search) при идентификации соединений достаточно просты: субъективная оценка списков соединений, полученных в результате поиска с использованием некоторой заданной выборки; расчет процента правильно идентифицированных соединений среди заданного списка отбираемых в поисковый ответ соединений. Результат идентификации (т.е. отбора из БД того же самого, что и заданное соединение, спектр) в этих случаях сильно зависит от качества спектров БД и выборки.
18
Иная количественная оценка эффективности библиотечного поиска, предложена в [64] - метод QELS (Quantitative Evaluation of Library Searching Performance). Используя её, авторы [65] изучали влияние привнесенного в спектры шума на эффективность библиотечного поиска и установили, что для спектров в газовой фазе отношение сигнал/шум от 2 до 5 приводит к хорошим, а свыше 5 - к отличным результатам поиска. Метод QRM (Quantitative Reliability Measure) [66] является развитием QELS. Мера количественной надежности (достоверности) поисковых результатов использовалась для оценки двух метрик сравнения спектров - евклидовой и скалярного произведения в работе [67].
Более сложный подход ставит задачу оценки эффективности поиска не полностью тождественных эталонам соединений, а подобных им по строению. В этом случае возникает проблема определения структурного подобия соединений, обладающих спектрами, подобными с эталонами. Она неоднократно обсуждалась в литературе [68]. Удачный пример ее решения представлен работой [69], ср. с [70].
Исследованию эффективности библиотечного поиска в конкретных ИПС посвящены обстоятельные работы группы Клерка [71-73]. В частности, в [71] оценивается влияние условий регистрации образца (концентрации, примесей, коррекции фоновой линии) на результаты спектрального поиска для коммерческих ИПС, а в работе [73] сопоставляются результаты использования различных ИПС на одной и той же выборке «эталонных» данных.
1.3. Использование БД по ИК спектроскопии для установления строения органических соединений.
В традиционной практике качественного органического анализа с использованием баз данных решают две принципиально различающиеся задачи. Первая - идентификация соединения по спектру. Она может быть решена, если спектр искомого соединения ранее зарегистрирован и содержится в БД. Вторая, существенно иная задача - установление особенностей строения соединения, если его спектр по каким-то причинам не найден в БД или отсутствует в ней. Программный инструментарий, используемый в данных случаях, существенно различается. Системы первого вида доведены до коммерческого состояния (ими снабжаются современные ИК спектрометры), системы второго вида находятся в стадии разработки.
Рассмотрим кратко какие возможности предоставляют исследователям ИПС, составляющие часть матобеспечения современного спектрометра.
Фирма Brucker в кооперации с лабораторией Садтлера предлагает две ИПС для поиска по ИК спектрам в БД Садтлера [74]. Комплекс программ BIRSY предназначен для поиска по полным спектрам и включает в себя четыре режима: поиск по спектрам, по положению отдельных полос, по дополнительной информации и комбинированный поиск. Спектры соединений, отобранных в результате поиска, могут быть отображены на экране одновременно со спектром неизвестного соединения для визуального сравнения и идентификации. Дополнительная информация о соединении состоит, как минимум, из его названия и может включать молекулярный вес, молекулярную формулу, номер по CAS и т.п. Режим комбинированного поиска объединяет или все три предыдущих режима или любые два из них. Номера по каталогу Садтлера и названия отобранных в поисковый ответ соединений, упорядоченные по убыванию меры спектрального совпадения, могут быть выведены на печать или экран дисплея.
Поисковая система SPECSEARCH [74] предназначена для работы с БД усеченных ПК спектров Spec-Finder, в которой они представлены набором из 27 положений полос поглощения в шкале частот. Такой способ описания данных позволяет значительно экономить дисковую память. Для проведения поиска спектр неизвестного соединения преобразуется в необходимый формат. Результаты представляются в таком же виде, как и в системе BIRSY.
Интересно проследить* этапьГразвития ИПС по спектрам инфракрасного поглощения в Новосибирском институте органической химии СО РАН. Уже в первых ее вариантах для ЭВМ БЭСМ-6 [37], Минск-32 [75] и ЭВМ серии ЕС [76], разработанных под общим руководством академика В.А.Коптюга в 70-х - 80-х годах, предусмотрено выполнение следующих операций: ввод, проверка и занесение в БД кодированных спектров соединений и дополнительной информации, исправление находящихся в БД записей, поиск спектров соединений по заданным спектральным признакам и выдача результатов на печать, поиск соединений, спектры которых близки предъявленному, получение спектро-структурных корреляционных зависимостей при помощи статистической обработки массива [77]. БД системы формировалась на основе каталогов DMS и Садтлера и содержала, помимо спектральной информации, номер соединения по атласу, название, молекулярную формулу, молекулярный вес, температуру кипения и плавления.
В БД спектры хранились в сокращенном виде. Весь частотный диапазон разбит на 48 интервалов. В каждом спектре выделены 16 наиболее интенсивных полос поглощения и отмечены интервалы, в которые попадают эти полосы. В поисковом запросе требовалось указать, в каких интервалах спектра должны обязательно присутствовать или отсутствовать сигналы (обязательные признаки), и в каких сигналы могут быть или не быть (желательные признаки). Желательные признаки могли вводиться с весовыми коэффициентами, и отобранные из БД спектры ранжировались в соответствии с суммой весовых коэффициентов для желательных признаков.
21
Принципиально новая версия системы разработана для ЭВМ серии ЕС (ВАЖЖ-Р) [78] и для персональных ЭВМ (ВАЖЖ-РС) [79] на базе данных, содержащей полные ИК спектральные кривые и структурные формулы индивидуальных соединений. Эти версии систем предусматривают работу как в пакетном, так и в диалоговом режиме; ввод, корректировку и хранение поисковых запросов; последовательный и прямой доступ к информации; поиск по всем присутствующим в записях БД характеристикам; управление выводом отобранной при поиске информации. Некоторые из перечисленных здесь возможностей и определили выбор этой системы как базовой при выполнении исследований, изложенных в данной диссертационной работе.
В целом отметим, что высокая результативность использования коммерческих систем при решении задач идентификации известных соединений по ИК спектрам превратила их в простой метод анализа, находящий все более широкое применение в практике криминалистических служб, контроле и охране окружающей среды, контроле продукции химических производств, сельхозпродукции и т.п.
Сложнее обстоит ситуация с системами, предназначенными для установления строения новых соединений по их ИК спектрам. Несколько обстоятельств сдерживали их развитие. Главные из них следующие. Необходимость создания и поддержки баз структурных данных, а также необходимость программного обеспечения манипулирования не только спектральной, но и, что более существенно для систем этого типа, - структурной информацией. Объем программных компонент манипулирования структурными данными, как оказалось, выходит за рамки уже разработанных для систем «искусственного интеллекта». Длительное время исследования в этом направлении опирались на гипотезу о наличии симбатности между спектральной и структурной аналогией соединений [68]. Экспериментальное подтверждение на обширном материале эта гипотеза получила лишь в самое последнее время [80,81]. Наконец, определенное влияние оказывали высказывания ряда авторов [11] о преимуществах экспертных систем перед информационно-логическими, опирающимися на принцип использования крупных БД по ИК спектроскопии.
В работах [49,82] ИПС с соответствующим дополнительным программным обеспечением использованы для опознания крупных связных структурных фрагментов неизвестного соединения. В [49] поиск проводился по БД, содержащей ~ 10000 ИК спектров органических соединений. В поисковый ответ отбирали 20 соединений с максимальными значениями спектральной близости. Из структур отобранных по ИК-спектру соединений выделяли связные фрагменты, состоящие не менее чем из пяти неводородных вершин и присутствующие, по крайней мере, в двух структурах поискового ответа. Полученные неизоморфные фрагменты проверяли на соответствие молекулярной формуле и формальной ненасыщенности изучаемого соединения. С целью выявления наиболее вероятных для структуры исследуемого соединения фрагментов проводилось их ранжирование. Для этого сначала в спектрах соединений поискового ответа, содержащих проверяемый фрагмент, находили общие спектральные признаки - близкие по частотам полосы поглощения. Таким образом определяли "спектр" фрагмента. Спектры фрагментов сравнивали со спектром исследуемого соединения и ранжировали фрагменты по значению меры близости спектров. При этом предполагалось, что чем выше значение меры близости сравниваемых спектров, тем более вероятно присутствие фрагмента в структуре исследуемого соединения. Примеры некоторых фрагментов, выявленных при анализе соединений [49] и [ 82] представлены в таблице 1.2.
Для оценки эффективности подхода в работе [49] решено 50 задач. В 31 случае из соединений поискового ответа выделен хотя бы один связный фрагмент, удовлетворяющий условиям по размерам и частоте встречаемости. В 68^случаев первое место в ранжированном списке занимал корректный фрагмент. Средние размеры корректных фрагментов составляли более 50% размера структуры исследуемого соединения. Авторы считают, что описанный подход позволяет определить присутствие в неизвестном соединении таких фрагментов, которые не могут быть выявлены при помощи корреляционных таблиц. Замечено в то же время, что выявляемые некорректные фрагменты в общем не противоречат анализируемым ИК спектрам и могут быть отвергнуты только после дополнительного и тщательного анализа.
Таблица 1.2.
Примеры максимальных общих фрагментов, выявленных при анализе структур ПО. а) и б) - в работе [49], в) и г) в работе [82].
Структура «неизвестного» соединения Корректный фрагмент Некорректный фрагмент а) CjN / \ О N— / \ О NCHr б) О /-V СНз Хс——N-CH2CH2CN H \-/ -/(^)WN-CH2CH2CN
В) О О 'à О Л
Г) ^Sj О » 0Р
Система интерпретации ИК-спектров IDIOTS - Infrared spectra Documentation and Interpretation Operating with Transcripts and Structures. [83] - использует структурно-ориентированную БД, которая содержит 17000 спектров и топологических кодов структур. Все спектры зарегистрированы на Фурье-спектрометрах в лаборатории BASF. Для введенных с терминала и проверенных структур кроме топологического кода определяются и хранятся коды входящих в них подструктур (послойное описание сферического окружения каждой вершины, HOSE и HORD коды). Вместе со структурной информаци
24 ей хранятся регистрационные номера CAS, номер по каталогу Садтлера или по другим каталогам, название по Chemical Abstracts, ссылка на номер в дру
13 гом спектроскопическом банке (например, С-ЯМР), молекулярный вес, молекулярная формула, регистрационный индекс структуры (чтобы избежать
Ни* повторы записеи).
Наряду с традиционными для ИПС возможностями, система IDIOTS позволяет реализовать: подструктурный поиск; статистический анализ подструктур; выявить распределение частот полос поглощения ИК спектров выборки; автоматически получить «интерпретационные» правила, проверить и оптимизировать эти правила и ряд других.
Для поиска фрагментов и подструктур создан инвертированный файл структурных фрагментов. Подструктурный поиск - первый шаг построения интерпретационных правил. Второй шаг - моделирование спектра фрагмента. При поиске по фрагментам просматриваются все спектры, в структуры которых входит данный фрагмент. Программа проверяет, насколько часто в отобранные структуры входят другие фрагменты, способные повлиять на спектральные характеристики. Выбирается самый статистически значимый фрагмент. Для этого фрагмента рассчитывается частотное распределение полос поглощения. На этом этапе делаются грубые предположения о спектро-структурных корреляциях. Из частотного распределения для фрагмента вычитается среднее частотное распределение для всей библиотеки; предполагается, что при этом остаются характеристические частоты фрагмента. Полученная информация автоматически записывается в набор интерпретационных правил; полосы собираются по интервалам, интенсивностям и ширине и превращаются в правила, которые затем проверяются и улучшаются. Заметим, что в процессе подструктурного поиска отбираются только подструктуры, характеристичные для ИК.
25
Первоначальные тесты такого подхода дали обнадеживающие результаты. В статье приведен пример интерпретации ПК спектра: четыре отобранных фрагмента покрывают всю структуру исследуемого соединения.
Разработчики системы SEARCH, представленной работой [84], применили предложенные в статье [77] статистические методы создания и использования корреляционных таблиц и составили таблицы для 49 структурных фрагментов (Possible Structure Units). Интерпретирование ИК спектров (т.е. опознание фрагментов из этого списка) неизвестных соединений в этом случае проводится в два этапа. На первом этапе наиболее значимые полосы спектра сопоставляются со структурными фрагментами и в отдельные файлы отбираются спектры соединений, содержащие фрагмент, удовлетворяющий запросу. На втором этапе среди спектров отобранных соединений проводится поиск по сигналам, не использованным ранее для выявления фрагмента. Предлагаемый способ двухэтапного поиска авторы считают очень плодотворным для интерпретации спектров неизвестных соединений. К сожалению, в работах [77,83,84] сообщается только о возможности интерпретации спектров и не приводится никаких статистических данных о том, насколько корректно и полно можно, используя предложенные методы, установить фрагменты структуры неизвестного соединения.
Как видно, состояние систем по ИК спектроскопии, основанных на поисковом принципе, пока не позволяет формулировать основную задачу - формирование вероятной структуры исследуемого соединения по ИК спектру, если соответствующая запись отсутствует в БД системы.
26
1.4. Интегрированные ИПС, использующие базы данных по ИК спектроскопии.
Использование поисковых систем по нескольким видам спектроскопии молекул (например, масс, ЯМР, ИК) для решения структурной задачи по набору экспериментальных данных наиболее перспективно. Оно позволяет получить более точные и подробные сведения о строении исследуемого соединения. Предположение об этом впервые высказано в начале 70-х годов, тогда же создаются первые комплексные (интегрированные) ИПС, называемые иногда в литературе мультиспектральными. Интегрированные ИПС или объединяют в своих БД различные виды спектральных данных, или обеспечивают доступ к различным БД в рамках единой программной оболочки. Сведения об истории развития и исследований в области создания систем этого вида могут быть найдены в опубликованных ранее обзорах [8,10,12]. Ожидаемые перспективы их в применения в химической практике хорошо представлены обобщающими статьями [85,86] и в книгах [2,3].
В этом разделе будут рассмотрены описанные в последнее время в литературе примеры наиболее развитых интегрированных ИПС, а также ряд исследований, связанных с решением спектро-структурных задач с помощью ИПС по различным видам спектроскопии молекул. Однако прежде чем сделать это, акцентируем внимание на одном важном замечании.
Основная цель создания интегрированных ИПС - полное решение задачи установления строения неизвестного соединения по набору его молекулярных спектров. Ее решение достигается спектральным поиском и формированием на основе анализа его итогов списка вероятных фрагментов структур изучаемых соединений. Затем, с учетом выявленных фрагментов и молекулярной формулы соединения, генерируются возможные структурные формулы соединения и моделируются их спектры. Наконец, на основе совпадения модельных спектров с экспериментальными выбирается действительная структура изучаемого соединения. Как видим, системы этого типа содержат все основные компоненты экспертных систем. В них впервые стирается грань между подходами к анализу спектров на основе использования баз данных и искусственного интеллекта, опирающегося на базы знаний.
Неслучайно поэтому мультиспектральную информационно-поисковую систему 8рес1п:Го [87-91] авторы предлагают использовать как экспертную систему для решения структурных задач по набору экспериментальных данных. База данных этой системы интегрирована, т.е. она представляет собой набор БД по различным видам молекулярных спектров. Первые варианты системы предназначались для интерпретации спектров углеродного магнитного резонанса (13С-ЯМР). Поскольку сигналы |3С-ЯМР можно непосредственно связать с углеродсодержащими вершинами структуры (молекулярного графа), а спектро-структурные корреляции соответствующих атомов определяются их ближайшим окружением, то для решения задачи идентификации фрагментов по спектрам разработаны так называемые Н08Е/Н01Ш коды. Суть этого метода кодирования состоит в "послойном" описании сферического окружения центральной вершины. Подобное описание позднее распространено и на БД, содержащие другие виды спектров ('Н-ЯМР, ПК, МС) [87].
Решение задачи установления строения неизвестного соединения средствами системы 8рес1п1о предлагается проводить следующим образом.
По каждому виду спектров проводится поиск в соответствующей БД и в поисковый ответ отбирается 20 соединений, имеющих наибольшую степень спектрального подобия. Структуры отобранных в поисковый ответ соединений разбираются НОБЕ/НСЖЕ) кодом на подструктуры. Список подструктур упорядочивается в соответствии с их частотой встречаемости в структурах поискового ответа. Указывается также возможная частота встречаемости соответствующих подструктур в 20 структурах БД, отобранных случайным образом. Сравнение подструктур, отобранных по разным типам спектров, позволяет определить общие структурные блоки, из которых можно построить структуру исследуемого соединения. Для спектров 13С-ЯМР возможен статистический анализ фрагментов в структурах поискового ответа.
В описываемой версии системы 8рес1п£о важнейшую роль при установлении строения неизвестного соединения играют спектры 13С-ЯМР; данные по другим видам спектроскопии используются как дополнительная информация при отборе предполагаемых структур-кандидатов. Основной сервис системы связан с ИПС по 13С-ЯМР; по ИК спектрам можно решать только задачи идентификации соединения. В более поздней работе [88] для определения элементного состава и строения неизвестного соединения используются методы 13С-ЯМР и масс-спектрометрии, а ИК и 'Н-ЯМР спектры позволяют определить вид заместителей и полную конфигурацию молекулы. Система Бре-сГпйэ доступна для удаленного пользователя. Ее архитектура и возможности описаны в работах [89-91].
Использование ИПС для решения задач определения элементного состава исследуемого по нескольким спектрам соединения представлено работами [92]. В работе [93] описан метод определения не противоречащего брутто-формуле микрофрагментного состава соединения,
Предложенные в работе Лебедева [94] методы определения строения органических соединений с помощью ИПС по ИК (ИПС-ИК) и масс-спектрам (ИПС-МС) основаны на перекрестном анализе ответов поисковых систем. Поисковая система по ИК спектроскопии описана ранее [49], для поиска по масс-спектрам использована многофункциональная система КОМПАС-МС
95], содержащая около 50000 масс-спектров и структур органических соединений. Помимо процедур поиска по масс-спектру, программное обеспечение системы КОМПАС-МС позволяет определять наиболее вероятные значения молекулярной массы и молекулярной формулы исследуемого соединения
96].
Для определения структурных фрагментов неизвестного соединения проводится перекрестный анализ соединений из поисковых ответов ИПС-МС и
ИПС-ИК путем попарного сравнения молекулярных графов соответствующих структур. В каждом поисковом ответе выбиралось не более 20 первых структур. Далее проводится анализ отобранных структур с целью определения общих для них фрагментов. Требовалось, чтобы выделяемые общие фрагменты были связными и составленными не менее чем из 5 вершин. Выделенные фрагменты ранжировали по значениям параметра, зависящего от размера фрагмента и частоты его встречаемости в структурах поисковых ответов.
Эффективность метода оценена на примерах решения 50 задач, при этом размеры структур «неизвестных» соединений составляли, в среднем^ 13 неводородных атомов. В 38 случаях из структур соединений ответов ИПС-ИК и ИПС-МС выделен хотя бы один фрагмент, который состоял более чем из 5 вершин и встречался одновременно в результатах поисков по различным видам спектров. Из 309 выделенных фрагментов 161 (52%) оказался корректным, т.е. вкладывался в структуру исследуемого соединения. Выявлено, что отношение числа корректных фрагментов к числу некорректных (п+/п ) зависит от частоты встречаемости в структурах поисковых ответов:
Таблица 1.3.
Соотношение числа корректных и ложных фрагментов в поисковых ответах [94].
К 1 1 1 1 2 2 3 4
Л^- или Л^ 1 2 3 >4 >3 >4 п+/п 10/37 9/32 15/21 40/20 9/11 13/7 20/6 45/14 р\ % 21 22 42 67 45 65 76 76
Здесь 7УС - частота встречаемости фрагмента одновременно в структурах соединений ответов ИПС-ИК и ИПС-МС, ТУ,- и Л^ - частоты встречаемости фрагмента в структурах соединений ответов ИПС-ИК и ИПС-МС соответственно.)
Для оценки эффективности предложенного метода опознания структурных фрагментов исследована зависимость трех параметров от значений частотных характеристик: процент решенных задач (Р0), средний размер опознаваемых фрагментов (И7), процент корректных решений от числа решенных задач (Р,- ). Задача считалась решенной, если из структур соединений, отобранных в поисковый ответы по разным видам спектров, выделен хотя бы один пяти- и более вершинный фрагмент. Решение считалось корректным, если хотя бы один фрагмент, входящий в структуру искомого соединения, встречался среди одного, трех, пяти первых фрагментов ранжированного списка кандидатов (Р1,Р]3 и Ри5). УУ = 100 (отношение размера фрагмента к максимальному размеру фрагмента).
Таблица 1.4.
Оценка эффективности решения структурных задач с помощью поисковых систем по ИК- и масс-спектрам [94].
Частота встречаемости Ро W Pi Pi-з Р,-5
N> 1, N{ или Nm>3 68 52 79 85 91
N>2 54 47 82 85 96
N> 3 44 46 86 86 100
Только ИПС-ИК 62 54 68 85 87
Данные, приведенные в этих двух таблицах, показывают, что с увеличением частотных характеристик повышается достоверность полученных результатов, но уменьшается размер опознаваемых фрагментов и процент решаемых задач.
Использование только частотных характеристик не позволяет избавиться от некорректных фрагментов, и автор статьи предлагает привлекать на этапе ранжирования спектральные характеристики фрагментов. Дальнейшее развитие этого подхода представлено в работе [97].
При создании системы SDBS (Spectral Data Base System) [24]. разработчики придерживались двух принципов: спектры, составляющие БД, должны быть (1) - качественными и полными, (2) - разнообразными. В SDBS используется 6 видов спектральных данных: ИК, KP, 13С-ЯМР, 'Н-ЯМР, ЭПР и масс-спектры (MC), - большая часть которых получена в лаборатории авторов. Для каждого соединения в БД хранится название, молекулярный вес, структурные дескрипторы, регистрационный номер по CAS и спектральная информация по одному или нескольким видам спектроскопии. Спектры одного соединения, зарегистрированные в разных экспериментальных условиях, представлены разными записями в БД. Реализованы опции просмотра информации,
13 поиска по заданному спектру или по комбинациям спектров ЯМР и ^С-ЯМР+'Н-ЯМР), моделирования 1 Н-ЯМР и ЭПР спектров. В статье приводится только описание системы, нет иллюстрирующих ее возможности примеров и оценки эффективности использования.
В сравнительно недавних статьях [98-100] предложена поисковая оболочка SCANNET, предназначенная для работы со спектральными базами данных. Определяющим является файл, содержащий общую информацию о химических соединениях: коды канонического представления структуры, название соединения по номенклатуре ИЮПАК, регистрационный номер CAS, отдельные физико-химические характеристики, например, молекулярный вес, и сведения о количестве спектров этого соединения в спектральных файлах. Для каждого вида спектра отведено два файла, в одном хранится информация об условиях записи спектра, в другом - параметры спектра в дискрет
13 1 ной форме. Поиск может проводиться по 6 видам спектров
С-ЯМР, 'Н
ЯМР, ИК, MC, KP и УФ) и по структуре соединения. Предусмотрены возможности изменения и пополнения информации, хранящейся в БД. Предполагалось использовать систему на компьютерах IBM типа XT или АТ-286 и выше (ср. [101]).
В компьютерном справочнике SpecTool [102] содержится информация о спектральных данных (MC, 'Н-ЯМР, 13С-ЯМР, ИК, УФ). Система предназначена для компьютеров Apple Macintosh и использует среду HyperCard со встроенным в нее языком программирования HyperTalk, обладающим рядом
32 объектно ориентированных характеристик. Система представляет интерес как настольный справочник химика-спектроскописта.
В заключении этого раздела остановимся на исследованиях по разработке системы ХимАрт, представленных публикациями [86,103]. Как и рассмотренные выше, она ориентирована на работу с БД по нескольким видам молекулярной спектроскопии. Отличительная её черта - представление структур соединений в виде двух древовидных кодов. Предложенные линейные коды («глубокий» и «широкий») [104] компактны и описывают наиболее многочисленный класс структур соединений, содержащих ковалентные связи атомов в молекуле. Оригинальные свойства кодов и построенные на их основе классификаторы - лексикографически упорядоченные списки канонических кодов - позволяют эффективно манипулировать структурными базами и решать разнообразные задачи спектро-структурной практики. Глубокий код используется для быстрого подструктурного поиска - отбора из БД соединений, содержащих заданный структурный фрагмент. Широкий код - подобен НОБЕ/НОБШ кодам [83] и представляет собой «послойное» описание сферического окружения центральной вершины. Доказано, что канонические коды структур относительно центральных вершин, обладающих тождественным окружением, подобны. Это свойство кодов использовано при построении классификаторов, позволяющих быстро отбирать из БД структуры (и соответственно) спектры соединений, подобных по локальному окружению некоторых вершин соответствующих молекулярных графов.
Наряду с БД по различным видам спектроскопии система содержит сформированную машинным путем таблицу спектро-структурных корреляционных зависимостей по спектроскопии 13С-ЯМР, насчитывающую свыше 130 тыс. записей о спектральном поведении соответствующих фрагментов. Оригинальный метод выявления непересекающихся фрагментов изучаемого по спектрам соединения опирается на моделирование 13С-ЯМР спектров соединений, отбираемых по другим видам (например, масс- [97]) спектроско
33 пии, если исчерпывающая информация не получена из анализа 13С-ЯМР спектра изучаемого вещества.
Программное обеспечение системы АртХим реализовано в среде Windows в виде отдельных приложений, позволяющих выполнять следующие операции [86]:
- поиск в БД соединений, спектры которых наиболее похожи на предъявленный; (
- анализ результата поиска, с целью определения списков непере- i секающихся фрагментов, принадлежащих структуре исследуемо- i го соединения; /
- генерирование на основе молекулярной формулы и выявленных \ фрагментов исчерпывающего списка возможных структур;
- моделирование спектра 13С-ЯМР для соединения заданного строения;
- поиск по структурам и структурным фрагментам, поиск структурных ана- | логов относительно заданных вершин; I
- моделирование спектров соединений заданного строения с использованием результатов структурного поиска в спектро-структурной БД.
В работах [86,104] приведены примеры, демонстрирующие эффективность использования этой системы при решении спектро-структурных задач методами ЯМР и масс-спектрометрии. Показано, что программный инструментарий и базы данных открывают новые возможности при решении сложных задач установления строения соединений персональными вычислительными средствами. БД по ИК спектроскопии в публикациях [103,104] не используется, однако общая направленность исследований предполагает расширение системы.
34
1.5. Экспертные системы, использующие ИК спектроскопию.
Общее состояние дел в области спектроскопических экспертных систем (ЭС) хорошо представлено в последнем обзоре М. Эляшберга [13]. Для целей решения задач установления строения соединения (интерпретации спектра) в ЭС должно быть предусмотрено выполнение следующих операций [9]:
• структурно-групповой анализ (СГА) спектра неизвестного соединения с целью определения возможных структурных фрагментов;
• генерация всех структур-изомеров с учетом отобранного набора фрагментов;
• построение модельных спектров для всех или для наиболее вероятных из сгенерированных структур;
• сравнение построенных спектров с экспериментальным.
В этом разделе в очень сжатой форме дается краткая характеристика ЭС, разработанных для интерпретации ИК спектров или использующих ИК спектроскопию в качестве одного из спектральных методов. Мы приводим эти данные, учитывая, что современные ИПС, оснащенные соответствующим программным обеспечением, стремятся решать задачи, аналогичные традиционно преследуемым в ЭС. Следует отметить, что всем, предъявляемым к ЭС требованиям, отвечают полностью разработанная в России система РАСТР и ее более поздняя версия - система XPERT. В некоторых рассматриваемых ниже ЭС реализован только первый этап общей задачи установления структуры соединения по его спектру, а именно, блок определения вероятного набора фрагментов (СГА).
Характеристика экспертных систем представлена в следующем виде: название системы, (основные публикации, виды баз знаний). Краткие сведения о системе и ее особенностях.
PACTP-4, XPERT, [105-110], (ИК, 13С-ЯМР, 'Н-ЯМР). База знаний, представляет собой набор библиотек - таблиц спектро-структурных корреляций (ССК) и структурирована в виде дерева. Возможна коррекция базы знаний. Блок СГА использует методы нечетких предикатов. Реализованы генерация и изображение изомеров, выявление стереоизомеров и генерация трехмерных изображений; проверка структур; моделирование спектров; диалог с пользователем. По совокупности спектров можно установить строение соединения в автоматическом режиме с использованием стратегии АРХЕОЛОГ + СКУЛЬПТОР. Подробнее см. в [ 108,110].
EXSPEC , [111-115], (РЖ, МС). База знаний формируется из литературных ССК. Предусмотрен механизм автоматической генерации правил интерпретации. В блоке СГА по характеристическим спектральным областям вычисляется вероятность присутствия каждой из рассматриваемых (заданных базой знаний) подструктур. Фрагмент отбирается только в том случае, если все входящие в него фрагменты меньшей величины имеют вероятность более, чем 0.5. Для каждой из рассматриваемых брутто-формул (БФ) генерируются структуры из фрагментов, ранжированных по убыванию вероятности. Эффективность системы сильно зависит от типа исследуемого фрагмента и продемонстрирована только на узкой группе соединений. На примере 109 спиртов и 141 соединения, содержащих карбонильную группу получены следую- -щие результаты [112]:
Таблица 1.5.
Примеры установления строения соединений с помощью системы EXSPEC.
Фрагмент % корректных идентификаций Фрагмент % корректных идентификаций
АгОН 100 RCOOR 90
АгСОН 100 RCH20H 86
RCHO 100 RRCHOH 81
RRRCOH 96 RCOOH 78
RCOCH3 91 —
36
CHEMICS (IRRASL), [116-120], (13С-ЯМР, ^-ЯМР, двумерный 13С-ЯМР, ИК). При анализе ССК и спектра используется принципы формальной логики. Решение логических уравнений приводит к набору вероятных фрагментов. Этот набор в различных сочетаниях проверяется на непротиворечивость БФ и на возможность объединения фрагментов. Из отобранных фрагментов система генерирует изомеры, в том числе и стереоизомеры. Интерпретация ИК спектров модулем IRRASL [120] может проводиться независимо от остальной части системы.
PLATO, [121-122], (Ж, МС). Модули интерпретации ИК и МС спектров построены по разным принципам. Интерпретация ИК спектров основывается на базе правил, содержащей ССК. Задействовано два модуля. Управляющий (controller) - осуществляет выбор поисковой стратегии и формирует возможные гипотезы, а окончательное решение принимает модуль вывода (reasoner). Для каждой подструктуры определяется вероятность присутствия подструктуры в исследуемом соединении и достоверность этого сообщения. Диаграмма средних значений корректных и ошибочных заключений, иллюстрирующая возможности системы, приведена на рис. 1.1.
10 а> о Я
5 5
Си и
492 63
8,1
И1|
11
11
--
6,2
5,1
2.8
-же
1,4
2 3
Уровень доверия
Рис. 1.1. Среднее число найденных подструктур для четырех различных уровней доверия [121]. Заштрихованный столбец -число неверных подструктур. Черный столбец - число верных подструктур. Рассматривалось 500 подструктур; в каждом соединении выборки,в среднем/содержится 8,1 подструктур. Для уровня доверия 4 при «типичном анализе» найдено 6 подструктур, в среднем^б из которых верные. 3,5 реально присутствующие в соединении подструктур найдено не будет.
Е88Е8А, [123-124], (ИК, С13 ЯМР). Источником базы знаний служат литературные данные. Для вывода заключений используются логические функции. Система проводит скрининг заданных в ней фрагментов, на выходе формирует список возможных подструктур без оценки вероятности их вхождения в структуру исследуемого соединения. Рис. 1.2. на примерах решения 12 задач [124] иллюстрирует, характер извлекаемой из спектра информации.
Рис. 1.2. Примеры решения задач с помощью системы Е88Е8А.
39
PAIRS, [125-136], ( ИК ). База знаний содержит набор правил интерпретации ССК,' для их наглядного отображения для химика создан специальный язык. Позднее разработан автоматический генератор правил. Система позволяет следить за принятием решений и изменять их. Для проверки гипотез предложена процедура сравнения моделированных спектральных откликов фрагментов с исследуемым спектром. Для каждой функциональной группы определяется вероятность ее вхождения в структуру исследуемого соединения. В качестве примера приводятся две таблицы из работ [125-136].
Таблица 1.6.
Результаты интерпретации ИК спектра этилбензола [136].
Функциональные группы Вероятность
1 aromatic 0.95
2 thiophene 0.90
3 methyl 0.65
4 heteroaromatic 0.50
5 methylene 0.40
6 amine 0.40
7 amine-tertiary 0.40
8 aromatic-1,3 -substituted 0.29
9 aromatic-monosubstituted 0.29
10 aromatic-1,2-substituted 0.29
Таблица 1.7
Результаты интерпретации ИК спектра 4-терт-бутилциклогексанола [127].
Функциональные группы Вероятность
1 methyl 0.70
2 alcohol- 0.68
3 alcohol- tert-(*2*) 0.51
4 alcohol-sec-(*l*) 0.51
5 thiocarbonyl 0.50
6 amine 0.45
7 amine-secondary 0.45
8 amine-tertiary 0.40
9 ether-unsaturated 0.36
10 ether-epoxide 0.16
40
EXPIRS, [137,138], (ИК). Иерархическая организация базы знаний, для подструктур использует фреймовое описание. Блок СГА определяет альтернативные наборы подструктур, предлагая для каждого "интерпретированного" сигнала спектра единственный фрагмент. Фрагментами служат функциональные группы (около 70). Интерпретации считается корректной, если фрагмент входит в структуру исследуемого соединения.
Авторы описанных ЭС стремятся к тому, чтобы при интерпретации спектра соединения (в частности, ИК спектра) не пропустить ни один присутствующий в структуре этого соединения фрагмент из списка фрагментов, представленных правилами. В ЭС не считается недостатком избыточность получаемой информации.
Рассмотренные экспертные системы сильно отличаются друг от друга по своему "интеллекту". Число фрагментов, которые они "обучены" распознавать при интерпретации Ж спектра варьируется от 70 [38] до -900 [121]. Так / же сильно различается элементный состав соединений (ср. С, И, О, N, S, F, CL, BR, J в [117] и С, H, О в [112]), спектры которых могут быть подвергнуты интерпретации в надежде на получение его осмысленного результата.
Несколько других известных по литературе ЭС, использующих знания об РЖ спектроскопии для решения спектро-структурных задач [139-145]: CRISE, ASSIGNER, COSEPS, EXPERTIZE - достаточно хорошо представлены в указанных ранее обзорах [8,9]. Методы идентификации фрагментов на основе принципов "распознавания образов" и "нейронных сетей" выходят слишком далеко за рамки целей данного обзора, поэтому не рассматриваются в нем.
В заключении отметим несколько важных моментов, вытекающих из анализа литературных данных.
41
Два основных направления исследований, связанных с "прямым" и "косвенным" [10] использованием информации из БД по ИК спектроскопии молекул для решения задач установления строения соединения, развиваются практически независимо. В первом случае необходимы крупномасштабные базы данных, содержащие полные ИК спектры и структуры соединений, с целью развития средств распознания структурных особенностей соединения по спектру. Во втором - более доступные таблицы спектро-структурных корреляций и/или компоненты крупномасштабных БД, для формирования решающих правил (интерпретационных правил) анализа спектров соединений, содержащих заданный фрагмент. Высокая стоимость крупных БД ограничивает круг исследовательских групп и специалистов, работающих в области "прямого" использования БД. Второй ограничивающий фактор - обоснованная убежденность в том, что решить структурную задачу можно, лишь используя набор экспериментальных данных по различным видам спектроскопии молекул. Это обстоятельство, а так же известные успехи в спектроскопии ЯМР и определяют интерес к комплексным экспертным системам и комплексным системам на основе использования БД. В таких системах, однако, основная нагрузка , за редким исключением [120], ложится на плечи ЯМР, в первую очередь - 13С-ЯМР. Методы ИК спектроскопии и масс-спектрометрии играют, как правило, лишь вспомогательную роль.
В то же самое время именно эти методы выступают как основные при массовом анализе малых количеств веществ и их смесей. Бурное развитие в последнее десятилетие инструментальной хромато-ИК-масс-спектрометрии, снабжение ее соответствующими ИПС требуют дооснащения программного инструментария средствами, способствующими эффективному решению задач установления строения вновь регистрируемых по спектрам соединений. Отметим, наряду с этим, что эффективность комплексных систем, а также круг решаемых ими задач, во многом определяются эффективностью состав
42 ляющих эти системы компонентов. Одна из важнейших таких компонент -компонента анализа ИК спектров.
Огромный объем накопленного в БД по ИК спектроскопии экспериментального материала и наша глубокая убежденность в неизбежном переходе количества информации в новое качество при создании адекватных средств ее анализа послужили толчком к постановке данного исследования.
43
ГЛАВА 2. База данных «ИК спектр - фрагментный состав соединения»
Все экспериментальные результаты данного исследования получены с использованием части базы данных (БД) Научно-технического центра химической информатики (НТЦ ХИ) при Новосибирском институте органической химии СО РАН им. H.H. Ворожцова, содержащей в настоящее время свыше 60 тысяч структур органических соединений и соответствующих полных ИК спектров. Каждый полный спектр сопровождается сокращенной (поисковой) формой и набором сопутствующих данных, включающих название соединения, молекулярный вес, молекулярную формулу (брутто-формулу), условия регистрации и т.п. [76]. Структура, спектр и сопровождающая информация однозначно связаны регистрационным номером соединения в базе данных.
Похожие диссертационные работы по специальности «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», 05.13.16 шифр ВАК
Импульсные и непрерывные источники излучения для терагерцовой спектроскопии молекул и кристаллов2013 год, кандидат физико-математических наук Смирнова, Ирина Николаевна
Методы колебательной спектроскопии в задачах идентификации материалов и технологий2000 год, доктор физико-математических наук Купцов, Альберт Харисович
Методы колебательной спектроскопии в изучении конформационной изомерии ряда циклических соединений2003 год, кандидат физико-математических наук Климовицкий, Александр Евгеньевич
Новые методы расшифровки мультиплетной структуры спектров ЯМР как инструмент изучения структуры и свойств органических соединений2006 год, доктор химических наук Чертков, Вячеслав Алексеевич
Масс- и радиоспектральное исследование группового состава и надмолекулярной структуры нефтей и нефтепродуктов1984 год, доктор химических наук Унгер, Феликс Гергардович
Заключение диссертации по теме «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», Богданова, Татьяна Фоминична
ВЫВОДЫ
1. Впервые обоснована возможность представления структур соединений в виде полного набора неизоморфных А:-вершинных связных фрагментов (2 > к > 7) для выявления структурных особенностей исследуемого соединения с использованием базы данных «ИК спектр - фрагментный состав соединения». Сформирована экспериментальная база данных, содержащая описание фрагментных составов ~31 ООО структур различных органических соединений.
2. Предложена и апробирована методология опознания 2-^7 - вершинных фрагментов структуры изучаемых соединений, базирующаяся на анализе информации, извлекаемой из фрагментных составов молекул, обладающих ИК спектрами, наиболее похожими на спектр исследуемого вещества.
3. Исследовано влияние частот встречаемости фрагментов в структурных формулах соединений базы данных и в поисковых ответах на результат их идентификации по спектрам изучаемых веществ. Показано, что использование параметра неслучайности (N11) предпочтительнее по отношению к частоте встречаемости фрагмента в поисковом ответе при распознавании фрагментов изучаемого соединения. В различных экспериментальных условиях выявлены количественные соотношения между корректно и ошибочно распознаваемыми фрагментами. Установлено, что фрагменты,- определяемые с высокой степенью неслучайности (7У/?>0,95), могут достаточно полно характеризовать строение исследуемого по спектру соединения.
4. Получены статистических данные, характеризующие вероятность и достоверность распознаваемых по ИК спектрам фрагментов соединения. Впервые показано, что основанная на поисковом принципе методология позволяет достаточно надежно идентифицировать тысячи самых разнообразных фрагментов органических веществ. Экспериментально установлено, что с вероятностью более чем 0,75 возможно распознание свыше 11 тыс. структурных единиц молекул.
122
ЗАКЛЮЧЕНИЕ
Представленные в диссертационной работе данные убеждают в перспективности расширенного проведения исследований в анализируемом направлении. Приведенный материал может рассматриваться как самостоятельный и завершенный этап, необходимый при оценке перспектив и ожидаемой плодотворности нового подхода к решению поставленной задачи. Он представляет собой обязательную компоненту исследования, своего рода фундамент для возможных будущих приложений опробованного метода к другим видам спектроскопии, например, к масс-спектрометрии. Основная цель данного исследования - первичная оценка перспектив представления структур соединений БД в виде полного набора фрагментов, проведенная на модельной и достаточно ограниченной базе данных - выполнена. Итог ее, как нам кажется, хорошо демонстрируется данными глав 4 и 5. Тем не менее, критически анализируя достигнутое отметим, что полученные результаты можно рассматривать как основу планов дальнейших исследований с целью создания практического инструмента исследователя-спектроскописта.
Совершенно очевидно, что требуется расширенная апробация рассмотренного оригинального подхода на существенно больших базах данных. Необходимо накопление статистического материала по решению задач распознания строения более широкого разнообразия различных по своему строению молекул на основе анализа их ИК спектров, и детальный анализ успехов и неудач при решении поставленных задач. В ходе этого будущего исследования не исключена модификация алгоритма ранжирования генерируемых структур и изложенного метода представления структур в виде набора фрагментов, предусматривающая, в частности, полное описание некоторых видов фрагментов, хорошо проявляемых в ИК спектроскопии. Вероятно, это в первую очередь относится к фрагментам, описывающим концевые -ОН, -8Н,
-СН2-, -СН3, -Ш2 и т.п. группы. На дальнейших этапах работы требуется уделить особое внимание алгоритмам поиска в БД спектров соединений, подобных по строению исследуемым. Можно утверждать, что итог представленной работы обеспечивает хороший задел в этом направлении, поскольку снабжает исследователей инструментарием, позволяющим объективно оценивать результаты поиска. Действительно, чем больше по результату поиска выявляется информации об исследуемых соединениях (фрагменты полнее представляют его строение) тем, очевидно, лучше соответствующий алгоритм поиска.
Весьма перспективной представляется оценка возможностей объединения определяемых фрагментов с целью выявления более крупных структурных единиц или использования принятого способа описания структур для классификации соединений поискового ответа с последующим выделением круп-ныз связных фрагментов. Векторное описание структур в сочетании с соответствующим описанием спектров, как нам кажется, может открыть в этом случае новые возможности. Не исключено, что метод выбора вероятных структур из списка генерируемых может оказаться плодотворным также и для проверки высказанной гипотезы о строении соединения, изучаемого по, ИК спектру.
Особый интерес представляет детальное изучение возможностей рассмотренного подхода применительно к другим методам молекулярной спектроскопии и, вероятно, в первую очередь - масс-спектрометрии. Не исключено, что на этом пути в перспективе может быть создан новый мощный инструментарий для анализа данных хромато-ИК-масс-спектроскопии — современного метода изучения малых количеств сложных смесей природного или антропогенного происхождения. Очевидно также перспектива сочетания предложенного в работе подхода и выявляемых на его основе сведений с данными масс-спектрометрии или спектроскопии ядерного (протонного или углеродного) магнитного резонанса в комплексных системах, анализирую
119 щих несколько видов спектроскопии при решении задач установления строения соединений. В этом случае сведения, извлекаемые из ИК спектров, могут оказаться чрезвычайно полезными как подтверждающие или дополняющие данные других видов спектроскопии молекул.
В целом приведенный в работе экспериментальный материал и его анализ красноречиво свидетельствуют в пользу разрабатываемого и исследованного подхода. Его совершенствование и дальнейшее развитие позволят расширить возможности компьютерных методов установления строения органических соединений не только по данным ИК спектроскопии, но и в сочетании с другими современными методами изучения строения органических веществ.
Автор выражает глубокую признательность РФФИ (гранты 96-03-32916 и 98-03-32501) за поддержку данной работы.
120
Список литературы диссертационного исследования кандидат химических наук Богданова, Татьяна Фоминична, 2000 год
1. Эляшберг М. Е., Грибов J1. А., Серов В. В. Молекулярный спектральный анализ и ЭВМ. / Москва: Наука, 1980. - 318 с.
2. Gray N. А. В. Computer-Assisted Structure Elucidation./ New-York: Wiley & Sons, 1986. -536 p.
3. Computer-Supported Spectroscopic Databases. /Zupan J., Ed. Chichester, Ellis Horwood, 1986. -344 p.
4. Искусственный интеллект. Применение в химии. /Под ред. Пирса Т., Хони Б.М. -. Москва: Мир, 1988. 430 с.
5. Математические методы и ЭВМ в аналитической химии. М.: Наука, 1989. - 350с.
6. Computing applications in molecular Spectroscopy. George W., Steele D., Eds. Cambridge, U.K.: Royal Society of Chemistry, 1995. 430 p.
7. Jurs Peter C. Computer software application in chemistry. New-York: Wiley & Sons, 1996.-390 p.
8. Luinge H.J. Automated interpretation of vibrational spectra.// Vib. Spectroscopy. 1990. - Vol.1.-P. 13-18.
9. M. E. Эляшберг. Экспертные системы для молекулярного спектрального анализа.//ЖАХ. 1992. - Т. 47. - №. 6. - С. 966-981.
10. Warr W.A. Computer-Assisted Structure Elucidation. Part 1. Library search and spectral data collections. //Anal. Chem. 1993,- Vol. 65. - P. 1045A-1050A.123
11. Warr W.A. Computer-Assisted Structure Elucidation. Part 2.Indirect database approaches and established systems. //Anal. Chem. 1993.- Vol. 65. - P. 1087A-1095A.
12. Лебедев К.С., Дерендяев Б.Г. Компьютерные методы решения структурно-аналитических задач с помощью банков данных по молекулярной спектроскопии (МС, ИК, ЯМР). //Химия в интересах устойчивого развития. 1995. - Т.З. - С. 269-285.
13. М. Е. Эляшберг. Экспертные системы для установления структуры органических молекул спектральными методами. //Успехи химии. 1999. - Т. 68. - С. 579-604.
14. Подгорная М.И., Дерендяев Б.Г. Базы данных по ИК спектроскопии органических соединений. //БТИ. Сер. 2. - № 9. - С. 1-5.
15. Davies A.N., Mcinture P. S. Spectroscopic Databases. In Computing applications in molecular Spectroscopy. George W., Steele D., Eds. Cambridge, U.K.: Royal Society of Chemistry, 1995. P. 41-59.
16. Беллами Д. Инфракрасные спектры сложных молекул. Москва: Изд-во иностран. лит., 1963. 590 с.
17. Socrates G. Infrared Characteristic Group Frequencies. Tables and Charts. New York: Wiley & Sons, 1994. 549 p.
18. Guelachvili G., Rao K.N. Handbook of Infrared Standards. London: Academic Press Inc., 1986. 852 p.
19. Dolphin D., Wich A. Tabulation of Infrared Spectral Data. New-York: Wiley & Sons, 1977.- 549 p.
20. The Sadtler Standard Spectra: Infrared Grating Spectra. Philadelphia, Sadtler Research Laboratories. 1980.124
21. Pretch E., Clerc J.- T., Bendl J. Spectroscopic data banks. //Fresenius Z. Anal. Chem. 1986. - Vol. 324. - P. 714-719.
22. Averil D.F., Baird K.S., Hopkins L.L., Yerkes M.J. J. //Chem. Inf. Comput. Sci. 1990.-Vol. 30.-P. 133-136.
23. Koptyug V.A., Ulyanov G.P., Derendyaev B.G. and oth. Creation and Capabilities of Computerized Data Banks Containing Information on Chemical Structures and Properties.// COD ATA bull.- 1981. Vol. 40. - P. 45-53.
24. Yamamoto O., Someno K., Wasada N., Hiraishi J., Hayamizu K., Tanabe K., Tamura T and Yanagisava M. An Integrated Spectral Data Base System Including IR, MS, 1H-NMR, 13C-NMR, ESR and Raman Spectra. //Anal. Sciences. 1988. - Vol. 4. - P. 233-239.
25. Grasselli J.G. Specifications for infrared reference spectra of molecules in the vapor phase. //Pure & Appl. Chem. 1987. - Vol. 59. - №.5. - P. 673-681.
26. Kalashinsky K. S., Griffiths P. R., Gurka D. F., Lowry S. R, B. Michael. Co-blentz specifications for infrared reference spectra of materials in the vapor phase above ambient temperature. //Appl. Spectrosc. 1990. - Vol. 44. - №2. -P. 211-215.
27. McDonald R. S. and Wilks P. A. JCAMP-DX: A standart form for exchange of infrared spectra in computer readable form. //Appl. Spectrosc. 1988. -Vol. 42.-№1.-P. 151-162.
28. Davies A. M. Spectroscopy data transfer standart. //Spectrosc. Int. 1991. -Vol. 3. -№2. -P. 16-18.
29. Sperline R.P. Program for Spectral Data Transfer from Perkin-Elmer 7000 Series Spectrometer Computers to IBM-PC Compatible Computers. //Appl. Spectr. 1991. - Vol. 45. - P. 1046-1047.125
30. Buchi R., Clerc J.Т., Jost Ch., Koenitzer H. and Wegmann D. Compilation of Computer Readable Spectra Libraries: General Concepts. //Anal. Chim. Acta. - 1978. - Vol. 103. - P. 21-27.
31. Heller S. R. The chemical information system and spectral data bases. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 224-231.
32. Heller S. R. Computerized spectroscopy databases. //Chem. Int. 1991. - Vol. 13,-№6.-P. 235-238.
33. Rumble, Jr.,J.R., Lide, Jr., D. R. Chemical and Spectral Databases: A Look into the Future. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 231235.
34. Heller S.R. The Realities of Developing Computer Readable Numeric Databases. //IUPAC, Pure and Applied Chemistry. 1995. - Vol. 67. - P. 10271030.
35. Sparks R.A. Storage and Retrieval of Wyandotte-ASTM Infrared Spectral Data Using an IBM 1401 Computer. /ASTM: Philadelphia, PA, 1964.
36. Tanabe К and Saeki S. Computer Retrieval of Infrared Spectra by a Correlation Coefficient Method. //Anal. Chem. 1975. - Vol. 47. - P. 118-122.126
37. Lowry S.R., Huppler D.A., Anderson C.R. Data Base Development and Search Algorithms for Automated Infrared Spectral Identification. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 235-241.
38. Saeki S., Tanabe K. Full Automation of Infrared Qualitative Analysis Binary Mixtures by Use of a Spectral Use Compilation. //Appl. Spectrosc. 1984. -Vol. 38. - P.693-697.
39. Powell L.A., Hieftje G.M. Computer Identification of Infrared Spectra by Correlation Based File Searching. //Anal. Chim. Acta. 1978. - Vol. 100. - P. 313-320.
40. Ehrentreich F. Derivation of Substructures from Infrared Band Shapes by Fuzzy Logic and Partial Cross Correlation Functions. //Fresenius J. Anal. Chem. 1997. - Vol. 359. - P. 56-60.
41. Jung-Pin Y., Friedrich H.B. Odd Moments of the Cross-Correlation Function for Library Searching of Infrared Spectra. //Appl. Spectr. 1987. - Vol. 41. -№5. - P. 869-874.
42. Delaney M.F., Hallowell, Jr., J.R.,Warren, Jr., V.F. Optimization of a Similarity Metric for Library Searching of Highly Compressed Vapor-Phase Infrared Spectra. //J. Chem. Inf. Comput. Sci. 1985 - Vol. 25. - P. 27-30.
43. Ehrentreich F. Representation of Extended Infrared Spectrum-Structure-Correlations Based on Fuzzy Theory. //Fresenius J. Anal. Chem. 1997. -Vol. 357. - P. 527-533.
44. Fuller M., Rosental R. Spectral Library Searshing and FT IR/FT Spectroscopies. Effects of resolution and Searsh Algorithms. //SPIE-Int. Soc. Opt. Eng. -1993. Vol. 2089. - P. 440-441.127
45. Penchev P.N., Sohou A.N., Andreev G.N. Description and Performance Analysis of an Infrared Library Search System. //Spectrosc. Lett. 1996. -Vol. 29.-P. 1513-1522.
46. Kavak H., Esen R. Spectrum Comparison of IR Data Taken from Different Spectrometers with Various Precision. //J. Chem. Inf. Comput. Sci. 1993. -Vol. 33. - P. 595-597.
47. Лебедев K.C., Шарапова O.H., Коробейничева И.К., Кохов В.А. Опознание крупных структурных фрагментов неизвестного соединения с помощью поисковой системы по ИК-спектрам. //Сиб. химический журнал. 1993.-Т. 1.-С. 50-56.
48. J.W. Sherman, J.A. de Haseth and D.G. Cameron. A Window Fourier-Domain Infrared Search System. //Appl. Spectrosc. 1989. - Vol. 43. - P. 1311-1316.
49. Kawata S., Noda Т., Minami S. Spectral Searching by Fourier Phase Correlation. //Appl. Spectrosc. 1987. - Vol. 41. - P. 1176-1188.
50. Hangac G., Wieboldt R.C., Lam R.B., Isenhour T.L. Compression of an Infrared Spectral Library by Karhunen-Loeve Transformation. //Appl. Spectrosc. -1982. Vol. 36. - P. 40-44.
51. Williams S.S., Lam R.B., Isenhour T.L. Searsh System for Infrared and Mass Spectra by Factor Analysis and Eigenvector Projection. //Anal. Chem. 1983. -Vol. 55. -№7. - P. 1117-1121.
52. Harrington P.В., Isenhour T.L. Compression of Infrared Libraries By Eigenvector Projection. //Appl. Spectrosc. 1987. - Vol. 41. - №3. - P. 449-453.
53. Harrington P.B., Isenhour T.L. Closure Effects of Infrared Library Search Performance. //Anal. Chem. 1988. - Vol. 60. - P. 2667.128
54. Wang C.P., Isenhour T.L. Infrared Library Search on Principal-Component-Analyzed Fourier-Transform Absorption Spectra. //Appl. Spectrosc. 1987. -Vol. 41.-P. 185-194.
55. Anderegg R.J., Pyo D. Selctive Reduction of Infrared Data. //Anal. Chem. -1987. Vol. 59. - P. 1914-1919.
56. Cooper J.R., Wilkins C.L. Utilization of Spectrometric Information in Linked Gas Chromatography-Furier Transform Infrared Spectroscopy-Mass Spectrometry. //Anal. Chem. 1988. - Vol. 61. - P. 1571-1576.
57. Bierga J.M., Small G.W. //Anal. Chem. 1990. - Vol. 62. - P. 226-,
58. Zupan J., Munk M.E. Hierarchical Tree Based Storage, Retrieval and Interpretation of Infrared Spectra. //Anal. Chem. 1985. - Vol. 57. - P. 1609-1615.
59. Penca M., Zupan J., Hadzi D. Hierarchical preprocessing of infrared data files. Anal. Chim. Acta. 1977. - Vol. 95. - P. 3-12.
60. Zupan J., Munk M.E. Feed Back Search of Hierarchical Trees.//Anal. Chem. -1986. Vol. 58. - №14. - P. 3219-3225.
61. Blaffert T. Computer-Assisted Multicomponent Spectral Analysis With Fuzzy Data Set. //Anal.Chim. Acta. 1984. - Vol.161. - P. 135-148.
62. Delaney M.F., Warrren, Jr. F.V., Hallowell, Jr. J.R. Quantitative Evaluation of Library Searching Performance. //Anal. Chem. 1983. - Vol. 55. - P. 19251929.
63. Hallowell, Jr. J.R., Delaney M.F. Effect of Noise on Spectral Library Searching Performance. //Anal. Chem. 1987. - Vol. 59. - P. 1544-1549.
64. Harrington P.B. and Isenauer T.L. A Quantitative Measure of the Reliability of Searches of Spectral Libraries. //Anal. Chim. Acta. 1987. - Vol. 197. - P. 105-119.129
65. Harrington P.B., Isenhour T.L. //Appl. Spectrosc. 1987. - Vol. 41. - P. 1298.
66. Clerc J.T. Automated Spectra Interpretation and Library Searsh. //Comput.-enhansed Anal. Spectrosc. 1987. - Vol. 1. - P. 146-161.
67. Piottukh-Peletsky V.N., Derendyaev B.G. Which IR Search System is Better for Selection of Unknown Structure Analogues? //Anal. Chim. Acta. 1999. -Vol. 396. - P. 99-103.
68. Rasmussen G.T., Isenhour T.L.Library Retrieval of Infrared Spectra Based on Detail Intensity Information. //Appl. Spectrosc. 1979. - Vol. 33. - P.371-376.
69. Ruprecht M., Clerc J. T. Performance Analysis of a Simple Infrared Library Search System. //Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 241244.
70. Clerc J.Т., Pretsch E., Zuercher M. Performance Analysis of Infrared Library Search Systems. //Microchim. Acta. 1986. - Vol. 2. - P. 217-242.
71. Affolter C., Clerc J.T. Estimation of the Performance of Spectroscopic Library Search Systems. //Fresenius J. Anal. Chem. 1992. - Vol. 344. - №4/5. -P. 136-139.
72. Sadtler IR Digital Spectra Libraries. London: Heiden & Son Ltd, 1990. 10 p.
73. Пиоттух-Пелецкий В.Н., Подгорная М.И.,Смирнов В.И., Шарапова О.Н. Информационно-поисковая система ИК-спектроскопии (ИПС-ИК). /Методическое пособие. НИОХ СО АН СССР, Новосибирск, 1986.130
74. Нигматуллин Р.С., Смирнов В.И. Статистический метод составления и использования корреляционных таблиц для ИК спектроскопии. //Журн. прикл. спектроскопии. 1974. - Т. 21. - С. 307-313.
75. Смирнов В.И., Фролова Л.В., Шарапова О.Н. Информационно-поисковая система ИК-спектроскопии BANKIR-PC. //IX Всесоюз. Конф. Химическая Информатика Черноголовка, 1992 г. Тезисы докладов, частьП. С. 227-228.
76. Пиоттух-Пелецкий В.Н., Дерендяев Б.Г., Шарапова О.Н. Количественная оценка взаимосвязи спектрального и структурного подобия в ИК спектроскопии. //Журн. структ. химии. 2000. - Т. 41. - С. 379-389.
77. Пиоттух-Пелецкий В.Н., Коробейничева И.К., Дерендяев Б.Г. Определение фрагментного состава соединения с использованием базы данных по ИК спектроскопии. //ЖАХ. 1999. - Т. 54. - С. 1020-1030.
78. Varmuza К., Penchev P.N., Scsibrany Н. Maximum Common Substructures of Organic Compounds Exhibiting Similar Infrared Spectra. //J Chem. Inf. Comput. Sci. 1998. - Vol. 38. - P. 420-427.
79. Savitzky A. The Evolution of an Automated IR Spectra Interpretation System. //Computer-Enhanced Analytical Spectroscopy. 1987. - Vol. 1. -P. 183-199.131
80. Коптюг В.А., Бочкарев B.C., Дерендяев Б.Г. и др. Использование ЭВМ при решении структурных задач органической химии методами молекулярной спектроскопии. //ЖСХ. 1977. - Т 18. - С. 440-459.
81. Дерендяев Б.Г., Лебедев К.С., Строков И.И. и др. Представление и манипулирование спектроструктурными данными в информационных системах по молекулярной спектроскопии.// Химия в интересах устойчивого развития. 1998. - Т. 6. - С. 25-39.
82. Bremser W., Fachinger W. Multidimensional Spectroscopy. //Magnetic Resonance in Chemistry. 1985. - Vol. 23. - №12. - P. 1056-1071.
83. Bremser W., Grzonka M. Speclnfo a Multidimensional Spectroscopic Interpretation System. //Microchim. Acta. - 1991. - Vol. 11. - P. 483-491.
84. Barth A. Speclnfo: A Integrated Spectroscopic Information System. //Chem. Inf. Comput. Sei. 1993. - Vol. 33. - P. 52-58.
85. Hearmon R. A. Wide Area Access to Central Corporate Spectroscopic Databases. //Fresenius J. Anal. Chem. 1992. - Vol. 344. - №4/5. - P. 164-166.
86. Canzler D. and Hellenbrandt M. SPECINFO The Spectroscopic Information System on STN International. //Fresenius J. Anal. Chem. - 1992. - Vol. 344. -№4/5.-P. 167-172.
87. Nekhoroshev S.A., Lebedev K.S., Derendyaev B.G. and oth. Computer-Aided Molecular Formula Determination from Mass, *H and 13C NMR Spectra. //J. Chem. Inf. Comput. Sei. 1992. - Vol. 32. - P. 255-230.
88. Lebedev K.S., Derendyaev B.G., Nekhoroshev S.A. and oth. Computer-Aided Determination of Microfragmentary Composition by Mass, 'IT and 13C NMR Spectra. //J. Comput. Chemistry. 1994. - Vol. 18. - P. 81-89.132
89. Лебедев К.С. Использование баз данных по ИК- и масс-спектрам для установления строения органических соединений. //ЖАХ. 1993. - Т. 48. -С. 851-863.
90. Киршанский С.П., Лебедев К.С., Дерендяев Б.Г. и др. Извлечение структурной информации из масс-спектров с помощью ЭВМ. XI. Аналитические возможности системы Компас-МС. //ЖАХ. 1987. - Т. 12,- С. 13201329.
91. Нехорошев С.А., Дерендяев Б.Г., Киршанский С.П. и др. Информационный поиск средство предсказания брутто-формулы соединений по его масс-спектру. //Там же. - С. 1312-1319.
92. Lebedev K.S., Cabrol-Bass D. New Computer Aided Methods for Revealing Structural Features of Unknown Compounds Using Low Resolution Mass Spectra. //J. Chem. Inf. Comput. Sci. 1998. - Vol. 38. - P. 410-419.
93. Debska B. SCANNET: a Spectroskopy Database. //Anal. Chim. Acta. 1992. -V. 265.-P. 201-209.
94. Debska B.J., Guzovska-Swider B. Knowledge Discovery in an Infrared Database. //Comput. Chem. 1997. - Vol. 21. - P. 51-59.
95. Debska B.J., Guzovska-Swider B. The Methodology of Knowledge Acquisition from the Collection of IR and UV Spectra. //Fresenius J. Anal. Chem. -1998. Vol. 361. - P. 235-238.
96. Zupan J., Репса M., Razinger M. And Barlic В., Hadzi D. KISIK A combined chemical information system for a minicomputer. //Anal. Chim. Acta, -1980.-Vol. 122.-P. 103-115.
97. Cadisch M., Pretsch E. Spectool: a Knowledge-Based Hypermedia System for Interpreting Molecular Spectra. //Fresenius J. Anal. Chem. 1992. - Vol. 344. -№4/5. - P. 173-177.133
98. Strokov I.I., Lebedev K.S. New Modular Architecture for Chemical Structure Elucidation Systems. //J. Chem. Inf. Comput. Sci. 1996. - Vol. 36. - P. 741745.
99. Строков И.И., Лебедев K.C., Дерендяев Б.Г. Представление структурной информации и поиск структурных аналогов в базах данных по молекулярной спектроскопии. //Журн. структ. химии. 1996. - Т. 37. - С. 11291139.
100. Серов В.В., Эляшберг M. Е., Петров В.Е. Реализация экспертной системы для молекулярной спектроскопии РАСТР-4 на языке Пролог. /В сб. Математические методы и ЭВМ в аналитической химии. Москва: Наука, 1989.-С. 150-156.
101. Elyashberg M. Е., Serov V. V., Martirosian Е. R. et al. An Expert System for Molecular Structure Elucidation Based on Spectral Data. //J. Mol. Struct. -1991.-Vol. 230.-P. 191-203.
102. Эляшберг M. E. Экспертные системы для молекулярного спектрального анализа. //ЖАХ. 1992. - Т. 47. - С. 966-981.
103. Эляшберг M. Е., Карасев Ю. 3., Мартиросян Э. Р. Методологические вопросы использования экспертных систем для установления структуры органических молекул по их спектрам. //Журн. структ. химии. 1995. - Т. 36. - С. 548-558.
104. Tiele H., Somberg H. X-PERT A New Expert System for Structure Elucidation.//
105. Http://www.bruker.com/nmr/software/winhome/docucntr/doc006/document.h jy-tm
106. Elyashberg M.E., Karasev Yu.Z., Martirosyan E.R., Tiele H., Somberg H. Expert Systems as a Tool for the Molecular Structure Elucidation de Spectral134
107. Methods. Strategy of Solution to the Problems. //Anal. Chim. Acta. 1997. -Vol. 348. - P. 443-463.
108. Luinge H.J., van't Klooster H.A. Artificial intellegence used for the interpretation of combined spectral data. //Trends Anal Chem. 1985. - Vol. 4. - P. 242-243.
109. Kleywegt G.J., Luinge H.J., Schuman B.J.P. Prolog for Chemists. Part 2. //Ibid. 1989.-Vol. 5.-P. 117-128.
110. Luinge H. J. EXSPEC, a knowledge-based system for interpretation of infrared spectra. //Anal. Proc. 1990. - Vol. 27. - P. 267-268.
111. Sasaki S., Fujirava I., Abe H., Yamasaki T. A Computer Program System -New CHEMICS for Structure Elucidation of Organic Compounds by Spectral and Other Structural Information. //Anal. Chim. Acta. - 1980. - Vol. 122. -P. 87-94.
112. Sasaki S.-I., Kudo Y. Structure Elucidation System Using Structural Information from Multisourses: CHEMICS. //Chem. Inf. Comput. Sci. 1985. - Vol. 25. - P. 252-257.
113. Funatsu K., Del Carpio C.A., Sasaki S.Automated Structure Elucidation System CHEMICS. // Fresenius' Z. Anal. Chem. - 1986. - vol. 324. - P. 750-759.135
114. Funatsu K., Nobuyoshi M., Sasaki S.-I. Futher Development of Structure Generation in Automated Structure Elucidation System CHEMICS. //J. Chem. Inf. Comput. Sci. 1987. - Vol. 28. - P. 18-28.
115. Funatsu K., Susuta Y., Sasaki S.-I. Application of Infrared Data Analysis Based on Symbolic Logic in Automated Structure Elucidation by SHEMICS.^ //Anal. Chim. Acta. 1989. - Vol. 220. - P. 155-169.
116. Curry B. An Expert System for Organic Structure Determination. //ACS Symp. Ser. 1986. - Vol. 306. - P. 350 -364.
117. Curry B. A Distributed Expert System for Interpretation of GC/IR/MS Data. //Computer-Enhanced Analytical Spectroscopy. 1990. - Vol. 2. - P. 183-209.
118. Huixiao H., Xinquan X. ESSESA: An Expert System for Elucidation of Structures from Spectra. 1. Knowledge Base of Infrared Spectra and Analysis and Interpretation Programs. //J. Chem. Inf. Comput. Sci. 1990. - Vol. 30 -P. 203-210.
119. Huixiao H., Yinling H., Xinquan X., Yuefeng S. ESSESA: An Expert System for Elucidation of Structures from Spectra. 6. Substructure Constraints from Analysis of 13C-NMR Spectra. //J .Chem. Inf. Comput. Sci. 1995. - Vol. 35. - №6. - P. 979-1000.
120. Woodruff H.B., Smith G.M. Computer Program for the Analysis of Infrared Spectra. //Anal. Chem. 1980. - Vol. 52. - P. 2321-2327.
121. Woodruff H.B., Smith G.M. Generating Rules for PAIRS-A Computerized Infrared Spectral Interpreter. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 545553.
122. Tomellini A., Saperstein D.D., Stevenson J.M., Smith G.M., Woodruff H.B., Seelig P.F. Automated Interpretation of Infrared Spectra with an Instrument Based Microcomputer. //Anal. Chem. 1981. - Vol. 53. - P. 2367-2369.136
123. Tomellini S.A., Stevenson J.M., Woodruff H.B. Rules for Computerized Interpretation of Vapor-Phase Infrared Spectra. //Anal. Chem. 1984. - Vol. 56. - P. 67-70.
124. Tomellini S.A., Hartwick R.A., Stevenson J.M., Woodruff H.B. Automated Rules Generation for the Program for the Analysis of Infrared Spectra (PAIRS). //Anal. Chim. Acta. 1984. - Vol. 162. - P. 227-240.
125. Woodruff H.B. Using Computers to Interpret IR Spectra of Complex Molecules. //Trends in Anal. Chem. 1984. - Vol. 3. - P. 72-75.
126. Smith G.M., Woodruff H.B. Development of Computer Language and Compiler for Expressing the Rules of Infrared Spectral Interpretation. //J. Chem. Inf. Comput. Sci. 1984. - Vol. 24. - P. 33-39.
127. Tomellini S.A., Hartwick R.A., Woodruff H.B. Automatic Tracing and Presentation of Interpretation Rules Used by PAIRS: Program for the Analysis of IR Spectra. //Appl. Spectrosc. 1985. - Vol. 39. - P. 331-333
128. X. Вудрафф, С. Томеллини, Г. Смит. Определение фрагментов структуры путем автоматической интерпретации ИК-спектров. /В кн. Искусственный интеллект: применение в химии. Москва: Мир, 1988. С. 346354.
129. Saperstein D.D. Methodology for Evaluating and Optimizing Infrared Interpretation. //Appl. Spectr. 1986. - Vol. 40. - №3. - P. 344-348.
130. Wythoff B.J., Buck C.F., Tomellini S.A. Descriptive Interactive ComputerAssisted Interpretation of Infrared Spectra. //Anal. Chim. Acta. 1989. - Vol. 217.-P. 203-216.
131. Tomellini S.A., Wythoff B.J., Levine S.P. Developing Knowledge- Based Systems for Interpreting Infrared Spectra. //Computer-Enhanced Analytical Spectroscopy. 1992. - Vol. 13. - P. 215-238137
132. Andreev G.N., Argirov O.K. and Penchev P.N. Expert System for the Interpretation of Infrared Spectra. //Anal. Chim. Acta. 1993. - Vol. 284. - P. 131136.
133. Andreev G.N., Argirov O.K. EXPIRS, an Expert System for Generation of Alternative Sets of Substructures, Derived by Infrared Spectra Interpretation. //Anal. Chim. Acta. 1996. - Vol. 321. - P. 105-111.
134. Visser Т., van der Maas J.H. Systematic Computer-Aided Interpretation of Vibrational Spectra. //Anal. Chim. Acta. 1980. - Vol. 122. - P. 357-361.
135. T. Visser and J.H. van der Maas. Systematic Computer-Aided Interpretation of Infrared and Raman Vibrational Spectra Based on CRISE Program. //Anal. Chim. Acta. 1980. - Vol. 122. - P. 363-372.
136. Edwards P., Ayscough P.B. A Cooperative Approach to the Structure Elucidation Problem. //Chemom. Int. Lab. Syst. 1988. - Vol. 5 - P. 83-93.
137. Blaffert T. EXPERTISE An Expert System for Infrared Spectra Evaluation. //Anal. Chim. Acta. - 1986. - Vol. 191. - P. 161-168.
138. Farkas M., Markos J., Szepesvary P., Bartha I., Szalontai G., Simon Z. A Computer-Aided System for Organic Functional Group Determination. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 19-30.
139. Szalontai G., Simon Z., Csapo Z., Farkas M., Pfeifer G. Use of IR and 13C-NMR Data in the Retrieval of Functional Groups for Computer-Aided Structure Determination. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 31-40.
140. Pyo D. Expert System Approach for Spectra-Structure Correlation for Vapor-Phase Infrared Spectra. // Vib. Spectroscopy. 1993. - Vol. 5. - P. 263-273.
141. Дерендяев Б.Г., Пиоттух-Пелецкий В.Н., Макаров Л.И., Скоробогатов В.А. Взаимосвязь подграфов молекулярных графов и свойств органических соединений. В сб. Интеграционные программы фундаментальных исследований. Новосибирск: изд. СО РАН, 1998.
142. Dayringer Н.Е., Pesyna G.M., Venkataraghavan P., McLafferty F.W. Computer-Aided Interpretation of Mass Spectra. //Organic Mass Spectrometry. -1986.-Vol. 11. P. 529-536.
143. Вентцель E.C. Теория вероятностей. /Москва: Физматгиз, 1968. С. 58
144. Molodtsov S.G. Generation of Molecular Graphs with a Given Set of Nonoverlapping Fragments.// MATCH 1994. - v. 30. - P. 203-212.
145. Molodtsov S.G. Computer-Aided Generation of Molecular Graphs.// Ibid. -P. 213-224.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.