Программная система прогнозирования свойств химических соединений тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Митюшев, Дмитрий Феликсович

  • Митюшев, Дмитрий Феликсович
  • кандидат физико-математических науккандидат физико-математических наук
  • 1998, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 133
Митюшев, Дмитрий Феликсович. Программная система прогнозирования свойств химических соединений: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 1998. 133 с.

Оглавление диссертации кандидат физико-математических наук Митюшев, Дмитрий Феликсович

Введение.

Глава 1. Классификация методов и программных систем установления взаимосвязи "структура-свойство" химических веществ.

§1. Классификация подходов к установлению взаимосвязи структура-активность".

Квантовомеханические методы.

Классические подходы ККСС.

§2. ККСС-задача как задача распознавания образов.

§3. Программные ККСС-системы.

OASIS (Optimised Approach based on Structural Indices Set).

Multi-CASE (Multiple Computer Automated Structure Evaluation program).

Фрагментарный код суперпозиции подструктур (ФКСП).

§4. Общие принципы организации программной ККСС системы.

§5. Описание М-графов на основе топологических и теоретикоинформационных индексов.

Топологические индексы.

Теоретико-информационные индексы.

§6. Эволюционные алгоритмы в ККСС-моделировании.

Глава 2. Автоматическое построение наиболее адекватного описания М-графов на основе структурного спектра обучающей выборки.

§1. Описание М-графов "структурными спектрами".

§2. Обобщенные фрагменты М-графов.

§3. Составные фрагменты М-графов.

§4. Относительные фрагменты М-графов.

Глава 3. Агоритмы анализа М-графов.

§1. "Волновой" алгоритм и матрица расстояний М-графов.

§2. Связность М-графа.

§3. Алгоритмы работы с кольцевыми системами М-графов.

§4. Определение изоморфизма М-графов.

§5. Визуализация М-графов.

Глава 4. Программный инструментарий для конструирования ККСС-систем.

§1. Основные типы данных и программные модули ККСС-системы.

§2. Объектно-ориентированый подход к представлению структур данных в ККСС-системе.

ОО-представление М-графов.

ОО-представление обучающей выборки М-графов.

ОО-представление МГУА-данных.

§3. Программная система BIBIGON MATCH.

§4. Программная система ChemAdd - развитие системы BIBIGON

MATCH.

Редактор обучающей выборки химических структур.

§5. Программа ChemStat - инструмент для первичного анализа выборок химических структур.

Глава 5. Практические результаты, полученные при использовании созданных ККСС-систем.

Температура кипения для фуранов/тетрафуранов и теофенов.

Температура плавления нитросоединений.

Энтальпия образования веществ разных химических классов.

Хроматографическая подвижность антрациклиновых антибиотиков ряда даунорубицина.

Липофильность замещенных бензолов.

Поляризуемость молекул.

Чувствительность к удару (Н50).

Антивирусная активность триазинов.

Глава 6. Решение "обратной" ККСС-задачи.

§1. Массовая генерация и отбор М-графов, как метод решения обратной ККСС-задачи.

§2. Проблема отказа от прогноза.

§3. Организация ККСС баз знаний, надстраиваемых над существующими фактографическими базами данных.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Программная система прогнозирования свойств химических соединений»

Быстрое развитие органической химии, особенно в области синтеза структур органических соединений, привело к тому, что в настоящее время насчитывается уже более 10 миллионов соединений, описанных в литературе. Этот объем экспериментальных данных продолжает расти одновременно с накоплением информации о физико-химических и биологических свойствах новых веществ. Использование вычислительной техники для ведения библиографических и фактографических баз данных сняло проблему "информационного взрыва" в химии, возникшую в 70-е годы [1, 2]. Однако информация, введенная в ЭВМ, как раньше, так и в настоящее время, представляет из себя большую картотеку относительно разрозненных фактов. В то же время направленный синтез органических соединений, обладающих заданными свойствами, продолжает оставаться недостаточно эффективным. Для целенаправленного синтеза желательно установление максимально достоверных зависимостей между строением химических соединений и их свойствами, определение механизмов их действия. В связи с этим для химика-исследователя продолжает оставаться актуальным вопрос о том, каким будет спектр свойств нового химического соединения, структура которого известна?

Центральной проблемой теоретической химии является нахождение зависимостей между структурой органических соединений и проявляемыми ими свойствами. Для ее решения широко используется вычислительная техника, оснащенная программным обеспечением, позволяющим находить количественные корреляции "структура-свойство" (ККСС) [3-10]. Для построения в ЭВМ ККСС-моделей используютразличные методы описания молекул. Эти методы включают в себя вычисление топологических индексов, теоретико-информационных индексов, наборов структурных фрагментов различных типов ит.п. [7,8,11]. Важным аспектом создаваемых ККСС-моделей является задача выбора оптимального набора признаков (дескрипторов) молекул для расчета данного свойства, а также задача содержательной интерпретации параметров получаемых ККСС-моделей [12,13].

В настоящее время при описании структур молекул принято использовать наборы заранее заданных дескрипторов, индексов, структурных фрагментов, формакофоров, дескрипторных центров и т.п. Наборы признаков могут дополняться, если в ходе решения ККСС-задачи выясняется, что реализованный в программе набор признаков недостаточно адекватно описывает исследуемое свойство. Как правило, набор признаков молекул, используемый для расчета одного свойства, например, температуры кипения, существенно отличается от набора, по которому проводят вычисления другого свойства, например, липофильности веществ. Выбор признаков, адекватных данному свойству, является одной из важных проблем, возникающих при решении ККСС-задач. Для этого, например, в программе можно иметь большой и постоянно расширяемый список параметров молекул и использовать их для решения ККСС-задач [8].

Программное обеспечение, используемое для решения ККСС-задач, можно условно разделить на два типа: модули для получения описания молекул в виде набора чисел - дескрипторов, и стандартные пакеты статистического анализа, использующие полученные описания структур из выборки для построения количественных корреляций. Результаты построений используются для оценки свойств отдельных соединений.

В настоящей работе разработан оригинальный подход:

1) к построению программных систем для проведения ККСС-моделирования,

2) к решению проблемы адекватного выбора признаков молекул для оценки заданного свойства веществ,

3) к представлению полученных ККСС-зависимостей в виде базы знаний, надстраиваемой над базой данных химических веществ, использовавшейся в построении ККСС.

Целью работы является (1) разработка алгоритмов и создание программного инструментария, позволяющего выполнять оперативное макетирование различных вариантов программ описания и ККСС-анализа обучающих выборок химических структур, (2) создание на основе этого инструментария программной системы, реализующей метод автоматического поиска описаний структур органических соединений, адекватных исследуемому свойству. В соответствии с целями в работе поставлены и решены следующие задачи:

1. Сформулированы общие принципы организации и функционирования системы для проведения полного цикла работ по прогнозированию свойств химических веществ.

2. Разработаны алгоритмы и соответствующие программные объекты для работы с основными структурами данных системы: помеченными молекулярными графами, базами данных химических структур (БДХС), ККСС-моделями, списками дескрипторов.

3. Разработан на этой основе программный комплекс для проведения полного цикла моделирования зависимостей "структура-свойство".

4. Проведена проверка работоспособности системы при решении ККСС-задач на БДХС различных химических классов.

Результаты работы содержатся в 24 публикациях. Полученные результаты докладывались на Всесоюзной школе-семинаре "Статистический и дискретный анализ данных и экспертные оценки" (Одесса, 1991), на 9-ой Всесоюзной конференции "Химическая информатика", (Черноголовка, 1992), на семинаре по теории графов (под руководством профессора А.А.Зыкова, 1991, 1993), на 2-й Всероссийской конференции "Распознавание образов и анализ изображений. Новые информационные технологии" (РОАИ-2, Ульяновск, 1995), на 7-й конференции "Математические методы в распознавании образов" (ММРО-7, Пущино, 1995), на семинаре "Автоматизация программирования" (под руководством проф. М.Р.Шура-Бура, 1995), на семинаре "Компьютерная химия" (под руководством академика Н.С.Зефирова, 1993-1995), на семинаре

Распознавание образов и обработка изображений (под руководством академика Ю.Н.Журавлева и И.Б.Гуревича, 1995).

Работа состоит из введения, шести глав, заключения, списка литературы и приложения.

В первой главе дан обзор современных подходов к установлению взаимосвязи "структура-активность" с использованием вычислительной техники. Сформулирована общая постановка задачи установления количественных корреляций "структура-свойство" (ККСС) как специальный случай задачи распознавания образов. Рассмотрена функциональная организация и собенности нескольких программных ККСС-систем, а также общие принципы организации программной системы, предназначенной для проведения полного цикла работ по прогнозированию свойств химических соединений и поиску новых соединений с заданными свойствами. Проведена классификация существующих способов описания молекулярных химических графов (М-графов) на основе топологических и теоретико-информационных индексов, а так же с использованием подструктур молекулярного графа. Рассмотрена общая схема ККСС-адаптации эволюционного метода отбора набора адекватных дескрипторов - метода группового учета аргументов (МГУА).

Вторая глава - центральная глава работы. Она посвящена решению задачи выбора набора дескрипторов для описания молекулярных графов обучающей выборки, наиболее адекватного исследуемому свойству.

В третьей главе рассмотрены алгоритмы анализа М-графов и их реализации.

В четвертой главе рассмотрены принципы построения ККСС-систем, структуры данных и программные объекты, реализующие описанные выше алгоритмы и методики, а также две программные ККСС-системы В1ВЮОК и ОгетАсШ, реализованные в рамках созданных библиотек объектов.

В пятой главе приведены практические результаты, полученные при использовании созданных программных систем и иллюстрирующие эффективность методики автоматического выбора адекватного описания структур для ККСС-задач.

В шестой главе рассмотрено решение "обратной ККСС-задачи", т.е. задачи поиска химических веществ, обладающих заданными свойствами, на основе массовой генерации и селекции М-графов.

Заключение содержит основные выводы работы, в нем сформулированы возможные пути развития метода построения ККСС-уравнений на основе структурных спектров и МГУА в применении к задаче построения ККСС-зависимостей.

В приложении подробно описан пользовательский интерфейс системы В1ВГС(Ж

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Митюшев, Дмитрий Феликсович

Заключение

1. Разработан набор классов для работы с молекулярно-химическими графами. На основе набора классов создан редактор-генератор химических структур.

2. Разработана программа для автоматического поиска адекватного заданному свойству векторного описания молекулярно-химических графов и построения семейств уравнений "структура-свойство".

3. Разработана интегрированная программная система ВЮЮСЖ-С11етАс1с1 для прогнозирования свойств химических веществ. Построены прогностичные зависимости для ряда свойств веществ разных химических классов.

4. Предложен и реализован способ представления знаний о зависимостях "структура-свойство" в виде программной надстройки над библиотеками химических структур. Созданы программы для прогноза ряда свойств химических веществ.

Список литературы диссертационного исследования кандидат физико-математических наук Митюшев, Дмитрий Феликсович, 1998 год

1. Влэдуц Г.Э., Гейвандов Э.А. Автоматизированные информационные системы для химии / М.: Наука, 1974, 310 с.

2. Гладкова Г.И. Служба информации по химии США ("Кемикл абстракте сервис") Научн.и техн. информ. за рубежом. - М., ВИНИТИ, 1991, N.11, с.6-53.

3. Голендер В.Е., Розенблит А.Б. Логико-комбинаторные методы конструирования лекарств / Рига: Зинатне, 1983, 302 с.

4. Кадыров Ч.Ш., Тюрина JI.A., Симонов В.Д., Семенов В.А. Машинный поиск химических препаратов с заданными свойствами / Ташкент: Фан, 1989, 165 с.

5. Стьюпер Э., Брюггер У., Джуре П. Машинный анализ связи химической структуры и биологической активности: Пер.с англ./ М.: Мир, 1982, 240 с.

6. Calculation of drug lipophilicity. / Edited by Rekker R.F., Mannhold R. / Weinheim, VCH, 1992, 115p.

7. Mekenyan O., Karabunarliev S., Bonchev D. The microcomputer OASIS system for predicting the biological activity of chemical compounds / Сотр. Chem.,- 1990, V.14, p. 193-200.

8. Джуре О.П., Айденауэр Т. Распознавание образов в химии./ Пер.с англ. / М.: Мир, 1977, 248 с.

9. Kier L.B., Hall L.H. Molecular connectivity in chemistry and drug research / Academic Press, New Yorkz, 1976.

10. Kier L.B., Hall L.H. Molecular connectivity in structure-activity analysis / Wiley, London, 1986.

11. Татевский B.M. Химическое строение углеводородов и закономерности в их физико-химических свойствах / М.: Изд-во МГУ, 1953, 320 с.

12. Татевский В.М., Бендерский В.А., С.С. Методы расчета физико-химических свойств парафиновых углеводородов / М.: Гостоптехиздат, 1960, 114 с.

13. Татевский В.М. Квантовая механика и теория строения молекул / М.: Изд-во МГУ, 1965, 164 с.

14. Татевский В.М. Основы классической теории строения молекул / М.: Изд-во МГУ, 1971, 90 с.

15. Татевский В.М. Классическая теория строения молекул и квантовая механика / М.: Химия, 1973, 516 с.

16. Татевский В.М. Теория физико-химических свойств молекул и веществ / М.: Изд-во МГУ, 1987, 239 с.

17. Кларк Т. Компьютерная химия / Пер с англ./ М.: Мир, 1990, с. 383

18. Hansch С, Fujita Т. ro-sigma-pi-analysis. A method for the correlation of biology activity and chemical structure / J. Chem. Sci., 1964, V.86, p.1616-1626.

19. Free S.M., Wilson J.W. A mathematical contribution to structure-activity studies / J. Med. Chem.- 1964, N.4, p.395-399.

20. Мельников H.H. Основные тенденции в изыскании новых пестицидов 11 Журнал Всесоюз. чим. общества им. Д.И.Менделеева. 1978. N2. С. 136 142.

21. Горелик А.Л., Скрипкин В.А. Методы распознавания / 2-е изд. -М., Высшая школа, 1984, 208 с.

22. Дуда Р., Харт К. Распознавание образов и анализ сцен. / Пер. с англ. / М.: Мир, 1976, с. 512.

23. Журавлев Ю.И., Об алгебраических методах в задачах распознавания и классификации / В Сб.: Распознавание. Классификация. Прогноз. Математические методы и их применение Под ред. Журавлева Ю.И. - Выпуск 1, М.: Наука, 1989, с. 9-18.

24. Распознавание. Классификация. Прогноз. Математические методы и их применение / Под ред. Журавлева Ю.И. Выпуск 1, М.: Наука, 1989, 258 с.

25. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер.с англ. / М.: Мир, 1978, 411 с.

26. Шараф М.А., Иламен Д.А., Ковальский Б.Р. Хемометрика\ Пер. с англ. / Ленинград: Химия, 1989, 269 с.

27. Голендер В.Е., Розенблит А.Б. Вычислительные методы конструирования лекарств / Рига: Зинатне, 1978, 238 с.

28. Spann M.L., Chu К.С., Wipke W.T., Ouchi G. Use of computerized methods to predict metabolic pathways and metabolites. J. Environm. Pathol. Toxicol., 1978, vol. 2, N1, p.123-131.

29. Andrea T.A., Dietrich S.W., Murray W.J., Kollman P.A., Jorgensen E.C., Rothenberg S. A model for theroid hormone-receptor interactions. J. Med. Chem., 1979, vol. 22, N 3, p.221-232.

30. Gund P., Andose J.D., Rhodes J.B., Smith G.M. Three-dimensional molecular modeling and drug design. Science, 1980, vol. 208, N 4451, p.1425-1431.

31. Max N.L., Maltora D., Hopfinger A. Computer graphics and the generation of DNA conformations for the intercalation studies. Computers and Chemistry, 1981, vol. 5, N 1, p. 19-27.

32. Trinajstic N. Chemical graph theory. / CRC Press, Boca Raton, 1983, Vols.I, II.

33. Mekenyan O., Karabunarley S., Bonchev D. The microcomputer OASIS system for predicting the biological activity of chemical compounds. -Computers Chem., 1990, Vol. 14, N 3, p. 193-200.

34. Klopman G., Fercu D. Application of the Multiple Computer Automated Structure Evaluation Methodology to a Quantitative Structure-Activity Relashionship study of Acidity. J.of Computational Chem., 1994, Vol. 15, N. 9, p.1041-1050.

35. Химические приложения топологии и теории графов. Под ред. Кинга Р. / Пер. с англ. М.: Мир. 1987. 560 с.

36. Розенблит А.Б., Голендер В.Е. Логико-комбинаторные методы в конструировании лекарств / Рига: Зинатне, 1983, 350 с.

37. Расе I.DI., Fabrocini F., Bolis G. Shift of Bias in Learning from Drug Compounds: The Fleming Project. Lecture Notes in Artificial Intelligence. Europian Working Session on Learning. March 1991, Porto, Portugal, p.483-493.

38. Бурштейн К.Я., Шорыгин П.П. Квантово-химические рассчеты в органической химии и молекулярной спектроскопии / Москва: Наука, 1989, 104 с.

39. Hansh С., Leo A. Substituent Constants for Correlation Analysis in Chemistry and Biology / John Wiley & Sons, New York, 1979, 340 p.

40. Химические приложения топологии и теории графов. Под ред. Кинга Р. / Пер. с англ. М.: Мир. 1987. 560 с.

41. Константинова Е.В., Скоробогатов В.А. Структурные и численные инварианты обыкновенных и молекулярных графов. / Математические методы в химической информатике. Новосибирск, 1991. - Вып. 140: Вычислительные системы, с.87-129.

42. Кларк Т. Компьютерная химия / Пер с англ. М.: Мир, 1990, с. 383

43. Марч Дж. Органическая химия /Пер. с англ. М.: Мир, 1987, т.1, 381с.

44. Wiswesser, W.J.: "A Line-Formula Chemical Notation" Thomas Y.Crowell, New York, 1954, 280 p.

45. Д.Б.Поляков, И.Ю.Круглов. Программирование в среде Turbo Pascal. Глава "Объектно-ориентированное программирование". М.: Издательство МАИ, А/О "РОСВУЗНАУКА", 1992.

46. Дрейпер, Т. Смит. Прикладной регрессионный анализ / Пер. с англ. -М.: Статистика, 1973, 392 с.

47. Уотермен Д. Руководство по экспертным системам / Пер. с англ. -М.: Мир, 1989, 388с.

48. Кумсков, Д.Ф. Митюшев. Применение метода группового учета аргументов (МГУА) для построения коллективных оценок свойств органических соединений на основе анализа их "структурных спектров". Pattern Recognition and Image Analisys, 1995 (в печати).

49. Brian T. Luke. Evolutionary Programming Applied to the Development of Quantitative Structure-Activity Relationships and Quantitative Structure

50. Property Relationships. J. Chem. Inf. Comput. Sci., 1994, 34, p. 12791287.

51. Бариш M., Яшари Дж., Лалл P., Шривастава В., Тринайстич Н. Матрица расстояний для молекул, содержащих гетероатомы. / В сб.: Химические приложения топологии и теории графов: Пер. с англ. / Под ред. Р.Кинга.- М.: Мир, 1987. с.259-265.

52. Бертц С. Математическая модель молекулярной сложности. / В сб.: Химические приложения топологии и теории графов: Пер. с англ. / Под ред. Р.Кинга.- М.: Мир, 1987. с.236-258.

53. Добрынин А.А., Скоробогатов В.А. Свойства цепей графов и изотопичность / Алгоритмический анализ структурной информации. -Новосибирск, 1985. Вып. 112: Вычислительные системы.- с.33-45.

54. Магнусон В., Харрис Д., Бейсак С. Топологические индексы, основанные на симметрии окрестностей: химические и биологические применения / В сб.: Химические приложения топологии и теории графов: Пер. с англ./Под ред. Р.Кинга.- М.: Мир, 1987, с.206-221.

55. Руврэ Д. Следует ли заниматься разработкой топологических индексов? / В сб.: Химические приложения топологии и теории графов: Пер. с англ./Под ред. Р.Кинга.- М.: Мир, 1987. с. 183-205.

56. Скоробогатов В.А. Алгоритмический анализ молекулярных графов. (Основы метрического анализа) / Новосибирск, НГУ, 1988, 84 с.

57. Станкевич И.В. Графы в структурной химии / В сб.: Применение теории графов в химии. Под ред. Н.С.Зефирова, С.Н.Кучанова. -Новосибирск, Наука, 1988, с.7-69.

58. Bersuker I.B., Dimoglia A.S., Gorbachov M.Yu. / In: "QSAR in Drug Design and Toxicology", Eds D.Hadzi and B.Jerman-Blazic, Elsevier, Amsterdam, 1987, p.43.

59. Bonchev D. Information theoretic indexes for characterization of chemical structures. J.Wiley, N.4, 1983.

60. Bonchev D., Mekenyan O., Trinajstic N. Topological characterization of cyclic structures / J. Quant. Chem., 1980, V.17, p.845-893.

61. Bonchev D., Mekenyan O., Protic G., Trinajstic N. Application of topological indexes to gas-chromatographic data: calculation of retention indexes of isomeric alkylbenzenes / J. Chromatogr. 1979, V.176, p. 149156.

62. Bonchev D., Mekenyan O., Polansky O.E. A topological approach to the prediction of electron energy characteristics of conjugated infinite polimers. II. PPP calculation / Z. Naturforsch - 1981, V.360, p.643-646.

63. Смоленский Е.А. Применение теории графов к расчетам структурно-аддитивных свойств углеводородов / Журн. Физ. Химии, 1964, Т.38, N.5, с. 1288-1290.

64. Яровой С.С., Методы расчета физико-химических свойств углеводородов / М.: Химия" 1978, 256 с.

65. Бенсон С. Термохимическая кинетика / М.: Мир, 1971, 308 с.

66. Рид Р., Праусниц Дж., Шервуд Т., Свойства газов и жидкостей / JI.: Химия, 1982, 592 с.

67. Winer Н. Prediction of isomeric differences in parafin properties / J. Phys. Chem. 1962, V.56, p.328-336.

68. Скоробогатов B.A., Хворостов П.В., Анализ метрических свойств графов / Методы обнаружения закономерностей с помощью ЭВМ. -Новосибирск, 1981, Вып.91: Вычислительные системы.- с.3-20.

69. Hosoya Н. Topological index. A newly quantity characterizing the topological nature of structural isomers of saturated hydrocarbons. / Bull. Chem. Soc. Japan. V.44, 1971, p.2332-2339.

70. Hosoya H., Kawasaki K., Mizutani K. / Topological index and thermodynamic properties. I. Empirical rules on the boiling point of saturated hydrocarbons. / Bull. Chem. Soc.Jap., V.45, 1972, p. 3415-3421.

71. Shannon C.E. / Bell Syst. Tech.,I.,- 1948, V.27, p.379

72. Basak S.C. et al / In Proc. of the Second Int. Conf. on Mathemetical Modeling. Eds by Avita X.I., - 1980, V. II, p.851-856.

73. Ивахненко А.Г., Степашко B.C. Помехоустойчивость моделирования Киев, Наукова Думка, 1985.

74. Ивахненко А.С., Юрачковский Ю.П. Моделирование сложных систем по экспериментальным данным / М.: Радио и связь, 1987, 120 с.

75. Ивахненко А.С., Зайченко Ю.П., Димитров В.Д. Принятие решений на основе самоорганизации / М.: Сов.Радио,1976, 280 с.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.