Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Коробкин, Дмитрий Михайлович

  • Коробкин, Дмитрий Михайлович
  • кандидат технических науккандидат технических наук
  • 2006, Волгоград
  • Специальность ВАК РФ05.13.12
  • Количество страниц 179
Коробкин, Дмитрий Михайлович. Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний: дис. кандидат технических наук: 05.13.12 - Системы автоматизации проектирования (по отраслям). Волгоград. 2006. 179 с.

Оглавление диссертации кандидат технических наук Коробкин, Дмитрий Михайлович

Аннотация.

Введение.

Глава 1. Анализ проблемы поддержки процесса формирования информационного обеспечения фонда физических эффектов.

1.1. Структурированное представление физической информации в поисковом конструировании и изобретательской деятельности.

1.1.1. Энерго-информационная модель цепей и метод структурных параметрических схем.

1.1.2. Комбинаторный метод поиска принципов действия.

1.1.3. Теория решения изобретательских задач.

1.1.4. Функционально - физический и компьютерные методы поискового конструирования.

1.2. Методика модификации фонда физических эффектов.

1.2.1. Методика формирования объектно-ориентированного фонда физических эффектов.

1.2.1.1. Анализ имеющегося массива физических эффектов.

1.2.1.2. Мобилизация первичной информации.

1.2.1.3. Анализ первичной информации.

1.2.1.4. Составление описаний физических эффектов.

1.2.2. Методика корректировки базы данных по физическим эффектам при включении новых объектно-ориентированных фондов.

1.2.2.1. Верификация фонда физических эффектов.

1.2.2.2. Коррекция фонда ФЭ.'.

1.2.3. Систематизация фонда ФЭ.

1.3. Существующие подходы к автоматизации процедур формирования объектно-ориентированного фонда ФЭ.

1.3.1. Подходы к автоматизации процедуры мобилизации первичной информации.

1.3.2. Анализ методов классификации и фильтрации документов.

1.3.2.1. Метод Байеса.

1.3.2.2. Метод опорных векторов SVM.

1.3.2.3. Метод латентно-семантического анализа/индексирования LSA/LSI.

1.3.2.4. Метод вероятностного латентного семантического индексирования PLSI.

1.3.2.5. Метод индексации концептов С1.

1.3.2.6. Классификатор Гроссберга (ART).

1.3.2.7. Самоорганизующиеся карты Кохонена (SOM).

1.3.3. Подходы к автоматизации процедуры поиска первичных источников описаний физических эффектов.

1.3.4. Подходы к автоматизации процедуры анализа первичных источников описания физических эффектов.

1.3.4.1. Технология автоматической реконструкции содержания текстов на естественном языке.

1.3.4.2. Технология извлечения из текста сетевых описаний фактов.

1.3.4.3. Недостатки рассмотренных технологий применительно к задаче выделения физических эффектов из текстов первичных источников.

Выводы по первой главе.

Глава 2. Обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов.

2.1 Семантический анализ текста на естественном языке.

2.2. Методика тематической фильтрации первичных источников.

2.3. Фильтрация по маске описаний физических эффектов.

2.4. Выделение описаний физических эффектов из текста первичных источников.

2.4.1. Модель представления структурированной предметной информации.

2.4.2. Отношение семантической однозначности.

2.4.3. Методика выделения структурированной физической информации в виде физических эффектов из текста.

2.5. Верификация фонда физических эффектов.

2.5.1. Ранги подобия физических эффектов по полям «Вход», «Объект»,

Выход».

Выводы по второй главе.

Глава 3. Разработка программного комплекса поддержки процесса формирования информационного обеспечения базы данных физических эффектов.

3.1. Архитектура программного комплекса.

3.2. Подсистема расширения фонда физических эффектов.

3.3. Подсистема модернизации фонда физических эффектов.

3.4. Подсистема верификации фонда физических эффектов.

3.4.1. Верификация физических эффектов по полям «Вход», «Выход», «Объект».

3.4.2. Верификация физических эффектов по полям «Сущность» или «Наименование».■.

3.4.3. Выявление физических эффектов с рассогласованными входными и выходными картами.

3.5. Подсистема систематизации фонда ФЭ.

3.6. База данных концептуальных отношений предметной области «Физический эффект».

3.7. База данных концептов предметной области «Физический эффект».

3.8. База данных ссылок на источники.

3.8. База данных тезаурусов фонда физических эффектов.

Выводы по третьей главе.

Глава 4. Применение программного комплекса поддержки процесса формирования информационного обеспечения фонда физических эффектов.

4.1. Результаты функционирования программного комплекса при решении задач расширения фонда физических эффектов.

4.2. Результаты работы программного комплекса при решении задач модернизации фонда физических эффектов.

4.3. Результаты проверки эффективности работы программного комплекса.

4.4. Использование результатов диссертационной работы.

4.4.1. Использование для физико-технических эффектов.

4.4.2. Использование в предметной области «Химия».

Выводы по четвертой главе.

Основные результаты диссертационной работы.

Список публикаций по теме диссертации.

Список сокращений и условных обозначений.

Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Введение диссертации (часть автореферата) на тему «Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний»

Актуальность. В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ), которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-техническом прогнозировании, при обучении методам технического творчества.

Существуют различные подходы к формированию концептуальных моделей описания физических эффектов, способам формализации этих моделей и созданию автоматизированных информационных систем на их основе. Значительный вклад в развитие научных направлений, в рамках которых осуществляется структурирование физической информации, внесли Г.С. Альтшуллер, Г.Я. Буш, В.Н. Глазунов, A.M. Дворянкин, М.Ф. Зарипов, В.А. Камаев, К.В. Кумунжиев, А.И. Половинкин, И.Ю. Петрова, 3. М. Шмаков, Р. Аллей, В. Бейтц, Г. Голл, Р. Коллер, П. Крумхауэр, Г. Пресс, В. Роденакер, X. Франке, К. Хикс и другие отечественные и зарубежные ученые.

Эффективность работы с системами, оперирующими структурированной физической информацией в форме физических эффектов, зависит не только от методов и алгоритмов информационного поиска, синтеза и анализа структур физического принципа действия технической системы. В неменьшей степени она зависит от качества и наполнения самого фонда ФЭ.

На данный момент вопросам поддержки процесса формирования информационного обеспечения базы данных ФЭ не уделяется должного внимания ни в одном из направлений, кроме подхода, описанного в трудах А.И. Половинкина и получившего дальнейшее развитие в работах кафедры САПР и ПК ВолгГТУ. Однако и у методики модификации фонда ФЭ, созданной в рамках данного направления, существует серьезный недостаток: все операции осуществляются вручную, что приводит к большим временным и трудовым издержкам.

Таким образом, учитывая, что центральными и наиболее трудоемкими операциями методики являются поиск первичных источников и выделение из текста описаний физических эффектов, то актуальной является необходимость разработки автоматизированных средств поиска и выделения структурированной физической информации в виде физических эффектов из текстов первичных источников на естественном русском языке (ЕЯ).

Целью работы является повышение эффективности процесса формирования информационного обеспечения фонда ФЭ, а также качества самого фонда за счет автоматизации наиболее трудоемких процедур.

Для достижения данной цели необходимо решить следующие задачи:

1. Проанализировать процесс формирования информационного обеспечения фонда ФЭ и осуществить постановку задачи автоматизации наиболее трудоемких процедур.

2. Построить формальные модели и алгоритмы выбранных процедур.

3. На основе предложенных моделей и алгоритмов разработать обобщенную методику поддержки процесса формирования информационного обеспечения фонда физических эффектов.

4. Программно реализовать разработанную методику и проверить работоспособность созданного программного комплекса при решении практических задач.

Объект исследования. Различные модели описания ФЭ, тексты физического профиля в первичных источниках на ЕЯ.

Предмет исследования. Методы поиска и выделения структурированной предметной информации в виде физических эффектов из текста первичных источников в сети Интернет.

Методы исследования. В диссертации использованы методы системного анализа, компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, теории графов, теории баз данных, объектно-ориентированного проектирования систем.

Научная новизна работы состоит в следующем:

1) Построена модель представления структурированной предметной информации, позволяющая выделять из текста информацию, которую можно представить в виде трехкомпонентной структуры (А,В,С), где А - входное воздействие, С - выходное воздействие, В - объект.

2) Разработана методика выделения структурированной физической информации в виде физических эффектов из текста, использующая построенную модель. Разработан алгоритм, реализующий методику, и сформированы тезаурусы концептов и концептуальных отношений предметной области «Физический эффект».

3) Разработаны методика и алгоритм тематической фильтрации первичных источников. Методика основана на методе латентно-семантического анализа текста и отличается от известных аналогов использованием коэффициентов принадлежности тематике семантических классов термов.

4) На основе предложенных моделей и алгоритмов разработана обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов, отличающаяся от известной тем, что позволяет автоматизировать ее наиболее трудоемкие процедуры и тем самым повысить качество описания отдельного ФЭ.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием зарекомендовавших себя методов компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, подтверждаются показателями эффективности работы созданного программного комплекса на тестовом массиве документов, а также результатами его функционирования при решении конкретных задач поддержки процесса формирования информационного обеспечения фонда ФЭ.

Практическая значимость и внедрение:

1) Разработана модель представления структурированной предметной информации, инвариантная относительно предметных областей. Благодаря данной модели, программный комплекс может быть ориентирован на другие предметные области и формализованные модели ФЭ, например, на химические знания в виде химических эффектов.

2) Разработан программный комплекс поддержки процесса формирования информационного обеспечения фонда ФЭ (ПК ППФИО БДФЭ), который позволяет существенно снизить время и трудозатраты на поиск описаний новых ФЭ и расширение описаний уже существующих. Кроме того, программный комплекс дает возможность повысить качество фонда ФЭ за счет его постоянного мониторинга, направленного на выявление недостаточно полно описанных и дублирующих ФЭ, а также улучшить наглядность просмотра фонда ФЭ с помощью его систематизации на основе многомерных систематизационных схем. Отдельные компоненты программного комплекса могут применяться в составе иных программных средств.

Данная работа выполнялась в рамках гранта для поддержки научно-исследовательской работы аспирантов вузов Федерального агентства по образованию (шифр: А04-3.16-505). Программный комплекс внедрен в учебный процесс АГТУ, а также зарегистрирован в отраслевом фонде алгоритмов и программ ФГНУ «Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Основные положения диссертации, выносимые на защиту:

1) Модель представления структурированной предметной информации.

2) Методика выделения структурированной физической информации в виде физических эффектов из текста.

3) Методика тематической фильтрации массива текстовых документов.

4) Обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ.

5) Программный комплекс ППФИО БДФЭ и результаты его работы.

Апробация. Основные положения диссертации докладывались и обсуждались на научных семинарах кафедры «САПР и ПК» ВолгГТУ, а также на Международных и Всероссийских научных и научно-практических конференциях: «Информационные технологии в науке, образовании, телекоммуникации и бизнесе (IT + SE)» (Гурзуф, Украина, 2004), «Системные проблемы надежности, качества информационных и электронных технологий (Инноватика)» (Сочи, 2004), «Интеллектуальные системы (AIS). Интеллектуальные САПР (CAD)» (Дивноморское, 2004), «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004).

Публикации. Основные положения диссертации отражены в 12 опубликованных работах. В том числе 3 статьи напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ.

В первой главе диссертации приводится обзор работ, связанных с использованием структурированных физических знаний, анализируется существующая методика модификации фонда ФЭ, определяются ее основные процедуры и выявляются недостатки, изучаются возможные способы решения проблемы поиска первичных источников описания ФЭ, а также технологии и программные системы извлечения знаний из текстов.

Во второй главе приводится разработанная обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ, основанная на предложенной модели представления структурированной предметной информации, методиках и алгоритмах тематической фильтрации и выделения структурированной физической информации в виде физических эффектов. Приводится алгоритм верификации фонда ФЭ для выявления тождественных физических эффектов, предложены ранги подобия ФЭ.

В третьей главе описана архитектура созданного программного комплекса поддержки процесса формирования информационного обеспечения БД ФЭ (ПК ППФИО БДФЭ), приведены режимы работы и функции программного комплекса, показаны подсистемы и структуры данных. Приведенные в главе 2 модель, методики и алгоритмы полностью реализованы в ПК ППФИО БДФЭ.

В четвертой главе показаны результаты работы созданного программного комплекса в режимах расширения и модернизации фонда ФЭ, приведены показатели эффективности ПК ППФИО БДФЭ для подсистем тематической фильтрации и выделения описаний ФЭ из текста первичных источников.

Программный комплекс внедрен в учебный процесс Астраханского государственного технического университета, а также зарегистрирован в отраслевом фонде алгоритмов и программ ФГНУ «Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Автор выражает глубокую признательность научным консультантам: к.т.н., доц. Петрухину А.В. и с.н.с Колесникову С.Г.

Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Список литературы диссертационного исследования кандидат технических наук Коробкин, Дмитрий Михайлович, 2006 год

1. Подсистема верификации фонда физических эффектовПодсистема верификации БД ФЭ работает в двух режимах:

2. Верификация отдельного ФЭ со всем фондом ФЭ;

3. Магнитное поле + 0 Внутреннее 0 Изменение параметров (парамет

4. Пространственные характер»- + 0 Внешнее 0 Физическая величина- 0 Временные характеристики *■ Механика

5. ПОСТОЯННОЕ ♦ 0 Термодинамика

6. ПЕРЕМЕННОЕ 0Электричествоt; 0 Специальные характеристик» t ^ЭЛЕКТРИЧЕСКИЙ ЗАЬ 0 Физическая величина t Q ПОВЕГОНОСТНАЯ ПГ

7. МАГНИТНАЯ ИНДУКЦИ? * * □ЭЛЕКТРИЧЕСКИЙ МС

8. Фазовое состояние а + 0 Химический состав

9. Магнитная структура '+• 0 Электрическая провод» + 0 Механическое состоян! t 0 Оптическое состояниеe "ТФаза 2

10. Фазовое состояние * +■ 0 Химический состав + 0 Магнитная структура0Электрическая провод» + 0 Механическое состоян! "*•< 0 Оптическое состояние•*: П Специальные характер л < >Фаза 2

11. Зависимость давления от объема в изотермическом процессеОБЪЕМ (МЛ3) Увеличение.ДАВЛЕНИЕ (ПА). УменьшениеСостояние объекта. Однофазное 1 ГАЗ, ДИЭЛЕКТРИК

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.