Информационные системы поиска и оценки проектов в области радиоэкологии тема диссертации и автореферата по ВАК РФ 25.00.35, кандидат геолого-минералогических наук Кузьмина, Дарья Александровна
- Специальность ВАК РФ25.00.35
- Количество страниц 168
Оглавление диссертации кандидат геолого-минералогических наук Кузьмина, Дарья Александровна
ВВЕДЕНИЕ.
ГЛАВА
АНАЛИТИЧЕСКИЙ ОБЗОР.
1.1 источники информации и цели аналитического обзора.
1.2 Общие вопросы охраны окружающей среды, концепция устойчивого развития
1.2.1 Информатизация экологии.
1.2.2 Поиск экологической информации.
1.3 Рассмотрение проблемы дублирования и информационного обеспечения данных по экологическим проектам.
1.3.1 Дублирование научных исследований.
1.3.2 Источники информации по экологическим проектам.
ГЛАВА
ОЦЕНКА ТЕМАТИЧЕСКОГО ДУБЛИРОВАНИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ ЭКОЛОГИИ.
2.1 Постановка задачи минимизации дублирования экологических исследований
2.1.1 Определение и основные теоретические положения задачи минимизации дублирования.
2.1.2 Роль информационно-поисковой системы в задачах минимизации дублирования, (фактическийматериал по системе «ЭкоПро»).
2.1.3 Математическое представление эффективного планирования за счет устранения дублирования.
2.2 Основные подходы и модели оценки степени дублирования проектов.
2.2.1 Автоматизированный поиск в информационной системе в соответствии с темой заявляемого проекта.
2.2.2 Экспертная оценка коэффициента перекрытия заявляемого проекта с найденным информационной системой и принятие решения.
ГЛАВА
ЭКОНОМИЧЕСКАЯ ЭФФЕКТИВНОСТЬ МИНИМИЗАЦИИ ДУБЛИРОВАНИЯ
3.1 Экономическая роль информационных технологий в экологии.
3.1.1 Экономические аспекты природоохранной деятельности в России.
3.1.2 Информатизация экологических исследований, информационные системы в экологии и их роль в экономии природных ресурсов.
3.2 Экономическая эффективность информационных систем, содержащих сведения по проектам в области экологии.
3.2.1 Основные подходы к оценке экономической эффективности информационных систем, содержащих сведения по экологическим проектам.
3.2.2 Экономико-математическая модель эффективности информационно-поисковой системы.
ГЛАВА
АВТОМАТИЗИРОВАННЫЙ ПОИСК В ИНФОРМАЦИОННОЙ СИСТЕМЕ И ЭФФЕКТИВНОСТЬ УСТРАНЕНИЯ ДУБЛИРОВАНИЯ.
4.1 Информация по проектам и особенности поисковой системы.
4.1.1 Поиск информации в базе данных.
4.1.2 Математическое представление тематического наполнения информационного массива и стратегш оценки релевантности.
4.2 Лингвистическое обеспечение информационной системы по экологическим проектам.
4.2.1 Методика построения словаря ключевых слов.
4.2.2 Роль тематического классификатора и методика его построения.
ГЛАВА
ИНФОРМАЦИОННАЯ СИСТЕМА ПО РАДИОЭКОЛОГИЧЕСКИМ ПРОЕКТАМ
5.1 Построение информационной системы по радиоэкологическим проектам.
5.1.1 Построение базы данных информационной системы в области радиогеоэкологии с использованием тематического классификатора.
5.1.2 Использование ключевых слов в информационно-поисковой системе по проектам в области радиоэкологии.
5.1.3 Сопоставление классификатора по радиогеоэкологическим проектам с Рубрикатором ВИНИТИ и ГРНТИ и ключевые слова рубрик.
5.2 Анализ базы данных по радиоэкологическим проектам.
5.2.1 Поиск релевантных проектов на примере научных направлений ИГЕМРАН.
5.2.2 География распределения проектов.
Рекомендованный список диссертаций по специальности «Геоинформатика», 25.00.35 шифр ВАК
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа2014 год, кандидат наук Лукашевич, Наталья Валентиновна
Моделирование и разработка средств и технологий поиска документальной информации2004 год, кандидат технических наук Голицына, Ольга Леонидовна
Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле2006 год, кандидат технических наук Рябинков, Артем Иванович
Повышение релевантности периодического тематического поиска информации в Web2007 год, кандидат физико-математических наук Максаков, Алексей Владимирович
Введение диссертации (часть автореферата) на тему «Информационные системы поиска и оценки проектов в области радиоэкологии»
Актуальность проблемы
Экологические проблемы в настоящее время приобрели планетарный масштаб и особую значимость, поскольку касаются всех областей жизни общества. Выделяют четыре основных момента, связанных с решением задач охраны окружающей среды и природопользованием: малоотходная безотходная, ресурсосберегающие технологии; экономические пути; формирование нового мировоззрения и экологическое образование; формирование информационной структуры.
Информатизация в экологии служит прежде всего цели экономии ресурсов путем поиска и последующего использования информации:
• для аналитической обработки имеющихся результатов в определенной области науки и выхода на необходимый, возможно, новый уровень последующих исследований;
• для постоянного оперативного отслеживания новой информации в природоохранной деятельности и выявления ее динамических характеристик;
• для предотвращения повторных исследований;
• для распространения результатов исследований и работ (доступные базы данных в Internet).
В настоящее время исследования по охране окружающей среды ведутся во всех областях науки и техники различными организациями и на разных уровнях, в том числе и на государственном. Большие объемы экологической информации, данные многолетних наблюдений, новейшие разработки разбросаны по различным, часто недоступным, информационным базам или даже находятся на бумажных носителях в архивах, что затрудняет их поиск и приводит к снижению эффективности использования средств, выделяемых на экологию из бюджета, иностранных фондов или коммерческих структур.
Если информация о выполненном проекте или проведенном исследовании недоступна организациям, а их множество, это ведет к повторному циклу исследовательских и опытно-конструкторских работ, а, следовательно, к неоправданным расходам.
Поэтому устранение дублирования исследований путем формирования широко доступных информационных систем по выполненным экологическим проектам является одним из важных направлений решения вопроса сохранения и восстановления природной среды, поскольку способствует:
• экономии финансовых ресурсов вследствие устранения повторных исследований;
• более целенаправленному и эффективному планированию разработки и организации НИР;
• установлению сотрудничества научных коллективов, заказчиков и других заинтересованных лиц.
• более эффективному обмену и тиражированию информации в области экологии;
• повышению эффективности конкурсных процедур - ускорению процесса их подготовки, более объективному рассмотрению проектов, возможности привлечения большого количества независимых экспертов, осуществлению общественной экспертизы проектов.
Работа по решению проблемы оценки дублирования носит инновационный характер, так как способствует решению задачи эффективного использования знаний.
Основные понятия
Предмет исследования: - тематическая структура и поисковый образ информации по экологическим и радиогеоэкологическим научным исследованиям.
Объект исследования: Методы, модели минимизации тематического дублирования проектов:
1) обосновывающие эффективность устранения дублирования;
2) формирующие принципы и подходы к поиску и оценке степени дублирования проектов автоматизированным путем.
Под минимизацией дублирования экологических проектов подразумевается: повышение эффективности планирования тематики нового исследования с помощью доступных автоматизированных систем, содержащих данные по выполненным проектам, обеспечивающих наиболее рациональное использование ресурсов, направляемых на вновь разрабатываемый проект.
Степень тематического дублирования - оценка соответствия планируемого исследования и найденного в системе релевантного документа по проекту.
Цель и задачи исследования
Главная цель: Разработка научно-методических материалов, алгоритмов обработки данных и информационной системы для снижения затрат, связанных с дублированием работ в области экологии
Задачи
1 .Теоретические исследования в области организации поиска экологических проектов, дублирующих выполненные или запланированные научные и прикладные работы.
• Анализ публикаций по вопросам поиска экологической информации, ее роли в эффективности решения экологических проблем
• Роль информации по экологическим исследованиям в повышении эффективности разработки и планировании экологических проектов.
• Анализ публикаций и поиск имеющихся информационных систем по экологическим проектам; обоснование эффективности устранения тематического дублирования экологических проектов в вопросах экономии ресурсов.
2.Подготовка научно-методических материалов, позволяющих проводить автоматизированный анализ информационных массивов, отражающих тематику и основные результаты исследований с точки зрения исключения повторных работ.
• Разработка подхода, позволяющего проверить тематику работ различных уровней и регионов па дублирование экспертным и математическим путем.
• Разработка экономико-математической модели эффективности системы по проектам в области экологии. Построение научно-обоснованных рекомендаций по повышению эффективности систем по исследовательским проектам.
3.Разработка информационной технологии и системных решений для эффективного поиска и устранения дублирования исследовательских работ в области экологии
• Разработка принципов информационного поиска и построения тематического классификатора системы для оценки степени дублирования
• Классификация факторов, влияющих на оценку степени дублирования.
4.Выполнение экспериментальных работ по построению базы данных и информационной системы для оценки степени дублирования исследования в области радиоэкологии.
• Построение концепции информационной системы по экологическим проектам (цели, область применения, функциональная схема).
• Создание банка данных по радиоэкологическим проектам, проводимым научно-исследовательскими институтами и проектными организациями.
• Разработка классификатора информационной системы по проектам в области радиоэкологии с целью минимизации дублирования при поиске релевантных проектов.
• Анализ тематического дублирования проектов ИГЕМ РАН, в том числе проектов лаборатории радиогеоэкологии и научных организаций РАН.
•Анализ проектов системы с целью выявления тематических динамических тенденций.
Фактический материал
В лаборатории геоинформатики имеется опыт разработки и эксплуатации экологических информационных систем:
- электронный тематический справочник по РАН «Проблемы экологии»;
- справочно-информационная системы АИС «ЭкоПро», в которой представлены экологические проекты, осуществленные на средства иностранных доноров (http://www.ecoproiects.ru');
Также использовался материал ИС «Радиационная безопасность России»
Исследования по данной тематике предполагают анализ тематического дублирования проектов лаборатории радиогеоэкологии, в научных организациях РАН.
Методы исследования
1. Теория вероятности - для моделирования процесса поиска и экономической оценки информационной системы по проектам
2. Матричный аппарат математического моделирования поиска и оценки дублирования проектов автоматизированным путем
3. Методы формальной и булевой логики - разработка методики для построения классификатора системы (формализованной модели). Совместно со статистическими методами алгебра логики используется для разработки словаря системы, а также в практических целях поиска проектов непосредственно в системе.
4. Статистическая обработка массивов наименований радиоэкологических проектов и основных дескрипторов, составляющих лингвистическое обеспечение системы
5. Системный подход общего построения научно-методического материала
Защищаемые положения
1. Минимизация дублирования экологических исследований путем построения информационных систем, содержащих сведения по проектам в области экологии, способствует повышению эффективности проектной деятельности (в концептуальной части и планировании ресурсов исследования), способствуя решению задач природопользования и охраны окружающей среды.
2. Использование доступных и производительных информационно-поисковых аналитических систем по поиску и оценке степени тематического дублирования экологических исследований экономически эффективно ввиду содействия планированию новых исследований (для пользователя) и экономии финансовых средств, расходуемых на экологические исследования.
3. Построение информационной системы для целей минимизации дублирования экологических исследований требует специализированного подхода в части поиска, ориентированного прежде всего на оценку степени тематического дублирования проектов в соответствии со спецификой информации по проектам в области экологии и поискового запроса пользователя.
Структура работы
Диссертация состоит из 168 страниц машинописного текста, введения, пяти глав, заключения, списка литературы (105 наименований) и приложения (28 стр.), включает 20 таблиц и 25 рисунков, поясняющих текст.
Научная новизна полученных результатов
Научная новизна работы состоит в разработке методических подходов к оценке степени тематического дублирования с использованием классификатора, включающих также подходы к оценке эффективности системы.
Разработанный тематический классификатор в области радиогеоэкологии содержит развернутую рубрикацию, в отличие от имеющихся классификационных построений в Государственном рубрикаторе научно-технической информации и рубрикатора Всероссийского института научно-технической информации. Подход к формированию классификатора и выбранные основные признаки деления на рубрики позволяют динамично развивать рубрикацию, в том числе в смежных областях, расширяя тематический охват базы данных и обеспечивая совместимость с существующими рубрикациями.
Практическая значимость работы
Практическая значимость работы состоит в формировании базы данных по радиоэкологическим и радиогеоэкологическим проектам. База данных и информационная система служат продолжением работы по автоматизации хранения и поиска сведений по проектам в области экологии (система «ЭкоПро»), расширяя возможности созданных систем в части информативности и поиска. Результаты классификационных исследований используются в программе Президиума РАН «Электронная Земля».
Предложенные для пополнения списка ключевых слов баз данных ВИНИТИ способствуют расширению возможностей поиска радиологических сведений в массиве данных по экологии и охране окружающей среды.
Методические указания по оценке степени дублирования имеют продолжение в своем практическом приложении в рамках совершенствования системы по оценке степени дублирования.
Подходы к экономической оценке могут способствовать коммерческому внедрению подобных систем поддержки принятия решения.
Проведенный анализ базы данных по проектам направлен на повышение эффективности координации исследовательских работ в данной тематической области.
Апробация работы
Основные научные и практические результаты работы опубликованы в семи статьях и докладывались на X Всероссийском форуме «Геоинформационные технологии. Управление. Природопользование. Образование. Бизнес» ГИС-Ассоциации 2002 г., Московской Годичной сессии в ИГЕМ РАН в 2002 г. Результаты исследования отражены в 9 статьях изданий научно-технической информации.
Построена база данных и поисковая система (СУБД Access) по проектам в области радиогеоэкологи (320 документов по проектам и дополнительные данные по организациям), выполненных за период 1995-2005 гг. институтами Российской академии наук, предприятиями атомной индустрии и другими организациями. Созданная база данных по радиогеоэкологическим проектам входит в состав интегрального банка данных портала ИГЕМ РАН программы Президиума РАН «Электронная Земля», а также пополняет сведения функционирующей АСИС «ЭкоПро».
Благодарности
В первую очередь автор хотел бы поблагодарить своего научного руководителя д.т.н., проф. А. В. Веселовского за неоценимую помощь в планировании, организации и написании работы, а также поддержку и ценные советы.
Особую признательность за консультации автор выражает академику РАН Н.П. Лаверову, стоящему у истоков развития научного направления радиогеоэкологии, и зав. лаб. радиогеологии и радиогеоэкологии ИГЕМ РАН, член. корр. РАН В.И. Величкину.
За содействие в работе над диссертацией автор глубоко благодарен к.т.н. И.И. Потапову, а также к.т.н. A.B. Шапкину за сотрудничество в работе по сопоставлению рубрик тематической классификации, JI.JI. Гульницкому за консультации и предоставление данных для аналитического обзора.
Автор искреннее благодарит Т.Н Муравьеву за искреннее участие в обсуждении вопросов геохимии в процессе работы над тематической классификацией, Т.М Маханову за содействие в построении географического классификатора и всех сотрудников лаборатории геоинформатики ИГЕМ РАН за дружескую помощь.
Похожие диссертационные работы по специальности «Геоинформатика», 25.00.35 шифр ВАК
Лингвистическое обеспечение информационно-поисковых систем библиотек АПК: Методика формирования и пути совершенствования2003 год, кандидат педагогических наук Пирумова, Лидия Николаевна
Информационно-библиографическое обеспечение специалистов в сетевой среде научных коммуникаций2005 год, кандидат педагогических наук Булдакова, Екатерина Владимировна
Методические аспекты построения классификатора математических задач как инструмента для подготовки и проведения внеклассной работы по математике в средней школе2005 год, кандидат педагогических наук Сергеев, Петр Валентинович
Модели и методы автоматической классификации текстовых документов2003 год, кандидат технических наук Шабанов, Владислав Игоревич
Ранговые распределения как инструментальный критерий при формировании документных массивов информационных систем и баз данных2004 год, кандидат технических наук Либкинд, Александр Наумович
Заключение диссертации по теме «Геоинформатика», Кузьмина, Дарья Александровна
Выводы
В результате проведенного исследования разработан состав лингвистического обеспечения системы, содержащего словарь ключевых слов, тематический классификаторов и классификатор географических привязок проектов. Это позволяет более эффективно решать задачи оценки дублирования с использованием информационно-поисковых систем.
1) Проведен анализ поиска по ключевым словам по материалам данных по проектам радиогеоэкологии, радиоэкологии и радиоактивного загрязнения, отобранным из различных источников, с использованием списков ключевых слов ВИНИТИ. В целом словарь ключевых слов ВИНИТИ удовлетворяет задачи поиска проектов на 92 %. Выявлена необходимость дополнения словаря в целях более эффективного поиска информационных документов по радиогеоэкологии в части более детального рассмотрения видов радиоактивных отходов, способов захоронения и пород и других специфических терминах, использующихся в документах по проектам. Предложены и приняты слова для пополнения списков БД ВИНИТИ.
2) Географический классификатор и географическая лексика были разработаны в рамках работы над системой «ЭкоПро». В построенной информационной системе данный классификатор географических привязок был дополнен зонами радиационного риска (атомные электростанции, радиационно-химические комбинаты, горно-химические комбинаты, НИИ с экспериментальными реакторами, зоны складирования и выброса радиоактивных отходов).
3) Наиболее важную часть автоматизированного поиска и оценки степени дублирования проектов представляет собой тематический классификатор. Разработана методика построения тематического классификатора по проектам с использованием формального подхода, на основе принципов первоначального отбора документов в базу данных, тематического разделения первоначальной базы данных по проектам, предусматривающая также использование имеющихся общепринятых рубрикаторов (как требуют стандарты).
Анализ показал, что имеющиеся классификационные системы в области радиоэкологии и других смежных областях не отражают тематику проектов БД и не подходят для использования их в созданной специализированной информационной системе. В связи с этим по сформированной методике с использованием комплексных понятий, выраженных дескрипторами в тексте проекта, а также с использованием Рубрикатора ВИНИТИ и ГРНТИ был сформирован тематический классификатор комплексного, более широкого направления, включающий рубрики по исследованиям радионуклидов в различных компонентах окружающей среды, в том числе в геологической среде (основное направление лаборатории радиогеологии и радиогеоэкологии).
С использованием теоретических результатов выполненного исследования построена база данных и информационная система по проектам в области радиогеоэкологии и близких по тематике, используемая в научных работах ИГЕМ РАН, академических институтах и других организациях (Приложение 2, п. 2.2). В отличие от имеющихся аналогичных систем, данная информационная система обладает более развитым лингвистическим обеспечением и предусматривает режим расширенного поиска информации по проектам, что значительно повышает эффективность ее использования в целях поиска релевантных проектов.
Таким образом, построение информационной системы для целей минимизации дублирования экологических исследований требует специализированного подхода в части поиска данных, ориентированного прежде всего на оценку степени тематического дублирования проектов в соответствии со спецификой информации по проектам в области экологии и особенностями поискового запроса пользователя.
Приведенные количественные оценки базы данных по радиоэкологическим проектам, распределение по рубрикатору, главным образом тематическому, свидетельствуют о возможности сопоставления проектов схожих тематических областей и оценки тематического дублирования.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.