Система информационной поддержки исследований в области физико-математических наук: русскоязычные работы по акустике тема диссертации и автореферата по ВАК РФ 01.04.06, доктор наук Шамаев Владимир Григорьевич
- Специальность ВАК РФ01.04.06
- Количество страниц 480
Оглавление диссертации доктор наук Шамаев Владимир Григорьевич
Введение
2.1. Информационно-поисковая система «Акустика». Русскоязычные источники
2.2. AkInfo.ru — «Сигнальная информация» по акустике
2.3. AkZh.Ru — полнотекстовый интернет-архив «Акустического журнала»
Заключение
ГЛАВА 3. Об акустических аналогиях при математическом моделировании процесса движения документов
3.1. Математические модели потока документов
3.2. Случай несжимаемого потока при р = const
3.3. Применение полученной модели для отделов научной информации ВИНИТИ
3.4. Исследование документальных потоков по базе данных «Акустического журнала»
ГЛАВА 4. Наукометрические исследования по БД «Акустика» и АБнД «Физика» ВИНИТИ РАН
4.1. Наукометрические исследования по БД «Акустического журнала»
4.2. Наукометрические исследования по порталу «Акустика»
4.3. Наукометрические исследования по АБнД «Физика» ВИНИТИ
ГЛАВА 5. Методология формирования информационных электронных ресурсов
5.1. Введение
5.2. Информационно-поисковые системы
5.3. Информационно-поисковые системы в Интернете
ГЛАВА 6. Программно-технологический комплекс для формирования новых информационных продуктов
Введение
6.1. Интегральная информационная система
6.2. Структура библиографической информации
6.2.1. Работа с библиографической информацией
6.3. Модель и структурная схема программно-технологического комплекса
6.4. Технология обработки документов в программно-технологическом комплексе и схема электронного документооборота
6.5. Использование технологической базы данных для формирования информационных продуктов
Выводы
ГЛАВА 7. Технологическая база данных проекта «"Акустика". Русско-
язычные источники» 349 Введение
7.1. Технология сбора и обработки информации, ее хранения (таблицы
и поля базы данных)
7.2. Упаковка библиографического описания в строки данных
7.3. Программно-технологические средства создания информационных ресурсов (сайты и их структура, а также программные средства
для их наполнения)
ГЛАВА 8. Концепция и технология создания интернет-издания «Российская экологическая энциклопедия» 367 Введение
8.1. Программно-аппаратный комплекс. Представление экологической энциклопедии в Интернете
8.2. Реляционные модели баз данных для подготовки и публикации Экологической энциклопедии
8.3. База данных для хранения Экологической энциклопедии на вебсайте
Заключение к главе
Заключение
Приложение
Благодарности
Основные публикации автора по теме диссертационной работы
Литература
ВВЕДЕНИЕ
Рекомендованный список диссертаций по специальности «Акустика», 01.04.06 шифр ВАК
Интегральная система информационного обеспечения научных исследований в области математических наук: концепция создания и перспективы развития2008 год, доктор технических наук Никольская, Инга Юрьевна
Научное мероприятие как объект информационной деятельности: базы данных и информационные продукты2008 год, кандидат технических наук Пожидаев, Алексей Викторович
Принципы и модели формирования входного документного потока информационного центра2004 год, кандидат технических наук Кириллова, Ольга Владимировна
Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам2001 год, доктор технических наук Максимов, Николай Вениаминович
Обоснование и разработка системы информационного обеспечения наук о жизни1998 год, доктор биологических наук Борисова, Людмила Федоровна
Введение диссертации (часть автореферата) на тему «Система информационной поддержки исследований в области физико-математических наук: русскоязычные работы по акустике»
Актуальность темы диссертации
Огромный объем научной информации, накопленной к настоящему времени, не только составляет интеллектуальный фонд человечества, но и заметно тормозит темпы современных исследований. Десятки тысяч научных журналов ежегодно публикуют на разных языках сотни тысяч статей, полное ознакомление с которыми невозможно. Отсюда идут повторные «открытия», невольные заимствования и откровенный плагиат. Действительно ценные результаты далеко не всегда публикуются в «топовых» англоязычных журналах, айв «провинциальных» не англоязычных, и не привлекают достойное внимание. Можно сказать, что современное состояние публикационного пространства представляет собой «информационный хаос», который может быть упорядочен не призывами соблюдать публикационную этику, а созданием тщательно рубрицированных баз данных и удобных систем поиска нужных сведений. Частично эту функцию выполняют хорошо написанные обзоры и монографии, содержащие наиболее ценную и упорядоченную информацию. Однако их написание — трудоемкое дело, которое к тому же слабо поощряется; в частности, монографии практически не рубрицируются ведущими международными центрами типа Web of Science и Scopus.
Акустика страдает от неадекватного информационного обеспечения боль-пie других разделов науки. С чем это связано? Во-первых, акустику нельзя полностью отнести ни к фундаментальной, ни к прикладной, ни к инженерной науке. Она содержит признаки всех этих направлений.
Во-вторых, акустика является не только частью физики, но и механики, наук о Земле, математической физики, медицины и других разделов современной науки и техники. Исследования, связанные с акустикой, ведутся во
всех естественно-научных отделениях РАН и в некоторых гуманитарных отделениях. Вот фамилии некоторых действительных членов РАН, известных своими результатами в области акустики (табл. 1).
Таблица 1
Отделения академии наук и академики, работающие и работавшие
в области акустики
Фамилия академика По какому отделению избран (специальность)
Андреев H.H. Бункин Ф.В. Гапонов-Грехов A.B. Константинов Б.П. Акуличев В.А.
Бреховских . I.M. Гуляев Ю.В.
Накоряков В.Е.
Пуетовойт В.И.
Пешехонов В.Г.
Спасский И.Д.
Алешин Н.П.
Голицын Г.С.
Долгих Г.И.
Ильичев В.И.
Нигматулин Р.И.
Отделение физических наук Отделение физических наук Отделение физических наук Отделение физических наук
Отд. океанологии, физики атмосферы и географии (океанология)
Отд. океанологии, физики атмосферы и географии Отд. информатики, вычислительной техники и автоматизации (элементная база, материалы выч, техники и диагностика) Отд. энергетики, машиностроения, механики и процессов управления РАН (энергетика)
Отд. информационных технологий и вычислительных систем (научное приборостроение)
Отд. энергетики, машиностроения, механики и процессов управления РАН (энергетика)
Отд. энергетики, машиностроения, механики и процессов управления РАН (энергетика)
Отд. химии и наук о материалах (металлургия и диагностика материалов)
Отделение наук о Земле РАН (океанология, физика атмосферы и география)
Отделение наук о Земле РАН (океанология, физика атмосферы и география)
Отделение наук о Земле РАН (океанология, физика атмосферы и география)
Отделение наук о Земле РАН (океанология, физика атмосферы и география)
Данная диссертация также является междисциплинарной. Она выполнена «на стыке» акустики и информатики. В этом смысле ее можно характеризовать по аналогии с работами по биоакустике, музыкальной акустике, физиологической акустике, психоакустике. Она посвящена различным аспектам информационной акустики. Это новое направление дает инструменты
для изучения путей развития акустики, прогнозирования ее развития. Имеются прецеденты: в группе специальностей 25.00.00 «Науки о Земле» недавно появилась специальность 25.00.35 Геоинформатика.
В-третьих, в России никогда не было структуры, которая тесно объединяла бы людей, занимающихся акустикой в различных институтах Академии наук и других ведомств, университетах и промышленных организациях. Конечно, важную объединяющую роль выполняли Совет по акустике РАН, Российское акустическое общество, Совет по гидрофизике, но центробежные тенденции все же были выражены сильнее. Единственное периодическое академическое издание — «Акустический журнал» РАН — недостаточно отражает деятельность технических и смежных с физикой направлений, поскольку курируется ОФН РАН и поэтому ориентирован на проблемы физической акустики.
Когда автор начал создавать информационную систему «Акустика», он был поражен тем фактом, что помимо «Акустического журнала», работы по акустике публикуются более чем в 200 русскоязычных источниках. Разумеется, они плохо индексируются Российскими информационными центрами и остаются неизвестными широкой научной общественности. Зарубежными центрами они не индексируются вовсе.
Таким образом, результаты напряженной работы большой группы квалифицированных специалистов как бы «выпадают» из информационного поля, и в значительной мере работа выполняется впустую.
Автор видел свою задачу в том, чтобы сделать «видимыми» работы российских ученых международной научной общественности и создать базу для анализа тенденций развития акустики и оценки качества выполняемых здесь исследований.
Широту охвата акустических проблем иллюстрируем только одним примером — нелинейной акустики. Нелинейная акустика, как акустика в целом — это междисциплинарная область, сегодня в основном — прикладная. Но некоторые направления в ней могут содержать признаки фундаментальной науки.
Во-первых, это работы специалистов-акустиков, имеющие равную ценность как для нелинейной акустики, так и для двух «фундаментальных» областей — математической физики и теории нелинейных волн. В этих направлениях хорошо присуждаются гранты, открываются исследовательские программы, люди активно цитируют друг друга. Однако, нелинейная акустика здесь не считается лидером, а заметные результаты по традиции относят не к акустике, а к другим разделам физики и математики.
Во-вторых, это изучение акустических явлений специалистами-неакустиками из «фундаментальных» (по определению) разделов физики — космологии, физики ядра и частиц, физики конденсированного состояния. Примеры — формирование структуры Вселенной после Большого взрыва под действием акустических волн; образование ячеистых скоплений звездного вещества; деление ядер в капельной модели; волны, рождающиеся внутри звезд и при столкновениях астрофизических объектов; акустические мета-материалы и микрофлюидика; взаимодействия фононов с квазичастицами другой природы; квантовые макроскопические эффекты. Яркий пример — работа Л.Д. Ландау и Ю.Б. Румера о затухании звука в твердых телах из-за взаимодействия когерентных фононов с тепловым шумом; она вполне может считаться одной из первых работ по нелинейной акустике твердого тела, но физики-теоретики с этим вряд ли согласятся.
Важными примерами прикладных исследований, требующих серьезного фундаментального «задела», можно считать работы в области геофизической нелинейной акустики, включая сильные волны в атмосфере и океане, а так-
же в Земле, где предвестники катастроф и сами события носят выраженный нелинейный характер. Очень важны работы по интенсивному ультразвуку в медицине (диагностика, терапия), биологии и медицинском приборостроении. Широкие перспективы открывает развитие нелинейных методов акустической диагностики изделий в материаловедении, промышленности и строительной индустрии. Сегодня реанимируются усилия по созданию сверхзвуковых пассажирских самолетов, препятствием для эксплуатации которых ранее была не только низкая экономичность, но и экологические последствия «звукового удара». Разумеется, ведутся работы, направленные на специальные приложения эффектов нелинейной акустики, которые проявляются в полях большой интенсивности.
Создавшаяся к началу 2000-х гг. ситуация с информационным обеспечением научных исследований ([198], [190]) характеризовалась по сравнению с концом 1980-х гг. (резким) заметным ростом стоимости печатной научной литературы, в том числе и научных журналов, резким падением тиражей, слабым развитием электронных информационных ресурсов в русскоязычной области и полным отсутствием русскоязычных работ в западных информационных ресурсах (впрочем, с русскоязычными работами в западных базах данных так обстоит дело и сейчас). Отсутствие должного финансирования привело к тому, что ВИНИТИ — национальный информационный центр по научно-технической литературе с его Реферативным журналом, фактически перестал быть таковым. Необходимо было возрождать информационное обеспечение научных исследований в новых условиях и на новой электронной основе, диктуемой компьютеризацией и развитием программных продуктов.
Прогресс информационной науки, методологии и технологии формирования информационных ресурсов в электронном виде, процессы развития аналитико-синтетической переработки информации и сетевой информацион-
ной структуры, появление и эволюция Интернета, в 21 веке кардинально изменили возможности генерации и передачи информации ([83], [50]). В то же время, несмотря на бурное развитие информационных технологий, роль научной литературы практически не изменилась. Она по-прежнему является важнейшим (источником) стимулом научной деятельности, ее фиксатором, распространителем и хранителем, главным средством закрепления научного приоритета. Эта роль научной литературы не изменяется от того, что уходят печатные научные издания, и научная информация трансформируется в электронную форму.
Роль не изменилась, но (развились) сформировались новые пути доступа к научной информации ([189]). В реальном времени появился онлайн-доступ к мировому потоку научных публикаций. На сегодняшний день, пожалуй, любой научный журнал имеет свой сайт или его материалы доступны через ту или иную информационно-поисковую систему. В англоязычной части в области физико-математических наук наиболее известны большинству научных работников Web of Science, Scopus, ADS/NASA, Inspec. Много информации по физике присутствует в STN International, SciFinder и других. В русскоязычной части отметим Научную электронную библиотеку eLIBRARY.RU, Общероссийский математический портал Math-Net.Ru, Автоматизированный банк данных (АБнД) ВИНИТИ, Научную электронную библиотеку «КИБЕРЛЕ-НИНКА», портал издательства Сибирского отделения Российской академии наук (СибРАН) и др.
Вместе с прогрессом в развитии электронных средств обнажились и проблемы поиска нужной информации ([191]). Они появились в силу разных субъективных точек зрения авторов проектов на интерфейс пользователя и удобство работы с выдаваемым при поиске материалом. Одна из причин — недостаточная унификация материала как при хранении, так и в результатах
и
поиска. Это касается и структурирования данных, и представления материала в Сети, и увлечения модным дизайном сайтов в ущерб их информативности, и усложнения поиска, и длительного ожидания его результатов. Созданная к настоящему времени информационная среда имеет неоднородный характер; остаются нерешенными многие задачи простоты дизайна, качества наполнения ресурса и его полноты, комфортности в работе с информационной системой ([116]). Получение релевантной информации требует значительных усилий; к тому же доступ ко многим ресурсам происходит на платной основе. Значительная часть выданной по запросу информации является излишней, а по уточненному запросу — неполной. К этому следует добавить, что крайне важной, но нерешенной задачей остается унификация ведения прямого диалога пользователя с различными по архитектуре информационными ресурсами. Лавинообразное нарастание объема информации и числа отечественных и зарубежных ресурсов ставят новые задачи в методологии отбора, переработки, хранения и предоставления информации пользователям. Все это требует коренного улучшения информационного обслуживания ученых и специалистов технических отраслей знания.
В предлагаемой диссертации рассматриваются вопросы создания тематических проблемно-ориентированных информационных систем обработки разнородных документальных потоков. По мнению автора такие системы должны включать сбор информации из оптимального количества источников, приведение этой информации в стандартный вид, исходя из ориентации на удовлетворение конкретного запроса, «отсеивание» излишней информации и возможность легкого использования данных выдачи для решения конкретных научных и прикладных задач. В информационном обеспечении научных работников должны в связанном виде и на одной платформе при-
сутствовать три информационных продукта: информационно-поисковая система, сигнальная информация и полнотекстовые архивы научных журналов.
Эффективная работа современного исследователя немыслима без постоянного сбора и анализа научной информации. Информация обычно добывается из многочисленных и разрозненных источников. При этом она, как правило, является неупорядоченной и неоднородной по своей ценности. Собирая информацию, мы пытаемся оценить, селектировать и систематизировать поступающий к нам разрозненный материал, и поэтому классифицированная информация отражает меру упорядоченности в нашей деятельности. Начиная работать над новой проблемой, мы вначале довольно легко извлекаем нужную информацию из своей памяти. Затем привлекаем сведения из наиболее доступных источников. Однако рано или поздно приходится анализировать серьезные современные источники — базы данных профильных научных журналов. Вот поэтому-то информационное обеспечение, способствующее получению новой или напрочь забытой информации, является важным условием нашего развития. Такое информационное обеспечение, в общем-то, постоянно совершенствуется, и это и является целью нашей диссертации.
Совершенствуются и показатели как использования научной информации, так и деятельности научных работников. Так, анализируя ссылки на литературу, которыми сопровождается практически каждая научная статья можно вывести индекс цитирования статей какого-либо автора или узнать интерес к какой-либо тематической области. В свою очередь по этим же индексам цитирования получается и показатель Хирша ([19], [36]) конкретного научного работника. Так же по ссылкам в литературе на конкретный журнал выводится его импакт-фактор ([148], [23]). По ссылкам же или по анализу запросов на статьи, ранее — в библиотеках, а теперь в информационно-поисковых системах, можно также получить полупериод жизни статей как
конкретного журнала, так и статей в интересующей тематической области науки — скорость старения информации. По некоторым данным ([207]) полупериод старения информации для физики — 4,6 года, химии 8.1. математики — 10,5 лет. Из этого можно сделать вывод о ретроспективном временном диапазоне, начиная с определенного момента, в котором находятся статьи, дающие основную информацию по определенной тематической области науки. А можно говорить и о недостаточном знакомстве с ретроспективной информацией. Это данные из статьи 2002 года. По нашим исследованиям ([208]), с тех пор это отношение изменилось. Так, для акустики мы получили, что так было до 2000-х гг. когда еще интернет не пришел к каждому научному сотруднику. К 2020 году полупериод старения информации увеличился до 15 лет. В интернете стали доступны многие документы.
В принципе, с первой половины XX века в информационном мире мало что изменилось. Нет, конечно, появились ЭВМ, компьютерные информационные базы данных, произошла цифровизация информационных процессов, возник и бурно развивается Интернет и т. д., но основная методология была заложена тогда. Основные постулируемые принципы просты — всякое научное исследование, научная разработка, планируемый эксперимент должны начинаться с поиска предшествующих работ, авторов, их выполнивших, анализа результатов исследования и их оценки. Чтобы это обеспечить, необходимо дать исследователю инструменты информационного обеспечения научных исследований и предоставить возможность использования этих инструментов. С 1907 г. начал выходить реферативный журнал по химии — Chemical Abstracts, в 1929 г. был сформулирован закон Бредфорда рассеяния научных публикаций, в 1940-х гг. разработаны и изготовлены первые ЭВМ, в большом количестве появились и приобрели большое значение научные библиотеки,
произошло резкое увеличение числа научных работников. Всё это и задало экстенсивный путь развития информационного обеспечения.
Идея недостаточности информационного обеспечения и необходимости изменения порядка снабжения научно-технических работников информацией особенно остро встала в нашей стране в послевоенный период, когда потребовалось быстро восстановить народное хозяйство. Реализовалась она созданием ВИНИТИ АН СССР. В задачи ВИНИТИ с момента его создания входило:
• издание Реферативного журнала по разным отраслям науки и техники;
• составление тематических обзоров;
• подготовка справочной и библиографической литературы;
• выполнение переводов, копирование и отсылка статей (из числа отраженных в реферативном журнале) по заказам читателей;
• и, естественно, научно-исследовательская работа в области научной информации.
Всё это важные позиции, но из них важнейшей задачей Института стал выпуск Реферативного журнала (РЖ, рис. 1).
Его модель, да и технология подготовки удачно копировали журнал «Chemical Abstracts», что вполне объяснимо, так как А.Н. Несмеянов, инициатор создания ВИНИТИ, был химиком. В то же время, в отличие от американского реферативного издания, РЖ ВИНИТИ публиковал рефераты не только по химии, но и по всем направлениям науки и техники, охватывая также экономику, охрану окружающей среды, информатику и т. д. Таким образом, РЖ ВИНИТИ был политематическим журналом с более чем двумястами тематическими выпусками. В то время такого всеобъемлющего аг-регатора информации нигде в мире больше не было. В середине 1950-х годов годовое наполнение выпусков РЖ ВИНИТИ «Химия» было сравнимо с «Chemical Abstracts» ([98]). К сожалению, это была единственная точка их совпадения на протяжении следующих десятилетий.
' /
АКАДЕМИЯ НАУК СССР ИНСТИТУТ НАУЧНОЙ ИНФОРМАЦИИ
РЕФЕРАТИВНЫЙ ЖУРНАЛ
АСТРОНОМИЯ
РЕФЕРАТЫ 1—528
№ 1 1953
ИЗДАТЕЛЬСТВО АКАДЕМИИ НАУК СССР МОСКВА
Рис. 1. Обложка Реферативного журнала ВИНИТИ, 1953 г.
Таким образом, национальная сеть информационно-технического обслуживания была в основном создана, и она успешно работала до 1991 г., что видно по росту наполнения до этого года основного информационного продукта ВИНИТИ — Реферативного журнала ([253]) (см. табл. 2).
Обратим внимание, что, по сути, в 1992 г. и закончилось всё то информационное обеспечение, которое было в СССР. Прекратился выход популярных выпусков «Итоги науки и техники», перестали выходить «Экспресс-информация» и «Сигнальная информация», резко уменьшилось количество депонированных работ, закончил свое существование Центр информационно-
Динамика изменения наполнения по некоторым тематикам науки и техники РЖ ВИНИТИ
Таблица 2
Тематические области науки и техники Количество отраженных публикаций
1953 1960 1970 1980 1990 2000 2010 2017 2018
Автоматика и радиоэлектроника — — 64 015 74360 129985 69 887 59141 38 087 37021
Астрономия 1468 12 850 12 952 19 040 29 777 19 831 24 341 20 240 20 029
Геофизика — — 16 510 24885 24557 12141 13 012 10322 —
Математика 455 14 640 25 611 35 592 42 378 22 401 21552 26 880 28148
Механика 1440 17 065 33 034 34558 38 077 17211 16 615 14865 14490
Физика — 34 450 65 493 83 890 101544 76178 78 769 58 357 52 745
Химия 10 042 134547 230011 254166 206 430 164232 150184 128 546 123 419
I—1
го обеспечения науки и техники, предоставлявший по запросам пользователей копии первоисточников.
Идея же недостаточности информационного обеспечения была подхвачена в США Ю. Гарфилдом, и в 1960 г. была создана коммерческая организация Eugene Garfild Associates Inc., позднее преобразованная в Институт научной информации (Institute for Scientific Information, ISI). С ним связан выпуск базы данных и информационно-поисковой системы Web of Science, на материале которой формируется индекс цитирования Science Citation Index (SCI), а также «Current Contents», в котором представляется содержание только что вышедших (свежих) научных журналов. Всё это сейчас в электронном виде — печатная информационная продукция, похоже, завершила свое существование. Материалы баз данных ISI в настоящее время используются как для получения импакт-факторов научных журналов и рейтинга авторов публикаций, так и для анализа развития различных направлений в науке и технике. Всё это мог сделать и ВИНИТИ, и пытался делать. В начале 1980-х гг. началась работа по созданию БД ВИНИТИ, а еще ранее, в 1970-е годы, была создана и какое-то время работала магнитно-ленточная служба, распространявшая материалы РЖ на магнитных лентах.
С конца 1980-х годов и в мире началось изменение подходов к информационному обеспечению. Это было предопределено появлением мощных компьютеров; созданием недорогих запоминающих устройств огромной емкости; разработкой и производством персональных компьютеров, лазерных принтеров, сканеров с высокой разрешающей способностью, оптических дисков и т. д. Появились настольные издательские системы, были написаны программы распознавания изображений текстов для автоматизации процедуры ввода информации в компьютеры. Быстро развивались цифровые сети передачи данных, среди которых центральное место занял Интернет.
Однако новейшие достижения в области информационной технологии пока мало похожи на интенсивный путь развития в области информационного обслуживания. Они мало затронули интеллектуальные процессы аналитико-синтетической переработки научных документов и других источников научной информации, а скорее, эти процессы деградировали. В обстановке технологической эйфории было упущено, что информационные ресурсы как таковые появляются именно благодаря выполнению интеллектуальной деятельности, что именно она определяет качество информационных ресурсов, от которого в решающей степени зависит эффект их использования. Качественная сторона аналитико-синтетической переработки источников научной информации оказалась отодвинутой на второй план из-за появления широких возможностей машинного манипулирования данными, их быстрого перебора. Возникла и широко распространялась надежда, что с помощью разработки программных продуктов обработки научного текста появится возможность быстро получать выжимки из множества статей — как бы сами собой появятся тематические электронные «реферативные журналы». Исследователю останется только просмотреть их и составить себе представление о степени разработанности той или иной проблемы или эксперимента. Ожиданием этого и можно объяснить парадоксальный факт, что на практике использование новых информационных технологий пока не привело, как ожидалось, к существенному повышению уровня информационного обеспечения ученых и специалистов, а, напротив, породило новые серьезные проблемы. Например, теперь на информационный запрос поисковые системы обычно выдают огромное количество информации, ее источников, из которых многие являются нерелевантными, т. е. соответствующими запросу лишь формально. Это создает ситуацию информационной перегрузки.
Сжато схему информационного обеспечения науки можно изложить в виде следующих пунктов:
• выяснение информационных потребностей ученых;
• создание первичных информационных ресурсов: периодические издания, книги, труды конференций, патентная информация и др.;
• создание вторичных информационных ресурсов: реферативные журналы, экспресс-информация, сигнальная информация, а также диссертации, обзоры вида «Итогов науки и техники» ВИНИТИ и др.;
• хранение информационных ресурсов;
• разработка инструментов для информационного поиска, включая на современном этапе и информационно-поисковые системы в интернете.
И вот возникает современная проблема — становится невозможным обработать, а, следовательно, и использовать всю поступающую информацию. Отсюда и возникло понятие информационного кризиса. Одни группы ученых не в курсе работ других групп. Происходит дублирование исследований, разработок. Следовательно, нам нужна не только информация, мы в ней закапываемся, а информация об информации, что предвидели классики (А. Михайлов, А. Черный, Р. Гиляревский, А. Харкевич, В. Глушков. Е. Гарфилд). В прежние годы, когда информационные технологии были развиты значительно меньше, при создании информационного обеспечения существенно больше внимания уделялось содержательным аспектам и качеству обработки документов и информации, т. е. наполнению его основы — реферативных журналов.
В новой же ситуации (условно новой, т. к. она возникла еще во второй половине прошлого века) считается, что нам надо создавать так называемые библиографические базы данных (ББД) и, на их основе, информационно-поисковые системы (ИПС).
Среди основных характеристик ББД и ИПС:
• список первоисточников;
• полнота отражения первоисточников;
• достоверность информации;
• оперативность отражения результатов исследований в первоисточниках (обычно это статьи в периодических изданиях, трудах конференций — документы);
Похожие диссертационные работы по специальности «Акустика», 01.04.06 шифр ВАК
Автоматизированная система подготовки баз данных и информационных изданий по естественным и техническим наукам: Принципы построения, технология, перспективы1999 год, доктор технических наук в форме науч. докл. Черный, Аркадий Иванович
Информационно-библиографическое обеспечение специалистов в сетевой среде научных коммуникаций2005 год, кандидат педагогических наук Булдакова, Екатерина Владимировна
Программные системы информационного обеспечения научной деятельности: модели, структуры и алгоритмы2010 год, доктор технических наук Барахнин, Владимир Борисович
Разработка комплексной автоматизированной информационной системы для создания, хранения и предоставления информации в области химии и химической технологии2007 год, кандидат технических наук Кульков, Сергей Сергеевич
Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации2009 год, кандидат технических наук Макаров, Сергей Львович
Список литературы диссертационного исследования доктор наук Шамаев Владимир Григорьевич, 2021 год
Указатель источников
УКАЗАТЕЛЬ ИСТОЧНИКОВ Журналы
С1ош1 оГ Ескпсе. 2010. 0, № 3 20.01-01,441 ЯиББМп ]оигпа| □( попНпшг ЛупшкЕ . 30 10 . 15 № 1 20.01-01.30-1
Автоматнаацнк н совреммные тенслсшн. 2иIО 4 20.01-01.131
Автоматнаацнк н совреммные тенслсшн. 2010, ГО 10
20,01-01,104 Акустический журнал. 2020. ОЦ, № I 20,01-01,1.
20.01-01.63. 20.01-01.70. 20.01-01.90. 20.01-01.112. 20.01-01.113. 20.01-01.143. 20.01-01.3 71. 20.01-01.3 72. 20.01-01.373. 20.01-01.414 Астрой, ж. 2010. 00, Н1 и 20.01-01.3. 20.0 1-0 1.8 2а.
20.01-01.030. 20.01-01.631. 20.01-01.632. 20.01-01.633. 20.01-01.634. 20,01-01,635 Астрономический вестник. 20 13. 53, № 0 20.01-01.90 2. 20,01-01,603. 20,01-01,604. 20,01-01,605. 20,01-01,606. 20,01-01,607. 20,01-01,608. 20,01-01,600 Вестинк Московского антомоЕнльно-дорожного
государственного технического ун-та (МАДИ. 201В, № I 20.01-01.63, 20,01-01,124 13, | - ::;: г. Мщ г.":^ии 1[.:ь][,■ - 10ил:эи
государственного технического ун-та (МАДИ. 2019, № 1 20.01-01.117
Вестннк Самарского ун-та. Аэро космическая техника, технологии н машиностроение. 20 10. ^ № 20,01-01,353 Геофизика. 20 10. № 1 20.01-01.405. 20.01-01.424 Геофнанческие исследовании. 2010. 20, № 3 20,01-01,208
1*2 ....... ::н:.-. ....... .V 20,0 1-01.3 7. 20,01-0 1,47.
20,01-01,48. 20,01-01,133. 20,01-01,164. 20,01-01,280. 20,01-01,281. 20,01-01,282. 20,01-01,283. 20,01-01,307. 20,01-01,308. 20,01-01,13« Дефектоскопия. 20 10. № 10 20 .01-0 1.0-1. 20,0 1-0 1.4 27 Дефектоскопия. 20 10, № II 20.01-01.127.20.01-01.428 Деформация н разрушение материалов. 2010, № I I 20.01-01.120
Доклады академии паук. 1007. 3Е4. № 4 20.01-01.20
Пзнхтии РАН. Физика атносфниы и океана. ЗОЮ. 55. № 5 20.01-01.233. 20.01-01.316. 20.01-01.317. 20.01-01.3 21. 20,01-01,060
Иззестня РАН. Физика атмосферы и океана. 2010. 55., № б
20,01-01.130. 20.01-01.234. 20.01-01.3 22 Инженер но-физический журнал. 20 10. 02.. .V 5 20.01-01.120 Инженерно-физический журнал. 20 10. 02.. V 0 20.01-01.00 20,01-01,72
Кондпн< ::;,,,:;.,нны,- , ;и : ы н можфа:шыо границы. 2010. 21. .V 20.01-01.91
№ 7 20.01-01.97 № Я 20.01-01.430 № 0 20.01-01.431.
. 20 10. . 20 10. . 20 10.
Контроль. Диагностика. Контроль. Диагностика. Контроль. Диагностика.
20.01-01.432 Контроль. Диагностика. 2010, № 10 20,01-01,3 3 2.
20.01-01.433. 20.01-01.434. 20.01-01.433 Космонавтика и ракетостроение. 20 10. № 3 20.01-01.318.
20.01-0 1. 398 . 20.01-01.399 Космонавтика н ракетостроение. 20 10. № 4 20.01-01.000
Кратк. с.....5щ. по физ. ПИАН. 2010. 47, П> I 20.01-01,436
Кристаллограф не. 2020. № I 20,01-01,73 Мат. ноделнр. 2010. Ц, ,Ч> 10 20.01-01.17.20.01-01.34. 20.01-01.33. 20.01-01.40 . 20.01-01.41. 20.01-01.05. 20.01-01.113. 20.01-01.320. 20.01-01.332. 20.01-01.348. 20.01-01.363
Мат. ноделнр. 2010. 31 № II 20,01-01,18.20,01-01,84. 20.01-01.39 . 20.01-01.304. 20.01-01.363. 20.01-01.393. 20 01 01 451, 20.01-01.452. 20.01-01.4 53. 20.01-01.028
Математическая фнзнха н компьютерное моделирование.
2010. 22. № 3 20.01-01.400 Математическая фнзнха н компьютерное моделирование.
2010. 22. К> 4 20,01-01,107 Математическое моделирование з естественных наука:;. 20 10. Н- I 20.01-01.31.20.01-01.90 . 20.01-01.123. 20.01-01.337
Машиностроение н компьютерные технологии. 201 к, № 2 20.01-01.334
Рис. 6.19. Фрагмент сформированного Указателя источников.
• автоматизированное рабочее место Ввода б/о и АРМ Редактора;
• система формально-логического контроля на всех участках обработки;
• средства администрирования ТБД;
• средства сбора статистической и бухгалтерской информации;
• средства подготовки конечных информационных продуктов.
— оригинал-макетов выпусков РЖ;
— данных к загрузке в Автоматизированный банк данных ВИНИТИ (АБнД);
— электронных выпусков РЖ.
Помимо этого обеспечено взаимодействие с другими информационными системами ВИНИТИ:
• использование БД монографической информации ВИНИТИ;
• использование БД рубрикатора ВИНИТИ;
• передача данных в АС «Гонорар»;
• передача данных в Банк данных ВИНИТИ.
Таким образом, с вводом ТБД решены, или появилась возможность решить следующие задачи:
• использование входного потока научно-технической литературы не только на бумажных, но и на электронных носителях (оптические диски, Интернет, электронные архивы и др.);
• полная и однократная библиографическая переработка входного потока документов;
• многоаспектная переработка документа на содержательном уровне (редактирование, индексирование, рубрицирование);
• использование описания документа в различных информационных продуктах посредством индексирования на основе предметных и системных классификаторов;
• унификация по форме, наполнению и процедурам формирования основных информационных продуктов ВИНИТИ (РЖ, БД) и централизация системы выпуска основных информационных продуктов;
• обеспечение самостоятельности отраслевых отделов научной информации в технологии формирования (на основе ТБД) дополнительных информационных продуктов ВИНИТИ;
• контроль формирования структурированных записей описания документов на всех этапах переработки (в соответствии с НТП);
• организационно-технологический контроль прохождения документов на всех этапах переработки;
• централизованное управление всем технологическим циклом обработки потоков НТЛ на разных уровнях;
• "ууеЬ-технология обработки НТЛ на основе \veb-доступа референтов и редакторов к процессу аналитико-синтетической переработки документов;
• оперативное обеспечение доступа внутренних (участвующих в процессе обработки НТЛ) и внешних (пользующихся произведенными информационными продуктами) пользователей к электронным продуктам и хранилищам данных — каталогу поступлений НТЛ на аналитическом уровне, выпускам Электронного РЖ, электронному архиву копий первоисточников (Электронной библиотеке) и др.
Специфика русскоязычной базы данных и Электронной цифровой библиотеки русскоязычных источников, а также ретроспективной базы данных отражены в книге В.Г. Шамаева 2007 года, и здесь мы отсылаем интересующихся читателей к ней ([241]). Объем данной книги ограничен, а новый материал, который описан в последующих главах, довольно обширен.
В ВИНИТИ в 2003-2009 гг. нами была сформулирована и реализована задача отдельной русскоязычной базы данных со своими собственными задачами, а также возможностью использования ее наполнения в технологии подготовки РЖ. Идея заключалась в предоставлении пользователям доступа к малотиражным (а такими стали все русскоязычные издания) и вследствие этого малодоступным как российским, так и изданиям стран бывшего СССР. Русский язык был для многих из них родным языком. Второй частью этой работы было создание электронной библиотеки полнотекстовых изображений по этим же источникам. Задачей этой библиотеки являлось предоставление копий статей заказчикам, что является традиционной услугой, которую предоставляет ВИНИТИ, а также снабжение референтов и редакторов электронным изображением статьи по внутренней сети ВИНИТИ.
Полностью направление исследований в ВИНИТИ, названное Русскоязычной базой данных, состояло из решения нескольких связанных друг с другом задач:
• введение библиографической и аналитической информации в базу данных;
• формирование БД по русскоязычным источникам, включающей библиографическое описание, резюме или аннотацию с грубой рубрикацией по отраслям знаний;
• создание Центра оперативного хранения цифровых изображений (ЦОХ-
ЦИ);
• сканирование и передача полнотекстовых изображений в ЦОХЦИ;
• создание Электронной библиотеки русскоязычной литературы и "ууеЬ-интерфейса пользователя, позволяющего проводить поиск издания или его составляющих;
• создание узла связи ЦОХЦИ с автоматизированным рабочим местом редактора;
• формирование информационных продуктов: оригинал-макет ?Сигналь-ная информация?, электронный журнал сигнальной информации, информационные извещения для отделов научной информации.
Технология подготовки Русскоязычной базы данных и Электронной библиотеки русскоязычной литературы позволила подготовить новый вид электронного информационного продукта — выпуск всех серий «Итогов науки и техники» ВИНИТИ на БУБ-носптелях ([242]). В настоящее время на БУБ-дисках выпущены ИНТ по физико-математическим наукам и разработана технология сжатия информации с тем, чтобы можно было использовать и СБ-носители ([130]).
Еще одной задачей для нас в этот период было создание отдельной ретроспективной базы данных по материалам бумажных выпусков РЖ. В настоящее время только в небольшом количестве крупнейших научных библиотек России хранятся ретромассивы бумажного РЖ. Спрос читателей на этот вид литературы значителен и часто превосходит спрос на другие специальные издания. Ориентировались мы на физико-математические выпуски РЖ. Ведь, как уже указывалось ранее, РЖ прежних лет по физико-математическим наукам востребованы и сегодня. Большинство специалистов, особенно в начале работы над новой тематикой, обращаются, прежде всего, к вторичной информации, которая кратко по содержанию и достаточно полно по числу публикаций представлена в РЖ. В то же время, полный комплект РЖ едва ли доступен.
Следует принять во внимание, что в РЖ ВИНИТИ доцифровой эпохи наиболее полно представлены работы советских ученых, составляющих «золотой фонд» мировой науки. Достаточно вспомнить о крупных научных школах в области физики, астрономии, математики, механики, геофизики и т. д. Большинство работ ученых СССР 1950-1980 гг. было опубликовано на русском языке и поэтому слабо представлено в зарубежных базах данных. Так что оцифровка наших печатных изданий до 1990-х гг. тогда, да и сегодня — одна из актуальнейших задач. Необходимость оцифровки ретромассивов РЖ ВИНИТИ также вызвана проблемами поддержки и сопровождения научных исследований, включающих:
• поиск информации для определения новизны планируемой работы на стадии подачи заявок;
• выявление публикаций полезных научным или практическим интересам исследователя (сообщения о работах в смежных дисциплинах или
узко-тематических направлениях, содержащих необходимые фактографические данные, опыты или наблюдения и др.);
• в качестве основы для развития работ нового направления могут помочь не оцененные ранее публикации;
• большое количество так называемой «серой» литературы (сборников трудов научных учреждений, учебных заведений, трудов конференций, препринтов и т. д.);
• проведение наукометрического анализа, позволяющего получать данные по состоянию и перспективам развития какой-либо дисциплины.
Перевод всего накопленного информационного массива печатных изданий ВИНИТИ по физико-математическим наукам в электронную форму, в первую очередь из-за стоимости проекта, не представляется бесспорным. Это, если говорить о далеких от собственных интересов научных дисциплинах. Однако как только дело касается именно твоей области, то необходимость такого проекта кажется очевидной. Уж очень заманчиво иметь под рукой в электронной форме всю доступную ретроспективу реферативных журналов.
Первые базы данных ВИНИТИ, как уже указывалось выше, появились в 1981 г. В то же время Реферативный журнал ВИНИТИ издается с 1953 г. Вот этот массив информации в бумажном виде, собранный для одних дисциплин за 30 лет, а для других и за 40, планировалось перевести в электронный вид.
Задача перевода в электронную форму бумажных РЖ доцифровой эпохи по физико-математическим наукам, т. е. подготовка Ретроспективной реферативной БД (РеБД), в технологическом плане не представляет непреодолимых трудностей, но очень трудоемка.
Один из способов решения заключается во вводе всей информации в «сегодняшнюю» БД в ТеХ'овском наборе, как делает Производственно-издательский комбинат ВИНИТИ (ПИК), начиная с 1996 г. ([174]). Однако,
анализ показал, что извлечь из печатной версии РЖ всю информацию, необходимую для наполнения текущей БД, невозможно. К тому же, за десятки лет подаваемая в печатном издании информация хоть и не сильно, но менялась. Поэтому было принято решение о создании отдельной ретроспективной базы данных, которая и заполнит пробел в АБнД ВИНИТИ, начиная с 1953 г.
Отметим, что на наш взгляд реализация технологии наполнения БД по математике, выполненная в ПИК ВИНИТИ, недооценена как в ВИНИТИ, так и во всем математическом сообществе.
Выполнена огромная работа и отсутствует только последний штрих, не зависящий от ПИК, — визуализация на экране. Собственно об этом и говорится в первом пункте выше. Правда, существует мнение, что настоящие математики легко читают теховские символы как обычные формулы, но ведь базы существуют не только для «настоящих» математиков.
Полностью направление исследований в ВИНИТИ, названное Ретроспективной реферативной базой данных, состояло из решения нескольких связанных друг с другом задач:
• анализ наполнения РЖ с 1953 г. и выбор полей, которые послужат наполнением БД.
• создание структуры базы данных.
• разработка технологии наполнения базы данных (состав полей, кодировка спецсимволов, АРМ оператора набора, АРМ администратора и т. д.).
• разработка технологии сканирования РЖ с последующей постатейной сборкой отдельных изображений страниц в отдельные рсН-файлы.
• разработка технологии съема электронного издания, включающая вид издания на экране компьютера (интерфейс пользователя), средства поиска и т. д. (для локальной БД).
• разработка технологии «склейки» созданного электронного документа с рсН-файлом, содержащим страницы РЖ, на которых расположен реферат.
Применение технологии сплошного сканирования печатных источников с использованием средств распознавания текстовых изображений и последующим структурированием распознанного материала также требует огромных трудозатрат. Они связаны не только с качеством исходного материала и необходимостью его распределения по многочисленным полям БД, но и со спецификой физико-математического текста (особенно математического) суть которого находится зачастую не в словах, а в формулах, спецсимволах и т. п.
На наш взгляд ([243], [244]), перспективнее ставить задачу решения проблемы электронного вида и связанную с ней задачу поиска в этом электронном массиве информации, используя комбинированный путь. Он заключается в создании специализированной БД с необходимым набором полей для ввода библиографической информации и индексов (рубрикаторы, ключевые слова и пр.) и полного сканирования страниц РЖ. В результате может быть реализован поиск по всем имеющимся полям и предоставление при необходимости реферативной информации в виде изображения страницы, на которой имеется текст запрашиваемого реферата. Затем для унификации средств поиска и хранения эта БД передается на хранение в АБнД ВИНИТИ, откуда и осуществляется обслуживание.
Приведем структуру разработанной нами концептуальной модели Интегральной информационной системы (рис. 6.20).
На схеме виден весь комплекс, интегрированный в технологический процесс ВИНИТИ.
Специфика Русскоязычной базы данных и Электронной цифровой библиотеки русскоязычных источников, а также Ретроспективной базы данных
Рис. 6.20. Основные элементы концептуальной модели ИИС
и Центра оперативного хранения цифровых изображений вместе со «Входом», АБнД и ЦИОНТом ВИНИТИ, а также местом в технологической схеме Производственно-издательского комбината ВИНИТИ довольно полно отражены в моей книге 2007 года. ЦИОНТ здесь отнесен нами к ВИНИТИ, но до 2010 г. это обслуживание производилось ПИК ВИНИТИ. Именно там автор и пользовался им в 1990-х гг.
ГЛАВА 7
ТЕХНОЛОГИЧЕСКАЯ БАЗА ДАННЫХ ПРОЕКТА «"АКУСТИКА". РУССКОЯЗЫЧНЫЕ ИСТОЧНИКИ»
Введение
В основе уже нового программно-технологического комплекса, также как в ПТК ИИС, описанном в главе 6, лежит технологическая база данных СИБД (Сигнальная Информация — База Данных), реализованная в системе управления реляционными базами данных Microsoft SQL Server 2008 R2. ПТК СИБД предназначен для ввода, редактирования и хранения библиографического описания, реферата, ключевых слов, ... документов, а также для подготовки информационных продуктов: оригинал-макетов печатных изданий, создания новых номеров «Сигнальной информации» и наполнения информационно-поисковой системы. Для нашей работы выбраны такие виды документов, как отдельный выпуск журнала, статья в сериальном издании, книга (сюда же входят труды конференций, семинаров, симпозиумов и т. п.), статья в книге, сборнике (сюда входят труды конференций, разобранные по докладам, тезисы докладов и т. п.), патентные документы, авторефераты диссертаций. Полностью описания видов документов приведены в главе 6 и книге ([216]). В зависимости от вида документа наборщику подставляется соответствующая форма для набора. В отличие от ПТК ИИС число полей в форме уменьшено до двух десятков — по принципу наибольшего употребления. Самое большое количество полей имеет вид документа «Статья в сериальном издании».
7.1. Технология сбора и обработки информации, ее хранения (таблицы и поля базы данных)
Подбор источников информации — наиболее трудоемкая и постоянно пополняемая часть. Притом, она скрыта как подводная часть айсберга.
Почему возник проект. Главное — сказалось накопившееся раздражение выпусками РЖ «Акустика» по 100 документов в месяц (рис. 7.1). Хотелось понять, какой на самом деле объем такой информации. Ясно, что охватить зарубежную часть мы бы не смогли, но русскоязычную — можно попытаться, и это, конечно, не 4-5 журналов, а сколько — это интересно. На первых порах получили 28. Так, проводя подготовку выпуска РЖ «Акустика», мы были уверены, что в ВИНИТИ попадают все журналы, и взяли на себя смелость опубликовать в «Акустическом журнале соответствующую статью ([225]). В ней, наряду с англоязычными, приводятся названия 28 русскоязычных журналов, которые были отражены в 2011 году в выпуске РЖ «Акустика». Как же мы были наивны. Сейчас в нашем списке несколько сотен журналов. На сегодняшний день — более 800. Возвращаясь к РЖ «Акустика», наряду с малыми тиражами его выпусков (несколько экземпляров), отметим, что он уже перестал удовлетворять пользователей своим наполнением и скоростью отражения публикаций ([225], [216]). Вместе с тем, проведенный в 2011 г. в Отделении научной информации по проблемам физики и астрономии ВИНИТИ эксперимент (при содействии Акустического института им. академика Н.Н. Андреева и кафедры акустики физического факультета МГУ) по изменению каналов наполнения выпуска РЖ «Акустика» показал, что использование источников информации из Интернета позволило на порядок увеличить наполнение выпуска РЖ «Акустика» 2011 г. по сравнению с 2010 г. Что же помогло этому? Наличие профессионального научного редактора и нескольких студентов старших курсов с заинтересованной кафедры МГУ. Это все.
Не такие уж большие затраты для того, чтобы обеспечить минимально необходимое информационное обеспечение. По рисунку легко видеть, что после окончания эксперимента все спустилось на круги своя. На наш взгляд, необходимы серьезные усилия, чтобы повысить эффективность РЖ «Акустика», используя современные возможности.
Сформулируем наши цели создания информационного ресурса по акусти-
• попытка удовлетворить потребность в русскоязычной акустической информации и попытка показать как много изданий, в которых публикуется такая информация. Ставилась также задача сделать информацию легко доступной и параллельно решить вопросы со сроками предоставления текущей информации. Сроки в 8 и более месяцев от момента поступления изданий на вход ВИНИТИ и до публикации ее в РЖ весьма удручали;
• преследовалась также цель побудить к сохранению национального фонда печатных изданий путем его оцифровки и перевода в Интернет;
• имеющаяся возможность сделать это в виде задела в технологии, программных продуктах, сохранения специалистов в лице программистов, научных работников по специальности «акустика», занятых в проекте и информационных работников;
• предполагалось сначала сделать архив «Акустического журнала» (с него и начался проект), затем, предоставлять информацию по текущим журналам, что в дальнейшем привело к созданию «Сигнальной информации» по акустике, оцифровать ретроспективные выпуски РЖ «Акустика», что помогло бы сохранению и поиску информации, по крайней мере, с 1952 г., перевести русскоязычную информацию на английский язык, что способствовало бы информационному прорыву на западный рынок.
В процессе реализации проекта появилась желание, возможность и ресурсы для создания информационно-поисковой системы по акустике, которая, затем, начала перерастать в ИПС по физике и астрономии.
Классификация наших ресурсов:
• по доступности — открытые;
• по физическому расположению — общедоступные;
• по цели создания — некоммерческие;
• по функциональности — динамический;
• по предоставляемым возможностям — контент-сайты;
• по предоставляемой информации — интернет-портал, информационные сайты, веб-сервис.
Как правило, мы сталкиваемся с поиском не только нужной информации, но информации, которая нужна именно сейчас и именно сейчас возникла возможность удовлетворить эти потребности. Реализации такого желания и посвящена наша работа, которая описана в диссертации.
Таблицы и поля БД представлены в Приложении.
7.2. Упаковка библиографического описания в строки данных
Библиографическое описание документа (БО) состоит из элементов, состав и количество которых различны для разных видов документов. Элементы БО описаны в таблице STD_Lab. Наборы элементов БО, соответствующие каждому виду документа, заданы в таблице STD_Doc. Каждый элемент БО принадлежит одному из трех уровней БО: монографическому (хранится в таблице SIBD_M), аналитическому (SIBD_A) или реферативному (SIBD_X). Поле Target таблицы STD_Doc определяет уровень БО для каждого элемента БО в соответствии с полем KindDoc (видом документа).
В СИБД реализован принцип упаковки БО в строки данных. Это означает, что элементы БО (за некоторым исключением) не помещаются каждый в отдельный столбец базы данных, а предварительно группируются в строки-контейнеры, и уже в сгруппированном виде записываются в основные таблицы СИБД (столбцы Str_M, Str_A, Str_X таблиц SIBD_M, SIВD А. SIBD_X соответственно). Упаковка происходит в формате XML — содержание каждого элемента обрамляется кодами начала и конца этого элемента.
При считывании документа из СИБД происходит обратная операция — элементы БО извлекаются из строк-контейнеров и передаются по назначению.
Пример такой упаковки приведен ниже. Str_M
<_007>2017</_007><_074>63</_074><_076>~N 3</_076><_321>Акус тический журнал</_321><_042>Ш</_042><_003>Акустический жур нал</_003> Str_A
<_035>1</_035><_050>Л99011703</_050><_001>Михайлов С. Г. \°/„Руд енко 0.В.</_001><_043>246-250</_043><_021>Простая модель не
линейного элемента</_021><_004>Рус.</_004> Str_X
<_005>17.03-01.246</_005x_039>J99011703003</_039x_251>04<
/_251> <_502>01</_502> <_100>Экспериментально исследовано п оведение нелинейного элемента, представляющего собой легкую пластинку, прижатую к отверстию в полости акустического ре зонатора. Измерения осцилляций поля в полости и вне ее пока зали, что при больших амплитудах они становятся существенно негармоническими. Временные зависимости смещения пластинки при росте амплитуды возбуждающего напряжения демонстрируют постепенное изменение формы колебаний от гармонической к о днополупериодной. В полости появляется постоянная составляю щая~— разрежение либо истечение среды через отверстие. По строена теория нелинейных колебаний пластинки с учетом ее р азличной упругой реакции на сжатие и разрежение с учетом мо нопольного излучения пластиной малых волновых размеров или излучения ею плоской волны. Рассчитаны амплитуды гармоник. Решена нелинейная задача о воздействии на пластину низкочас тотного стационарного шума. Получены выражения для корреляц ионной функции и средней мощности на выходе при задании на входе нормального случайного процесса. D0I: 10.7868/S032079 1917030108</_100><_036>05.01V/.05.06V/.10 .06</_036><_006>05 .01\°/„ 05.06V/.10.06</_006><_802>http : //www. akzh. ru/pdf/2017_3_246-2 50 .pdf </_802x_636>05 .01</_636>
7.3. Программно-технологические средства создания информационных ресурсов (сайты и их структура, а также программные средства для их наполнения)
Контекстные диаграммы, характеризующие операции на входе программно-технологического комплекса, при заполнении ТБД, при получении выходных продуктов отражены на рис. 6.7, 6.10-6.14 главы бив модифицированном виде использованы при наполнении СИБД.
На рис. 6.10 представлены операции при обработке входного потока.
В блоке А011 происходит распределение по видам изданий, которые имеют различную структуру описания. Они делятся на документы монографического уровня и документы аналитического уровня. К первым относятся отдельный выпуск журнала, книга, проспект, депонированная научная работа (монография, сборник), патентный документ, нормативные документы, диссертационные работы, картографические издания, т. е. те издания, которые описываются целиком. Ко вторым относятся статьи в сериальном издании, статьи в сборнике депонированных научных работ и статьи в книге или сборнике, а именно те издания, которые описываются постатейно. Их классификация вместе с присвоенными кодами приведена в таблице 6.2, а представление их описаний в БД — в таблицах П.1 и П.2 Приложения.
В блоке АО 12 происходит распределение по видам документов (составных частей изданий), их классификация также приведена на рисунке и в табл. 6.1 вместе с кодами видов документов. В блоке АО 13 происходит распределение документов по отраслям знаний (список которых также есть на рис. 6.2, 6.1.
Автоматизированное рабочее место ввода информации. Автоматизированное рабочее место (АРМ) ввода информации (рис. 7.2) предназначено для структурированного ввода и редактирования библиографической
Рис. 7.2. АРМ ввода информации.
информации в СИБД. Предусмотрена также возможность просмотра статистики по набору документов операторами за рабочий день. Норматив был определен в один у четно-издательский лист в смену. Профессиональные наборщики обычно перевыполняли этот норматив, но ненамного, опасаясь его увеличения. Однако мы этого делать не собирались, т. к. боялись ущерба качеству.
Работа с библиографической информацией ведется подокументно. В зависимости от выбранного вида документа форма ввода содержит соответствующий набор полей. Библиографическое описание для каждого документа заносится оператором в соответствующие поля формы ввода, и при нажатии
кнопки «Сохранить» или соответствующей «горячей» комбинации клавиш документ сначала проходит проверку на корректность введенных данных (формальный логический контроль — ФЛК), и затем заносится в СИБД.
В программе предусмотрена возможность пакетного ввода электронных документов. Она предназначена для ускоренной загрузки информации, например, о статьях одного выпуска журнала или прошедшей конференции. При этом монографическая информация (о выпуске журнала или сведения о конференции) заносится оператором на форму один раз, а аналитическая вместе с рефератом (по каждой статье) подгружается последовательно из подготовленного заранее текстового файла. Текстовый файл содержит название статьи, авторов, диапазон страниц, рубрики, которых может быть несколько (документ может затрагивать «интересы» нескольких рубрик) и реферат. Оператор ввода контролирует корректность подгружаемой информации — ее распределение по полям, заполнение обязательных полей и т. п., — и нажимает кнопку «Сохранить», после чего на форму подгружается следующая порция информации, описывающая следующую статью, и процесс повторяется. Нередко случается, что информация из электронных документов имеет буквы латинского алфавита вместо похожих букв кириллицы. Особенно часто это встречается в фамилиях авторов. В таком случае происходит перекодировка после запроса к оператору и его положительного решения. Идентификаторы ГО для каждой статьи генерируются автоматически по заданному идентификатору выпуска журнала и порядковому номеру статьи в «пакете». Пакетный ввод документов позволяет существенно снизить трудоемкость и повысить скорость и качество ввода больших объемов библиографической информации.
Редактирование библиографической информации, содержащейся в СИБД, необходимо для ее дополнения или исправления обнаруженных
ошибок. Выбрать документы для редактирования можно несколькими способами:
• по рабочему номеру или диапазону рабочих номеров — т. е. по идентификаторам ID документов, требующих редактирования;
• по издательскому номеру (или диапазону издательских номеров) — если, например, нужно внести правки в документы конкретного выпуска Сигнальной информации;
• по дате ввода и текущему оператору — если, например, необходимо внести корректуру в документы, набранные оператором в определенный рабочий день;
• по списку из файла — идентификаторы документов считываются из указанного текстового файла.
Если выбрано более одного документа, программа формирует список документов, предназначенных к редактированию. Оператор может произвольным образом перемещаться по этому списку, выбирая тот или иной документ, либо обрабатывать его последовательно. При сохранении каждого документа программа загружает на форму следующий — и так до окончания всего списка.
Автоматизированное рабочее место редактора. Автоматизированное рабочее место (АРМ) редактора — программа, предназначенная для подготовки выпуска Сигнальной информации (рис. 7.3). Пользователь АРМ редактора должен быть внесен в таблицу Users СИБД со значением поля FuncKey «VRED» («Выпускающий редактор выпуска»). Поле Issues таблицы Users содержит коды выпусков, с которыми данный редактор имеет право работать. Значение «01» данного поля означает выпуск «Акустика».
Работая в данном АРМ, редактор производит следующие операции:
• назначает номер очередного выпуска Сигнальной информации;
Рис. 7.3. АРМ редактора.
• просмотр списка документов СИБД, не включенных в предыдущие выпуски СИ;
• отбор документов из этого списка для помещения в очередной выпуск и их автоматическая проверка (ФЛК), при обнаружении ошибок документ передается в окно редактирования, где редактор должен внести в него необходимые исправления;
• формирование выпуска;
• формирование чернового макета СИ;
• формирование чистового макета СИ.
Черновой макет просматривается редактором на предмет выявления ошибок в документах выпуска, в том числе: в написании спецсимволов, фамилиях авторов и написании впервые появившихся источников. После одного
или нескольких циклов внесения корректуры и создания чернового макета формируется чистовой макет выпуска. По прохождении этой стадии доступ редактора к документам данного выпуска закрывается, и при формировании следующего выпуска СИ они не поступают на рассмотрение.
Автоматизированное рабочее место администратора. Автоматизированное рабочее место (АРМ) администратора СИБД — многофункциональная программа, предназначенная для проведения сервисных операций, снятия статистики, администрирования пользователей АРМа и т. д. (рис. 7.4). Это рабочее место позволяет администратору выполнять наиболее часто востребованные операции без необходимости составления SQL-запросов и работы непосредственно в среде Microsoft SQL Server. Набор функций данного АРМ, доступный для каждого конкретного администратора, зависит от его уровня доступа, указанного в таблице Users СИБД. Такой подход позволяет минимизировать возможность порчи БД вследствие неверных действий пользователей. Как мы обнаружили на раннем этапе тестирования программы, редакторы пытаются вручную сделать нужные им правки, пытаясь удалить документ, но забывая, что он лежит не в одной таблице, а в нескольких, или удаляя конкретный документ вместе со всем журналом и т. д.
Для наполнения и редактирования содержания БД используются следующие функции АРМ администратора:
• пакетная подгрузка дополнительной библиографической информации к уже имеющимся в СИБД документам — например, перевода заглавия статьи на английский язык и транслитерирования фамилий авторов на латиницу;
• удаление документов из БД — по дате ввода, рабочему номеру или издательскому номеру, в том числе и после окончания формирования выпусков;
Рис. 7.4. АРМ администратора.
• «глобальные» операции по изменению или проверке конкретных элементов БО во всех документах базы данных (вкладка «Разное»),
• просмотр содержания любого документа СИБД по его рабочему или издательскому номеру.
Администратор СИБД в своем АРМ производит передачу данных из технологической базы данных СИБД в базу данных ИПС «Акустика», описанную в следующей главе. Структура этих баз данных различна вследствие их разного предназначения, поэтому передаче подлежит только та часть информации, которая необходима для функционирования информационно-поисковой системы.
Штатным алгоритмом обновления базы данных ИПС «Акустика» в данный момент является следующий:
1. Копирование библиографической информации из СИБД в БД локальной версии ИПС «Акустика» (размещенной на компьютере администра-
тора). Осуществляется в АРМ администратора. Администратор может выбрать, из каких таблиц необходимо скопировать информацию. Если, например, рубрикатор или список спецсимволов за последнее время не претерпели изменений, то обновлять их в БД ИПС не имеет смысла.
2. Проверка корректного функционирования локальной ИПС.
3. Перенос БД локальной ИПС «Акустика» на сайт akdata.ru через механизм бэкапа и восстановления БД. Осуществляется в АРМ администратора.
В АРМ администратора имеется возможность прямого переноса библиографической информации из СИБД в БД ИПС «Акустика», размещенную на сайте http://akdata.ru, но практически она не используется, т. к. в этом случае контроль корректности работы обновленной БД необходимо проводить уже на рабочей версии ИПС, доступной конечным пользователям.
Программа генерации страниц сайта Сигнальной информации. Pub2Site — программа, предназначенная для генерации страниц сайта http://akinfo.ru «Сигнальная информация по акустике» (рис. 7.5). Полезной функцией программы является возможность проверить все гиперссылки, имеющиеся на страницах сайта СИ.
По указанному администратором номеру выпуска программа производит поиск в СИБД документов данного выпуска (по издательскому номеру, который содержит в себе номер выпуска и порядковый номер документа в выпуске) и сортирует их по издательским номерам. Затем Программа производит перебор всех документов выпуска и составляет полный список рубрик, содержащих документы данного выпуска. На основе этого списка формируется HTML-страница списка рубрик, имеющая название вида «YYYY_VVr.htm». При переборе всех документов выпуска формируется список начальных букв
Рис. 7.5. Pub2Site окно программы генерации страниц сайта.
фамилий авторов. Он помещается в HTML-страницу. При переборе всех документов выпуска формируется также список источников. Одновременно происходит распределение документов по HTML-страницам, соответствующим каждому источнику.
Администратору необходимо указать номер выпуска Сигнальной информации (СИ), отметить дополнительные опции («Поместить на главную страницу сайта» и др.) и нажать кнопку «Выгрузить в HTML». В результате на локальном диске создается папка со страницами данного выпуска СИ библиографической информацией, рубрикатором, авторским указателем и указателем источников. При выборе соответствующей опции создается и обновленная главная страница сайта.
Получив новые Мт1-страпицы, администратор добавляет их на сайт одним из стандартных способов — через РТР-клиент и т. п.
Третья функция РиЬ28йе — снятие статистики по библиографической информации, содержащейся в СИБД.
Алгоритм генерации страниц сайта http://akinfo.ru. По указанному администратором номеру выпуска программа производит поиск в СИБД документов данного выпуска (по издательскому номеру, который содержит в себе номер выпуска и порядковый номер документа в выпуске) и сортирует их по издательским номерам.
НТМЬ-страницы выпуска помещаются в папку с названием вида 'ЛУУУ УУ>. где УУУУ — год выпуска СИ, У У — номер выпуска сигнальной информации.
Выгрузка документов по рубрикам. Программа производит перебор всех документов выпуска и составляет полный список рубрик, содержащих документы данного выпуска. На основе этого списка формируется НТМЬ-страница списка рубрик, имеющая название вида «YYYY_VVr.htm».
Во время этого перебора документы, относящиеся к каждой рубрике (и подрубрике), помещаются в отдельную НТМЬ-страницу с названием вида «YYYY_VVrRR.htm» или «YYYY_VVrRRRR.htm», где RR и RRRR - номера рубрики и подрубрики соответственно. При этом происходит проверка правильности написания фамилий и инициалов авторов. Оформление каждого документа и элементов библиографического описания задается в едином стилевом файле сайта.
Выгрузка документов по авторам. При переборе всех документов выпуска формируется список начальных букв фамилий авторов. Он помещается в НТМЬ-страницу с названием вида «YYYY_VVa.htm».
Одновременно происходит распределение документов по НТМЬ-страницам, соответствующим каждой начальной букве. Эти страницы имеют названия вида «YYYY_VVa_ruLL.htm» для начальных букв из русского алфавита или «YYYY_VVa_enLL.htm» — для английского. ЬЬ здесь обозначает порядковый номер соответствующей буквы в алфавите.
Выгрузка документов по источникам (сортировка по рабочим номерам). При переборе всех документов выпуска формируется список источников. Он помещается в НТМЬ-страницу с названием вида «YYYY_VVs.htm».
Одновременно происходит распределение документов по НТМЬ-страницам, соответствующим каждому источнику. Эти страницы имеют названия вида «YYYY_VVs_SSS.htm». ЯБЯ здесь обозначает порядковый номер данного источника в списке источников текущего выпуска СИ. На каждой такой странице документы сортируются по своим рабочим номерам.
Штатным алгоритмом обновления базы данных ИПС «Акустика» в данный момент является следующий:
1. Копирование библиографической информации из СИБД в БД локальной версии ИПС «Акустика» (размещенной на компьютере администратора). Осуществляется в АРМ администратора. Администратор может выбрать, из каких таблиц необходимо скопировать информацию. Если, например, рубрикатор или список спецсимволов за последнее время не претерпели изменений, то обновлять их в БД ИПС не имеет смысла.
2. Проверка корректного функционирования локальной ИПС.
Российский фонд фундаментальных исследований
Все выпуски»
АКУСТИКА
СИГНАЛЬНАЯ ИНФОРМАЦИЯ
№4, 2020 год
МГУ им. М.В.Ло
проек
АВТОРЫ ИСТОЧНИКИ РОР-ВЕРСИЯ К ЧИТАТЕЛЯМ
Все выпуски | 2020 №4 | Рубрики
Рубрики
01 КОНГРЕССЫ. КОНФЕРЕНЦИИ. СЕМИНАРЫ, СИМПОЗИУМЫ, СОВЕТЫ. СОВЕЩАНИЯ
02 БИБЛИОГРАФИЯ
03 ПЕРСОНАЛИИ
04 КЛАССИЧЕСКИЕ ПРОБЛЕМЫ ЛИНЕЙНОЙ АКУСТИКИ И ТЕОРИИ ВОЛН
04.01 Математическая теория распространения волн
04.03 Отражение, дифракция и рефракция волн
04.04 Рассеяние акустических волн
04.05 Упругие волны в твердых телах
04.06 Отражение, дифракция, рассеяние упругих волн
04.08 Стоячие волны, резонанс, нормальные моды
04.09 Волноводы, волны в трубах и направляющих системах
04.11 Излучение источников, импеданс, картины полей
04.12 Численные методы, компьютерное моделирование
04.14 Методы измерений и инструменты
04.15 Колебания распределенных систем, вибрации, структурная акустика
04.16 Волны в многофазных, пористых, резиноподобных средах, полимерах
05 НЕЛИНЕЙНАЯ АКУСТИКА
05.01 Нелинейные параметры среды
05.02 Теория нелинейных акустических волн
Рис. 7.6. Главная страница сайта Сигнальной информации.
3. Перенос БД локальной ИПС «Акустика» на сайт akdata.ru через механизм бэкапа и восстановления БД. Осуществляется в АРМ администратора.
Вид номера Сигнальной информации приведен на рис. 7.6. Описание сайта Сигнальной информации (http://akinfo.ru) и его наполнения приведено в главе 2.
ГЛАВА 8
КОНЦЕПЦИЯ И ТЕХНОЛОГИЯ СОЗДАНИЯ ИНТЕРНЕТ-ИЗДАНИЯ «РОССИЙСКАЯ ЭКОЛОГИЧЕСКАЯ
ЭНЦИКЛОПЕДИЯ»
Введение
В седьмой завершающей главе диссертации рассматриваются вопросы создания специализированной структуры и технологии формирования интернет-энциклопедий на примере создания «Российской экологической энциклопедии »из планировавшейся серии «Геофизика». Это отдельная ветвь, включенная в диссертацию и стимулированная тем, что создание интернет-энциклопедий по различным областям науки и техники является также одним из направлений развития информационных технологий. Актуальность этой работы автора середины 2000-х гг. подтверждается начавшимся в 2019 г. проектом создания «Большой российской энциклопедии» ([171], [176]).
Возможность легкого поиска статей, удобный интерфейс, использование гипертекстовых ссылок облегчают работу пользователей с информацией, содержащейся в электронном издании. Электронное представление позволяет оперативно дополнять и изменять наполнение энциклопедии, а визуальные возможности многоцветного изображения позволяют иллюстрировать статьи энциклопедии не только черно-белыми рисунками и схемами, но и цветными фотографиями, схемами, диаграммами и мультимедийными данными. Технология создания интернет-энциклопедии включает в себя несколько этапов. Вопросы подготовки исходного материала — текстов статей, иллюстраций и таблиц — находятся за пределами данной диссертации., так как эти вопросы не являются темой исследований автора. В диссертации же рассматриваются концепция и примененная технология, касающиеся принципов создания про-
граммной оболочки электронной энциклопедии. Во-первых, это выбор платформы для информационного обеспечения и разработка реляционной схемы базы данных. Во-вторых, создание программного обеспечения для функционирования электронной энциклопедии. В-третьих, разработка механизмов наполнения БД. В-четвертых, формирование предметной области и связей между объектами, объединяющей отдельные статьи в единое целое: формирование списка ключевых слов для поиска, составление оглавления, привязка иллюстраций, установление перекрестных ссылок между статьями и т. п. При публикации данных в сети Интернет существенными являются также вопросы защиты данных от несанкционированного изменения и удаления.
В отличие от популярной веб-энциклопедии «Википедия», в которой пользователям предоставляется возможность вносить исправления и дополнения, созданная веб-энциклопедия «Экология», авторами статей которой являются ведущие специалисты, содержит выверенные сведения. Внесение изменений в материал Энциклопедии, как и в случае электронной версии «Большой российской энциклопедии», сторонними пользователями не предполагается.
Объем диссертации ограничен, и поэтому мы кратко описываем разработку технологии подготовки и реализации концепции интернет-энциклопедии по экологии из планировавшейся серии «Геофизика», выполненной под контролем профессора д.г.н. Кима Семеновича Лосева ([141]).
С конца 1990-х годов одной из ведущих отраслей знаний как в нашей стране, так и за рубежом стала экология ([248], [259], [260]). Как грибы появились толковые словари и справочники по экологии, контролю окружающей среды, природопользованию. Одними из лучших были «Экологический энциклопедический словарь», составленный И.И. Дедю ([90]) и Рей-мерс Н.Ф. «Природопользование. Словарь-справочник» ([173]). Они дополняли друг друга, так как первый имел ярко выраженный биологический уклон,
а второй — природопользовательский. Хотя эти словари были составлены высокоэрудированными авторами, но все же их специализация накладывала определенные ограничения, кроме того, это были скорее расширенные глоссарии. Следующей этапной работой было создание К.С. Лосевым «Экологического энциклопедического словаря», изданного в 1999 г. ([255]) на основе привлечения большой группы составителей с включением крупных статей.
К 2008 году автором проекта Словаря профессором К.С. Лосевым была разработана концепция «Большой экологической энциклопедии». Работа была начата с перспективой публикации в виде шеститомного печатного издания, но финансовые затруднения, а также полученный автором-составителем грант РФФИ на выпуск электронного издания сменили приоритеты, и на первый план вышло создание интернет-энциклопедии. Очевидно, что электронная энциклопедия разделяется на содержательную и программную части, и эта вторая часть и является основой выполненного нами проекта разработки технологии создания электронных энциклопедий, словарей и справочников.
Отметим, что создание интернет-энциклопедий по различным областям науки и техники является также одним из направлений развития информационных технологий. Возможность быстрого поиска статей энциклопедического уровня по определенной тематике, удобный интерфейс, использование гипертекстовых ссылок, цветные иллюстрации облегчает работу пользователей с информацией, содержащейся в таком электронном издании. Электронное представление позволяет оперативно дополнять и изменять наполнение энциклопедии, а визуальные возможности многоцветного изображения позволяют иллюстрировать статьи энциклопедии не только черно-белыми рисунками и схемами, но и цветными фотографиями, схемами, диаграммами и мультимедийными данными.
Внесение изменений в материал Энциклопедии сторонними пользователями не предполагается и потому внутренняя база данных энциклопедии разделена с ее «витринной частью» в интернете. Проект был закончен в 2007 г. и энциклопедия была выложена в Интернете по адресу http://science.viniti.ru/ ([238]).
Технология создания интернет-энциклопедии включает в себя несколько этапов. Вопросы подготовки исходного материала — текстов статей, иллюстраций и таблиц — отражены в ранее опубликованной статье ([141]), и мы на этом останавливаться не будем, так как это исследование не является темой данной диссертации. Здесь же рассмотрим проблемы, касающиеся концепции создания программной оболочки электронной энциклопедии ([99]). Во-первых, это — выбор платформы для информационного обеспечения и разработка реляционной схемы базы данных. Во-вторых, создание программного обеспечения для функционирования электронной энциклопедии. В-третьих, разработка механизмов наполнения БД. В-четвертых, формирование предметной области и связей между объектами, объединяющих отдельные статьи в единое целое: формирование списка ключевых слов для поиска, составление оглавления, привязка иллюстраций, установление перекрестных ссылок между статьями. При публикации данных в сети Интернет существенными являются также вопросы защиты данных от несанкционированного изменения и удаления.
Мы использовали реляционную модель данных и, соответственно, реляционную СУБД MySQL и набор PHP-сценариев доступа к БД, что позволило использовать в качестве web-сервера Apache под ОС семейства Unix, что, в свою очередь, обеспечивает автономность интернет-публикации: интернет-энциклопедия может быть размещена на любом web-сервере, а не только в пределах корпоративной сети ВИНИТИ, где разрабатывалась ([244]).
Предметная область БД энциклопедии включает объекты двух типов — статьи и иллюстрации. Статьи являются основным (образующим) объектом БД. Статья идентифицируется по заглавию, являющемуся термином энциклопедии.
Данные, по которым проводится обработка (сортировка, формирование ссылок и алфавитного указателя, получение ключевых слов), вынесены в отдельные поля.
Таким образом, одним из «отношений» нашей реляционной модели является отношение «Статья» со схемой, включающей следующие атрибуты:
• заголовок статьи энциклопедии — термин;
• перевод термина на английский язык;
• синонимы термина;
• сокращение термина, например, «АЭС» для словосочетания «атомная электростанция»;
• полный вариант для сокращения, например, «биологически допустимый выброс» для «ВДВ»;
• статьи-ссылки, т. е. заглавия статьей, на которые ссылается данная с использованием конструкций «см.» или «см. также» (например, статья «Внеземная жизнь» имеет ссылку «см. также» на статью «Возникно-
вение жизни»);
дополнение к заголовку статьи; примером могут служить случаи, когда в заголовках статей, посвященных ученым, указаны годы жизни, например в статье с заголовком «Базилевич Наталья Ивановна» дополнение — «1910-1997 гг.»);
текст статьи, представляющий собой фрагмент НТМЬ-страницы; ключевые слова для статьи.
Статья, как информационный модуль, собирается из этих атрибутов по определенному шаблону, принятому для энциклопедии.
В Интернет-энциклопедии активно используется механизм гипертекстовых ссылок. HTML-ссылки реализованы не только для случая, когда из одной статьи дается ссылка на другую с использованием конструкций «см.» или «см. также» с указанием полного заглавия статьи-ссылки, но и для случая, когда упоминание термина встречается в середине текста статьи, причем не обязательно в той форме, как он (термин) представлен в заглавии соответствующей статьи. В этом случае в качестве чувствительной области гипертекстовой ссылки может быть выбран любой фрагмент текста, в том числе лишь косвенно связанный с заглавием статьи-ссылки.
Вторым объектом предметной области БД являются иллюстрации к статьям. В качестве иллюстраций могут выступать не только рисунки в форматах JPEG, BMP и GIF, но и дополнительный текст сложной структуры (как правило, таблицы большого размера). При просмотре статьи Интернет-энциклопедии ее иллюстрации визуализируются в отдельном окне web-браузера. Это позволяет «разгрузить» основной текст статьи, сделать его более наглядным и удобным для просмотра. Вместе с тем небольшие рисунки могут быть размещены непосредственно в тексте статьи.
Таким образом, другим ключевым отношением нашей реляционной модели является отношение «Иллюстрация» со схемой, включающей:
• имя файла с иллюстрацией;
• графическое изображение;
• подпись под иллюстрацией;
• размеры изображения;
• дополнительный текст — HTML-страницу.
Накопление данных для наполнения БД энциклопедии (загрузка статей и иллюстраций к ним, установление связей между ними, формирование списка
ключевых слов, внесение правки и пр.) выполняется на внутреннем сервере ВИНИТИ не доступном извне. Для этого под СУБД Microsoft SQL Server 2000 создана база данных, имеющая структуру, аналогичную структуре БД интернет-энциклопедии, но имеющая дополнительные элементы — служебные атрибуты в отношениях, ограничения, триггеры и пр. — использующиеся для обеспечения ссылочной целостности данных, поддержки бизнес-правил1, отслеживание внесения изменений и технологического состояния записей. Для ведения этой БД создан специальный программный модуль ([244]). Статьи энциклопедии загружаются из файлов, подготовленных в Microsoft Word 2000, HTML-файлов, а также файлов оригинал-макета в издательской системе Ventura 2.0, в которой был подготовлен для печати Энциклопедический экологический словарь ([255]). Также предусмотрена передача из БД текстов статей для публикации в виде печатного издания, которая реализована как выгрузка в QuarkXPress. Эта подсистема подробно описана в статье ([101]).
Для передачи данных электронной энциклопедии из базы данных на СУБД Microsoft SQL Server 2000 в базу данных на СУБД MySQL разработаны соответствующие механизмы, включающие выгрузку данных из исходной БД с определением состава и объема выгружаемой информации и загрузку данных в БД MySQL. Для передачи статей может использоваться как CSV-файл, так и пакетный файл SQL-команд. Как показала опытная эксплуатация, использование SQL-скриптов предпочтительнее. Все необходимые изменения выполняются в исходной БД, а затем измененный фрагмент данных переносится в БД интернет-энциклопедии. Для этого реализован механизм передачи выбранных статей, дополненных необходимой информацией из подчиненных таблиц.
1 Бизнес-правила — это процедуры управления, которые указывают, как клиент получает доступ к данным на сервере.
БД интернет-энциклопедии, «открытая» для просмотра, «закрыта» для изменения извне, поскольку изменения в нее вносятся администратором системы в пакетном режиме.
Хранение исходной БД электронной энциклопедии на внутреннем сервере ВИНИТИ, не доступном извне, обеспечивает режим сохранности исходной информации.
При создании интернет-энциклопедии мы ориентировались на наиболее полное использование возможностей электронного представления, т. е. реализацию поиска статей по ключевым словам, возможность добавления новых статей без необходимости переформировывания оглавления и других производных объектов. В результате был выбран вариант публикации с минимальным числом статических HTML-страниц — почти все HTML-страницы формируются динамически PHP-скриптами на основе данных из БД. Статической является только стартовая страница, содержащая эмблему интернет-энциклопедии, форму для поиска по ключевым словам, а также русский и латинский алфавиты для доступа к статьям энциклопедии по оглавлению. Все остальные страницы, включая листы оглавления, формируются динамически.
С помощью PHP-скриптов реализованы следующие функции: поиск статей энциклопедии по заданному фрагменту ключевого слова или словосочетания; визуализация списка статей, отобранных при поиске; формирование HTML-страницы — статьи энциклопедии и страниц просмотра иллюстраций к статье по данным из БД; формирование оглавления.
Интернет-энциклопедия по экологии находится на web-сайте ВИНИТИ (научный портал ВИНИТИ по адресу littp: /science.viniti.ru в разделе «Экология»), FrontPage разработан в среде Mambo Administration, также основан-
ной на технологиях MySQL и РНР, позволяющей проектировать как статические, так и динамические страницы.
Структура БД создана с расчетом на перспективу расширения функциональности. При проектировании БД, содержащей исходные данные, и с использованием которой проводится основная работа по формированию электронной энциклопедии, была задействована большая часть возможностей СУБД Microsoft SQL Server, что позволило сократить объем прикладного программирования и унифицировать обращение к БД.
Разработанная система, включающая базу данных и программный комплекс, может использоваться также для создания интернет-энциклопедий в других областях знаний, для представления информации в которых достаточно средств HTML, т. е. с минимальным количеством сложных математических формул, либо без необходимости поиска по ним ([147], [238]).
8.1. Программно-аппаратный комплекс. Представление экологической энциклопедии в Интернете
Программно-аппаратный комплекс интернет-энциклопедии состоит из двух основных функциональных блоков — блока, обеспечивающего доступ пользователя к материалам Энциклопедии, размещенным на web-сайте, и блока подготовки базы данных энциклопедии к публикации в Интернете.
Доступ пользователя к материалам Энциклопедии, размещенным на web-сайте, разработан в двух вариантах — статическом и динамическом.
В статическом варианте исполнения материалы Энциклопедии на web-сайте представлены в виде совокупности статических html-страниц, связанных гипертекстовыми ссылками. Этот вариант реализации размещения Энциклопедии в Интернете предъявляет минимальные требования к программному обеспечению web-сайта.
Оглавление
А(650) Б(604)
И(126) Й
p aw: с (311)
Ш(28) 1Л■ I •
В(275) Г(290)
К(233) Д (88)
Т (ШУ У (86)
Э ( 214) КЗ Cii
Д,(140) Е (13)
м(195) н(145)
ф (89) xi 1"| я 112)
Ж(16) 3 (162i
О(259) П(448)
ДМ) Ч (28)
Рис. 8.1. Вид алфавитного указателя статей Энциклопедии.
Д Щ ж
и и к л М Н о п Е С т уф хНЗШШ Эюя
БАБЛ-ПРШ-ШШ1
ЁАзвйьсвшШЙЮШрй; БАЗИС: АККУМУЛЯЦИИ БАЗИС ОПОЛЗНЯ БАЗИС ЭРОЗИИ БАЗИФИЛЫ
БАЗОВАЯ ПЕССИМИСТИЧЕСКАЯ МОДЕЛЬ
Буква Б. Лист 1
БАЗА ЗНАНИЙ БАЗИС
БАМ&ДВВЭД&ИШ БАЗИС ОСАДКОНАКОПЛЕНИЯ БАЗИСНАЯ ЛИНИЯ БАЗИФИЛЬНЫЕ ОРГАНИЗМЫ БАЗОВЫЙ МОНИТОРИНГ
базофилы байрак
бактериальные удобрения
бактерии
бактериолиз
бактериологический анализ воды
БйюийивтегагаЕвкш!.аршяв
базофильнеые организмы байрачный лес бактериальное загрязнение бактериальный вирус бактериобентос бактериолизины бактериологический индикатор
база цифровых экологических данных базис
базис:'шеста-базис отложения еазихропизм
базовая оптимистическая модель базшды
базофнльные организмы байт
бактериальный препарат бактериозы
бактериологическая проба бактериологическое загрязнение,.
бактериология
бактерионеистон
9 10 И 12 13 14 Вперед»
Рис. 8.2. Вид страницы списка статей.
На основной странице сайта Энциклопедии размещается алфавитный указатель статей энциклопедии. На рис. 8.1 приведен вид демонстрационной версии Энциклопедии, содержащей ограниченное число статей (в скобках приведено количество загруженных терминов).
С основный страницы Энциклопедии осуществляется переход на страницу списка статей (рис. 8.2), содержащую ссылку на нужную статью (рис. 8.3).
В динамическом варианте исполнения материалы Энциклопедии на web-сайте (рис. 8.4) представлены в виде совокупности данных, загруженных в СУБД MySQL.
Поиск нужной статьи энциклопедии и вывод ее на экран осуществляется с помощью скриптов, написанных на PHP 4.3.0. Такой вариант размещения Энциклопедии в Интернете предъявляет более высокие требования к
-^Экологическая энциклопедия - Microsoft Internet Explorer
Файл Правка Вид Избранное Сервис Справка
Назад » ^ " ^ QПоиск # | Избранное
Адрес;
] C:\TEMP\C005001.htm
¿^"Переход Ссылки
ВАКЦИНАЦИЯ
ТЗАТЛГИНАТГИЯ г.иипиим ИММУНИЗАЦИЯ - vaccination, vaccinization - способы создания активного искусственного иммунитета против инфекционных заболеваний путем введения в организм человека или животного специальных препаратов - вакцин или анатоксинов. Методы введения препаратов могут быть разнообразными. Активизация иммунитета бывает обычно непродолжительной, и поэтому через определенный срок (для каждой инфекции особый) обычно В. повторяется (ревакцинация). В результате ревакцинации активность иммунитета значительно возрастает.
d
, Готово
Мои компьютер
Л
Рис. 8.3. Вид статьи в Энциклопедии
программному обеспечению \¥еЬ-сайта, однако пользовательский интерфейс в этом случае гораздо удобнее и информативнее, что, учитывая приведенные ранее наши рассуждения об учете когнитивных аспектов при разработке информационных продуктов, надеемся, помогает пользователям в работе при поиске нужных статей.
Кроме алфавитного указателя статей предусмотрен поиск статей энциклопедии по ключевому слову. В качестве ключевого слова может использоваться название статьи энциклопедии, его перевод на английский или его синоним.
Реализованы несколько режимов поиска поиск совпадения термина целиком, поиск совпадения введенной строки с началом ключевого слова, или поиск совпадения введенной строки с любой частью ключевого слова (рис. 8.5).
Результаты поиска выдаются на экран в виде списка статей (рис. 8.6). Пользователю сообщается также общее число найденных статей, в соответствии с заданным режимом поиска.
Рис. 8.4. Вид начальной страницы Энциклопедии в динамическом варианте.
Через механизм гиперссылок из списка найденных статей можно открыть текст соответствующей статьи (рис. 8.7).
Рис. 8.5. Вид поисковой страницы.
Также сам текст статьи может содержать гипертекстовые ссылки на другие статьи энциклопедии. Например, приведенная на рисунке 8.8 статья «Автохтонное вещество (водоема)» содержит ссылку на статью «Абразия».
Кроме того, текст статьи может содержать также ссылки на иллюстрации, которые как обычно открываются в отдельном окне, как приведено на рисунке 8.9.
8.2. Реляционные модели баз данных для подготовки и публикации Экологической энциклопедии
База данных подсистемы подготовки Энциклопедии по экологии основана на СУБД Microsoft SQL Server 2000 и состоит из основной таблицы (отношения), содержащей статьи энциклопедии, таблицы с иллюстрациями к статьям, таблицы связей между статьями и иллюстрациями или между двумя статьями, таблицы ключевых слов, таблицы связи между статьей и рисунком, а также таблицы для обеспечения быстрого поиска по ключевым словам. Схемы этих отношений будут приведены ниже, а для двух основных отношений
Поиск терчнкз
Поиск по ключевому спову АВТО (по совпадению с начапон слова |термииф)
Результат поиска по ключевому слову АВТО
Найден" 48 i татей. Результат поиска разбит на страницы по 20 шт. на пиете
Номрр Статья
1 1автогамия
2 автогеморея
з автогенез
4 автогенная сукцессия
|5 автогенные процессы
6 автолиз
7 автоматизация биологическои очистки сточных вод
ö автоматизация гидрохимических наблюдений
9 автоматизация физико-химической очистки сточных вол
10 автоматизированная система контроля качества вод
11 автоматизированная система управления водоохранным
комплексом
12 автоматизированное дешифрирование
13 автоматическая климатическая станция
14 автоматическая метеостанция
is Автоматическая обработка данных
16 автоматический отбор проб
117 автомобиль
16 автомобильная промышленность
автомобильная эмиссия
20 автомобильное загрязнение
Переход на страницу 12 3
Рис. 8.6. Вид страницы выдачи по результатам поиска на рис. 8.5.
ARTICLES «Статьи» и PICTURES «PI л люстрации» мы считаем нужным для наглядности привести и фрагменты отношений с несколькими кортежа-
Рис. 8.7. Вид выдачи текста статьи.
Для формирования поисковых отношений созданы три хранимые процедуры.
Для контроля изменений все отношения снабжены атрибутами, отражающими время последнего изменения записи и имя пользователя с административными функциями, внесшего изменение. Эти атрибуты поддерживаются автоматически при создании и изменении записи.
Основное отношение статьи энциклопедии. Статьи энциклопедии хранятся в таблице ARTICLES. Фрагмент таблицы с основными атрибутами приведен в табл. 8.1. Полный список атрибутов отношения приведен в табл. 8.2.
Основная таблица — таблица статей энциклопедии. Статьи энциклопедии хранятся в таблице 8.12.
2Основная таблица, содержащая сведения по статьям энциклопедии. Приведены данные по основным атрибутам. Полный список атрибутов с их описанием см. в табл. 8.2
Рис. 8.8. Вид текста статьи с гипертекстовой ссылкой.
Таблица иллюстраций. Рисунки, иллюстрирующие статьи, хранятся в таблице PICTURES. Сами иллюстрации хранятся, как правило, в JPEG-формате, но в базу заносятся в битовом виде (BLOB-поле3, см. в табл. 8.3 атрибут picture). Полный список атрибутов отношения приведен в табл. 8.4.
Таблица связей Таблица связей REF_ARTICLE, схема которого приведена в табл. 8.5, содержит связи между статьей и рисунком, использующимся в ней в качестве иллюстрации, или между двумя статьями, в одной из
3ВЬОВ-поля отличаются от полой другого типа. Реально BLOB-поле имеет несколько подтипов (subtype). Знание подтипа BLOB-поля существенно при создании приложения для работы с базами данных, которые включают в себя BLOB-поля. BLOB-поля могут быть трех подтипов: подтип 0. подтип 1 (два встроенных подтипа) и пользовательский подтип.
Подтип 0 BLOB-поля создается при выполнении команды CREATE, когда подтип не определен. Для ясности, в синтаксисе SQL все же рекомендуется явно указывать, что BLOB-поле относится к подтипу 0. Данный подтип BLOB-поля используется для храпения бинарных данных. СУБД не проводит никакого анализа хранимых данных, она просто хранит данные в BLOB-поле байт-за-байтом. Наиболее частое применение BLOB-полой в приложениях Windows храпение двоичных данных изображения. Для этой цели подходит или BLOB-поле подтипа 0. или BLOB-поле пользовательского подтипа.
Рис. 8.9. Вид текста статьи с иллюстрацией.
которых дается ссылка на другую. В качестве ссылок используются идентификаторы записей.
Таблица ключевых слов Поиск статей по ключевым терминам осуществляется следующим образом. Термин ищется в списке ключевых слов. По найденному коду (одному или нескольким, если поиск осуществлялся не по полному совпадению) в инверсном списке отбираются идентификаторы статей. А затем по списку идентификаторов статей (если такие статьи были найдены) выдается информация о статьях в требуемом виде.
Список ключевых терминов содержится в отношении КЕУ_\¥СЖХ)8, схема которого приведена в табл. 8.6.
Статьи.
Атрибут Описание
Термин Термин, которому посвящена статья Энциклопедии. Совпадает с заголовком статьи
Идентификатор статьи Первичный ключ отношения. Используется при установлении связей между объектами БД.
Текст статьи Основная часть текста статьи. Содержит гипертекстовую разметку.
Перевод термина Перевод или список переводов термина на англ. яз.
Синоним Синоним или список синонимов термина.
Сокращение Сокращение или аббревиатура термина.
Раскрытие аббревиатуры В случае, когда термин представляет собой сокращение или аббревиатуру, данный атрибут содержит полный вариант термина.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.