Метод структурирования интегрированных медицинских данных для моделирования медицинских рисков тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Иванова Юлия Дмитриевна

  • Иванова Юлия Дмитриевна
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 251
Иванова Юлия Дмитриевна. Метод структурирования интегрированных медицинских данных для моделирования медицинских рисков: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2021. 251 с.

Оглавление диссертации кандидат наук Иванова Юлия Дмитриевна

Реферат

Synopsis

Введение

ГЛАВА 1. Анализ предметной области

1.1 Концепция преемственной и персонализированной медицины

1.2 Подходы к обеспечению преемственной и персонализированной медицины

1.2.1 Медицинские стандарты для интероперабельности медицинских данных

1.2.2 Медицинские терминологические системы для интероперабельности медицинских данных

1.3 Обзор методов структурирования медицинских текстов

1.3.1 Особенности медицинских текстов

1.3.2 Методы обработки медицинских текстов на естественном языке

1.3.3 Обзор существующих решений в области структурирования и

интеграции медицинских данных

1.4 Обзор онтологических моделей

1.5 Моделирование медицинских рисков для прогнозирования потребности в помощи

1.5.1 Обзор существующих решений в области моделирования медицинских рисков

Выводы по первой главе

ГЛАВА 2. Методика структурирования медицинских данных на основе международных стандартов и оценка влияния степени структурированности данных на модель медицинских рисков

2.1 Информационный процесс оценки медицинских рисков

2.2 Методика структурирования медицинских данных

2.2.1 Формирование базы знаний предметной области

2.2.2 Обработка текстовых документов

2.2.3 Методы машинного обучения для классификации и извлечения терминов

2.2.4 Стандартизация медицинских текстовых записей

2.3. Базовая терминологическая онтология

2.4. Онтологический подход к интеграции разнородных медицинских данных

2.5. Модель медицинских рисков

2.6. Оценка влияния степени структурированности медицинских данных

на предсказательную способность модели медицинских рисков

Выводы по второй главе

ГЛАВА 3. Программная реализация методики структурирования и модели медицинских рисков

3.1. Компоненты реализации методики структурирования медицинских данных

3.1.1. Модуль выгрузки из медицинских баз данных

3.1.2. Модуль предобработки текстовых медицинских записей

3.1.3. Модуль парсинга открытых справочников, словарей и баз знаний

3.1.4. Модуль сегментации и исправления опечаток

3.1.5. Модуль фильтрации медицинских записей

3.1.6. Модуль извлечения

3.1.7. Модуль стандартизации

3.1.8. Модуль формирования онтологии

3.2. Компоненты реализации модели медицинских рисков

Выводы по третьей главе

ГЛАВА 4. Экспериментальная оценка разработанных метода и модели на примере интегрированного набора данных

4.1. Экспериментальное исследование методики структурирования медицинских текстов на примере аллергологических анамнезов

4.2. Экспериментальное исследование онтологического подхода к интеграции медицинских данных

4.3. Экспериментальное исследование модели медицинских рисков в раннем послеоперационном периоде для пациентов с операциями на грудном отделе аорты

4.4. Оценка влияния степени структурированности медицинских данных

на предсказательную способность модели медицинских рисков

Выводы по четвертой главе

Заключение

Список литературы

Приложение 1. Критерии преемственной и персонализированной медицины в

информационном контексте

Приложение 2. Информационный процесс оценки медицинских рисков

Приложение 3. Методика структурирования текстовых медицинских записей 185 Приложение 4. Этапы оценки влияния степени структурированности медицинских

данных на предсказательную способность модели медицинских рисков

Приложение 5. Оценки теста разных стратегий предсказания для каждого целевого

признака в модели медицинских рисков

Приложение 6. Тексты публикаций по теме диссертации

8

Реферат Общая характеристика работы

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод структурирования интегрированных медицинских данных для моделирования медицинских рисков»

Актуальность работы

В течение жизни пациент взаимодействует с большим количеством территориально распределенных медицинских организаций, которые собирают и хранят медицинские данные, которые представляют исследовательскую и практическую ценность. Они могут быть эффективно использованы в персонализированных системах оценки медицинских рисков для обеспечения преемственной и персонифицированной медицинской помощи пациенту.

Основным барьером на пути к преемственной и персонализированной помощи пациенту является обеспечение семантической интероперабельности медицинских данных. В связи с тем, что данные о пациенте хранятся в различных медицинских информационных системах (МИС) с использованием моделей данных разной степени выразительности и полноты, интеграция электронных медицинских карт из различных медицинских учреждений затруднительна. Важную роль в интеграции разнородной медицинской информации играет семантическая интероперабельность медицинских данных. Семантическая интероперабельность, как способность различных МИС взаимодействовать друг с другом через документированные интерфейсы для общего доступа к данным, а также единообразно их интерпретировать, требует стандартизации.

Для обеспечения семантической интероперабельности медицинских данных разработаны и применяются международные стандарты обмена данными (openEHR, ISO13606, v2 и v3, FHIR), а также международные

терминологические системы (SNOMED СТ, LOINC, МКБ-10).

Семантическая интероперабельность данных является важным критерием качества данных и в значительной степени влияет на предсказательную способность моделей рисков.

Проблема обмена и обработки медицинских данных заключается в том, что порядка 80% ценных данных хранятся в виде неструктурированных медицинских записей, что затрудняет их стандартизацию и повторное использование.

Особенностями медицинских текстовых записей являются отсутствие единообразной структуры ведения записей, что ведет к различиям в моделях данных различных МИС и неполноте данных при интеграции; использование разнообразных грамматических и лексических правил в зависимости от языка и области знаний, а также большой процент ошибок и неоднозначностей, что затрудняет применение существующих методов; использование специфичной медицинской терминологии, которая не представлена в общедоступных словарях, корпусах и анализаторах, что осложняет обеспечение семантической интероперабельности данных. Описанные аспекты затрудняют интеграцию данных из различных МИС и ограничивают предсказательные возможности моделей оценки медицинских рисков.

Разработка методики структурирования текстовых записей позволит увеличить семантическую интероперабельность и обеспечить интеграцию данных, имеющих различные логические модели. Разработка методики оценки влияния степени структурированности данных на предсказательную способность моделей оценки рисков позволит оценить интероперабельность данных относительно стандартизованных систем.

Объект исследования: процесс обработки текстовых данных для оценки рисков.

Предмет исследования: методы обеспечения интероперабельности данных.

Цель диссертационного исследования: повышение предсказательной способности модели медицинских рисков за счет разработки методики структурирования текстовых медицинских записей.

Задачи диссертационного исследования:

1. Исследование и систематизация существующих методов и подходов к структурированию медицинских данных и обеспечению семантической интероперабельности.

2. Разработка методики структурирования медицинских текстовых записей с использованием международного терминологического стандарта SNONED СТ и стандарта обмена медицинскими данными FHIR для обеспечения интероперабельности.

3. Разработка онтологии на основе международного медицинского стандарта FHIR и терминологической системы SNOMED СТ.

4. Разработка модели медицинских рисков на основе интегрированных медицинских данных.

5. Разработка системы критериев оценки влияния степени структурированности медицинских данных на предсказательную способность модели медицинских рисков.

6. Экспериментальное исследование разработанного научно-методического инструментария с оценкой степени повышения полноты медицинских данных и предсказательной способности модели медицинских рисков.

Научно-техническая задача, решаемая в диссертации, заключается в разработке инструментария интероперабельности медицинских данных.

Научная новизна

1. Предложена методика структурирования медицинских текстовых записей с использованием онтологии на основе международных стандартов SNOMED СТ и FHIR, отличающаяся увеличением семантической интероперабельности данных и предсказательной способности модели медицинских рисков за счет интеграции данных разной степени структурированности.

2. Впервые предложена система критериев оценки влияния степени структурированности медицинских данных на предсказательную способность модели медицинских рисков, позволяющая получить характеристики полноты данных на всех этапах структурирования.

На защиту выносятся:

1. Методика структурирования медицинских текстовых записей с использованием онтологии на основе международного терминологического стандарта SNOMED CT и стандарта обмена медицинскими данными FHIR.

2. Система критериев оценки влияния степени структурированности медицинских данных на предсказательную способность модели медицинских рисков.

Теоретическая значимость результатов диссертационной работы состоит в создании новых методов структурирования и интеграции данных разной степени структурированности, а также оценки влияния степени структурированности данных на предсказательную способность модели рисков.

Практическая значимость исследования заключается в разработке программных решений, позволяющих выгружать медицинские данные из различных баз медицинских данных с последующим структурированием на основе международного стандарта обмена медицинскими данными FHIR для обеспечения возможности их повторного использования, что показывает свидетельство о государственной регистрации программы для ЭВМ. Программы доступны для скачивания в открытых репозиториях: https://github.com/IlyaDer17/Synthetic Patient Generator https://github.com/lenivezzki/FHIRstruct https://github.com/lenivezzki/AortaAneurism

Методы исследования включают методы статистического анализа, методы машинного обучения, методы обработки текстов на естественном языке, методы стандартизации и семантической интероперабельности медицинских данных.

Достоверность и обоснованность результатов диссертационной работы обеспечивается наличием подробного анализа состояния исследований в области исследования, а также экспериментальных результатов, согласующихся с опубликованными экспериментальными данными по теме диссертации.

Внедрение результатов работы. Результаты диссертационного исследования были использованы в учебном процессе Университета ИТМО при

выполнении практических работ и проведении лекционного курса «Медицинские информационные системы». Также результаты диссертационной работы использованы при выполнении проектов «Метакогнитивные технологии системного искусственного интеллекта» (2020-2024 гг., Государственное задание №2019-1339 (Мнемокод темы 0789-2020-0015)), «Интеллектуальные технологии структурирования,интеграции и анализа разнородных данных и знаний при построении интерпретируемых предсказательных моделей в задачах медицины и здравоохранения» (2019-2020гг.,Техническое Задание №619413 от 01.09.2019), «Метакогнитивная технология ценностно-ориентированной цифровой клиники» (2019-2020 гг. , договор № 8/1251/2019 от 15.08.2019, техническое задание № 390382). Результаты были внедрены в деятельность следующих организаций (получены акты о внедрении результатов работы): НМИЦ им. В. А. Алмазова, НИИ Кардиологии Томского НИМЦ, ООО НПФ Хеликс.

Апробация работы. Полученные результаты обсуждались на международных и всероссийских научных конференциях: Decision Support Systems and Education - Help and Support in Healthcare (EFMI-STC 2018, Загреб, Хорватия), ICT for Health Science Research (EFMI STC 2019, Ганновер, Германия), XLIX научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, 2020), IX Конгресс молодых ученых (Санкт-Петербург, 2020), International Conference on Computational Science (Амстердам, Нидерланды, 2020, онлайн), Young Scientists Conference in Computational Science (о. Крит, Греция, 2020, онлайн), 17th International Conference on Wearable Micro and Nano Technologies for Personalized Health (Прага, Чехия, 2020, онлайн).

Личный вклад автора. Соискателем лично получены основные результаты работы: методика структурирования текстовых медицинских данных, составлена система критериев оценки влияния степени структурированности данных на предсказательную способность модели рисков, проведена экспериментальная апробация разработанного инструментария на модели медицинских рисков. Модуль выгрузки данных из медицинской базы данных центра Алмазова

реализован Деревицким И.В. Метод структурирования разработан совместно с Копаницей Г.Д. Модель медицинских рисков разработана и апробирована совместно с Панфиловым Д.С., врачом-сердечно-сосудистым хирургом и старшим научным сотрудником отделения сердечно-сосудистой хирургии НИИ Кардиологии Томского НИМЦ.

Публикации. По материалам диссертации опубликовано 9 работ, в том числе 3 статьи - в изданиях из перечня ВАК, 6 статей - в изданиях, индексируемых SCOPUS, а также получено 1 свидетельство о регистрации программы для ЭВМ.

Основное содержание работы Во введении обоснована актуальность исследуемой проблемы, сформулированы цель, задачи исследования, описаны положения, определяющие научную новизну и практическую значимость работы.

Первая глава содержит обзор и анализ состояния предметной области. рассматриваются основные понятия преемственности и персонализации медицинской помощи в контексте работы с медицинскими данными, критерии оценки преемственности и персонализации медицинской помощи в контексте работы с медицинскими данными, а также приведен обзор основных онтологических моделей и ресурсов, как средств хранения предметных знаний.

Основной целью персонализированной медицины является поиск оптимального лечения для каждого пациента, чтобы максимизировать пользу от лечения и минимизировать побочные эффекты. Преемственность медицинской помощи в широком смысле - это степень, в которой люди воспринимают серию отдельных медицинских событий как последовательные и взаимосвязанные во времени, а также соответствующие их потребностям и предпочтениям в отношении здоровья. В информационном контексте преемственность медицинской помощи определяется как способность нескольких медицинских информационных систем обмениваться данными о пациенте и одинаково их интерпретировать. Для обеспечения персонализированной и преемственной медицинской помощи пациенту медицинской организации необходим доступ к

историческим данным о пациенте. Также, существует потребность в обмене медицинскими данными между организациями. Для преодоления барьеров, связанных с интеграцией и обменом данных, необходимо обеспечить семантическую интероперабельность данных. Технологиями семантической интероперабельности являются стандарты обмена медицинскими данными и стандартные терминологические системы. Использование алгоритмов машинного обучения открывает доступ к новым данным и знаниям, обеспечивая тем самым полноту медицинской информации о пациенте.

На рисунке 1 представлена иерархия критериев преемственной и персонализированной медицины в информационном контексте.

Для обеспечения технической и семантической интероперабельности медицинских данных разработаны и применяются международные стандарты обмена данными (openEHR, ISO13606, ИЬ7 v2 и v3, ИЬ7 FHIR), а также международные терминологические системы (SNOMED СТ, LOINC, МКБ-10). Среди стандартов обмена данными в России наиболее перспективным считается молодой стандарт ИЬ7 FHIR (2014 год). Стандарт определяет эталонную логическую модель данных, т. е. состав и структуру медицинских и

Рисунок 1. Критерии преемственной и персонализированной медицины в

информационном контексте

административных документов, передаваемых в формате сообщений, а также возможные типы передаваемых данных.

Шаблоны медицинских документов внутри эталонной модели FHIR называются ресурсами. Последняя версия R4 FHIR содержит 146 ресурсов. Примерами ресурсов FHIR являются AllergyIntolerance (информация об аллергических реакциях пациента и непереносимостях), FamilyMemberHistory (семейный анамнез), Observation (лабораторные исследования) и др.

HL7 FHIR предполагает возможность использования международных номенклатур для обеспечения семантической интерпретации данных. Наиболее обширной медицинской номенклатурой является терминологическая система SNOMED CT. Использование ресурсов FHIR для организации структуры медицинских документов обеспечивает техническую интероперабельность медицинских данных; использование номенклатуры SNOMED CT обеспечивает семантическую интероперабельность медицинских данных. Также в первой главе приведен обзор методов оценки сопоставимости моделей данных различных систем с международными стандартами, а также обзор методов оценки сопоставимости терминологических справочников с международными номенклатурами. Таким образом, рассмотрены первые два критерия преемственности и персонализации медицинской помощи.

Для критерия структурированности медицинских данных выполнен обзор интеллектуальных методов анализа и обработки текстов на естественном языке. Решаются задачи классификации, а также извлечения знаний из неструктурированных медицинских текстов. Извлечение структурированных данных и знаний из медицинских текстов позволяет увеличить полноту признаков моделей медицинских рисков для прогнозирования потребности в помощи. Для задач с небольшими наборами данных распространены простые классификаторы такие как логистическая регрессия, метод опорных векторов, деревья принятия решений и др. Важную роль играет предобработка текстов. Также проведен обзор работ по оценке влияния полноты признаков на предсказательную способность

моделей медицинских рисков. Таким образом, рассмотрены третий и четвертый критерии преемственности и персонализации медицинской помощи.

В информатике и компьютерной лингвистике онтология - это формализация некоторой области знаний с помощью концептуальной схемы. Онтологии классифицируют по типам:

1. Онтологии верхнего уровня - описывают наиболее общие понятия. Примером такой онтологии может служить коммерческий проект CYC.

2. Онтологии предметной области - стандарты, которые используются в экспертном сообществе для совместного аннотирования и использования данных. Примерами таких онтологий служат медицинский стандарт SNOMED CT и семантическая сеть унифицированного медицинского языка Unified Médical Language System (UMLS).

3. Онтологии, ориентированные на задачу - онтологии, которые используются конкретной программой для реализации ПО; отражают специфику приложения. Медицинский стандарт FHIR также представим в виде онтологии, которая решает задачу обеспечения семантической интероперабельности медицинских данных.

Применение онтологий обладает рядом преимуществ:

1. Четкое определение и понимание предметной области и ее отношений.

2. Повторное использование данных.

3. Возможность работы с неточно определенными данными.

4. Машиночитаемость и интерпретируемость.

5. Облегчает обмен и обеспечивает интероперабельность систем внутри предметной области.

Предметные медицинские онтологии на английском языке можно найти на BioPortal. На портале хранится база из 910 онтологий, которые содержат 13 492 981 класс (на момент обращения 13.09.2021). База принадлежит Стэнфордскому университету. Онтологии предполагают хранение и повторное использование знаний. Также проект Open Biological Ontologies (OBO) имеет базу медицинских онтологий и фокусируется на стандартизации и интеграции

медицинских знаний. Онтологии и тезаурусы UMLS сконцентрированы на координации процессов внутри медицинского учреждения. Онтология Medical Subject Headings (MeSH) предназначена для индексации данных, часто используется для обработки медицинских документов, так же, как и онтология SNOMED CT. Поскольку рабочий язык вышеперечисленных проектов и онтологий английский, их применение для русскоязычных данных затруднено. Среди русскоязычных источников и баз знаний можно выделить Международную Классификацию Болезней 10 пересмотра, а также набор классификаторов и кодификаторов реестра справочников НСИ Министерства Здравоохранения.

Одним из самых распространенных редакторов для онтологий является Protégé. Данный редактор позволяет создавать онтологии и сохранять их в большом количестве форматов, включая rdf и owl.

Медицинский стандарт FHIR предполагает возможность хранения локальных терминологических медицинских онтологий и формирования стандартизованных баз знаний посредством ряда ресурсов: CodeSystem, ValueSet, ConceptMap, NamingSystem и TermmologyCapabilities. CodeSystem декларирует существование и описывает систему кодов или дополнений к системе кодов и их ключевые свойства, а также, может определять содержимое этой системы. Ресурс также известен как онтология или терминология. ValueSet определяет набор кодов, взятых из одной или нескольких систем кодов, предназначенных для использования в определенном контексте. ConceptMap определяет взаимосвязи одного набора концепций к одному или нескольким другим концепциям. NamingSystem - пространство имен, которое содержит уникальные символы для идентификации концепций, людей, устройств и т.д. Определяет конкретную систему кодов или систему идентификаторов, чтобы другие системы могли найти и понять идентификатор. Ресурс TermmologyCapabilities определяет параметры терминологического сервера для описания того, как работает базовая служба терминологии в медицинской системе.

Во второй главе рассмотрен информационный процесс оценки медицинских рисков. Информационный процесс оценки медицинских рисков представлен на рисунке 2.

Рисунок 2. Информационный процесс оценки медицинских рисков

Моделирование медицинских рисков начинается с постановки задачи моделирования и требует участия специалиста предметной области. На первом этапе формулируется медицинская задача, формируется список необходимых входных и целевых параметров для пациентов. Набор данных, доступный для моделирования медицинских рисков, может быть расширен на втором этапе путем интеграции медицинских данных. Интеграция медицинских данных подразумевает два уровня: интеграцию на уровне МИС и интеграцию структурированных и текстовых данных.

Наиболее эффективный способ обеспечить интеграцию данных на уровне МИС - использовать международные стандарты обмена данными, а также международные терминологические системы. Использование стандартов обмена данными упрощает взаимодействие медицинских организаций в случае, если внутри сети находятся два и более учреждений. Таким образом, нивелируется эффект комбинаторного взрыва (экспоненциальный рост необходимого числа

интерфейсов для взаимодействия между участниками сети). Использование международных терминологических стандартов обеспечивает понимание и интерпретацию переданных данных внутри принимающей организации. Интеграция структурированных и текстовых медицинских данных требует применения методов обработки естественного языка и машинного обучения.

Третий этап предполагает предобработку и анализ полученного интегрированного набора данных. На четвертом этапе строится модель медицинских рисков.

В процессе интеграции медицинских данных могут возникать потери данных на этапе передачи и сопоставления логических моделей данных различных МИС, на этапе сопоставления терминологических систем, на этапе структурирования медицинских текстов. В рамках данной работы предполагается, что полнота медицинских данных, доступных для модели медицинских рисков влияет на ее предсказательную способность. В связи с этим в информационный процесс оценки медицинских рисков включены блоки оценки влияния степени структурированности данных на предсказательную способность модели медицинских рисков. Производится оценка потерь данных на всех этапах процесса, начиная от выгрузки данных из МИС, и заканчивая моделью медицинских рисков:

1. Потеря данных при сопоставлении логических моделей данных МИС и международного стандарта обмена данными FHIR - оценка технической интероперабельности данных. Оценка производится как в случае передачи структурированных данных, так и медицинских текстов. Оценка производится для принятия решения о целесообразности передачи данных из одной системы в другую.

2. Потеря данных при сопоставлении терминологий данной МИС с международной терминологической системой SNOMED СТ. Оценка производится как в случае передачи структурированных данных, так и медицинских текстов. Оценка

производится для принятия решения об используемой терминологической системе.

3. Потеря данных в процессе структурирования медицинских текстов. Оценка производится в случае передачи медицинских текстов. Оценка производится с целью анализа пропусков в данных, а также наличия необходимых для моделирования признаков.

4. Оценка влияния полноты интегрированных данных на показатели модели медицинских рисков. На основании данной оценки делаются выводы о степени структурированности интегрированных данных, а также о ее влиянии на показатели модели.

Описаны методика структурирования медицинских текстов с использованием международных стандартов и номенклатур, оценка влияния степени структурированности медицинских данных на предсказательную способность модели медицинских рисков и модель медицинских рисков на основе интегрированных данных.

Схема метода структурирования медицинских текстов с использованием международных медицинских стандартов и номенклатур представлена на рисунке 3. На рисунке зеленым цветом обозначены блоки, в которых использованы готовые решения, красным - блоки, которые были реализованы в рамках данного исследования с помощью пользовательских скриптов, белым - промежуточные результаты этапов.

Методика состоит из нескольких этапов. На этапе предобработки медицинский текст очищается от лишних символов, пунктуации, тэгов базы

данных. Векторизация текста производится с использованием модели мешка слов. На этом же этапе формируется набор меток FHIR согласно типу документа для дальнейшей фильтрации и определения типа ресурса FHIR, а также последующей стандартизации документа. На основании этих меток производится разметка данных.

На этапе фильтрации и извлечения производится формирование моделей для фильтрации и категоризации документов, а также извлечения терминов согласно спецификации выделенного ресурса FHIR. Например, тип документа -AllergyIntolerance (аллергоанамнез), категория - пищевая аллергия. Формируются списки ключевых слов по категориям документов.

Извлечение терминов производится на основе базы правил и сфомированных словарей. Правила генерируются с помощью встроенного механизма генерации правил yargy парсера.

На этапе присвоения терминологических кодов производится сопоставление кодов SNOMED СТ извлеченным терминам, а также полуавтоматическое

формирование терминологической онтологии с мапингами на SNOMED CT для обеспечения семантической интероперабельности знаний. Для формирования онтологии помимо текстовых документов используются внешние справочники согласно типу и категории документа.

На этапе стандартизации формируется интегрированный набор данных в формате ресурсов FHIR согласно выделенному ресурсу и спецификации этого ресурса с присвоением кодов SNOMED CT. В дальнейшем извлеченные данные направляются в модель медицинских рисков, а также формируется онтология для хранения структурированных данных.

Формально онтологию можно определить как:

O = {C, A, R, D},

где C - набор классов, описывающий понятия предметной области; А - набор атрибутов, описывающих особенности понятий и отношений; R - набор отношений между классами; D - набор экземпляров класса.

Отношения в онтологии определяют как различные объекты в онтологии связаны друг с другом. Основной набор отношений между классами:

R = {RAS, RIA},

Ras - ассоциативное (структурное) отношение, или отношение «часть-целое», RIA - родовидовые отношения (обобщение).

В качестве классов могут выступать атрибуты или ресурсы стандарта FHiR, концепты стандарта SNOMED CT, а также термины, извлеченные из текстовых записей. Онтологическая структура обеспечивает связь различных сущностей из международных стандартов и текстовых записей, обеспечивая интероперабельность медицинских знаний. Атрибутами классов являются атрибуты соответствующих элементов ресурса FHiR, также через атрибуты указывается наличие и коды мапингов соответствующих концептов на терминологическую систему SNOMED CT.

При моделировании предметной области часто возникает необходимость создания специфических отношений между классами для хранения специфических предметной области фактов.

Для создания онтологии была использована методология Ontology Development 101. Онтология является частью метода структурирования медицинских текстовых записей и создана с целью совместного использования и обеспечения общего понимания структуры текстовой информации, а также возможности повторного использования. За основу формирования онтологии взяты международные медицинские стандарты FHIR и SNOMED CT. Область онтологии - представление структуры медицинского текстового документа. Разработанная онтология может быть использована для аннотации и извлечения терминов и знаний из медицинских текстовых документов.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Иванова Юлия Дмитриевна, 2021 год

Литература

Lcnivtccva I.D.. Kopanitsa G. Evaluating manual mappings of Russian proprietary formats and terminologies to FHIR // Methods of Information in Medicinc. 2019. V. 58. N 4-5. P. 151-159. doi: 10.1055/s-0040-1702154

Fung K.W., Xu J., Roscnbloom S.T., Campbell J.R. Using SNOMED CT-encoded problems to improve 1CD-10-CM coding—A randomized controlled experiment // International Journal of Medical Informatics. 2019. V. 126. P. 19-25. doi: 10.1016/j.ijmcdinf.2019.03.002 Ficbcck J., Gictzclt M., Bailout S., Christmann M., Fradziak M., Laser H., Ruppel J., Schonfeld N.. Teppner S., Gerbel S. Implementing LOINC: Current status and ongoing work at the Hannover Mcdical School//Studies in Health Technology and Informatics. 2019. V. 258. P. 247-248. doi: 10.3233/978-1-61499-959-1-247 Mascia C, Uva P., Leo S., ZanettiG. OpenEHR modeling for genomics in clinical practice// International Journal of Mcdical Informatics. 2018. V. 120. P. 147-156. doi: 10.1016/j.ijmcdinf.2018.10.007 Santos M.R., Bax M.P., Kalra D. Building a logical EHR architecture based on ISO 13606 standard and semantic web technologies // Studies in Health Technology and Informatics. 2010. V. 160. N I. P. 161-165. doi: 10.3233/978-1-60750-588-4-161 Ulrich H., Kock A.-K., Duhm-Harbcck P., Habcrmann J.K., Ingenerf J. Metadata repository for improved data sharing and reuse based on HL7 FHIR// Studies in Health Technology and Informatics.

2017. V. 228. P. 162-166. doi: 10.3233/978-1-61499-678-1-162 Hong N.. Wen A., Mojarad Ml, Sohn S., Liu H., Jiang G. Standardizing heterogeneous annotation corpora using HL7 FHIR for facilitating their reuse and integration in clinical NLP//AMIA Annual Symposium Proceedings. American Mcdical Informatics Association.

2018. V. 2018. P. 574-583.

Dudchenko A., Dudchenko P., Ganzinger M., Kopanitsa G. Extraction from medical records // Studies in Health Technology and Informatics.

2019. V. 261. P. 62-67. doi: 10.3233/978-1-61499-975-1-62 Olcynik M., Kugic A., KasaC Z., Krcuzthaler M. Evaluating shallow and deep learning strategics for the 2018 n2c2 shared task on clinical text classification // Journal of the American Mcdical Informatics Association. 2019. V. 26. N 11. P. 1247-1254. doi: 10.1093/jamia/oczl49

References

Lcnivtccva I.D., Kopanitsa G. Evaluating manual mappings of Russian proprietary formats and terminologies to FHIR. Methods of Information in Medicine, 2019, vol. 58, no. 4-5, pp. 151 159. doi: 10.1055/S-0040-1702154

Fung K.W., Xu J., Roscnbloom S.T., Campbell J.R. Using SNOMED CT-encoded problems to improve ICD-10-CM coding - A randomized controlled experiment. International Journal of Medical Informatics, 2019, vol. 126, pp. 19-25. doi: 10.1016/j.ijmedinf.2019.03.002 Ficbcck J., Gictzclt M., Bailout S., Christmann M., Fradziak M., Laser H., Ruppel J., Schonfeld N.. Teppner S., Gerbel S. Implementing LOINC: Current status and ongoing work at the Hannover Mcdical School. Studies in Health Technology andlnformatics,20\9,\ol 258, pp. 247-248. doi: 10.3233/978-1-61499-959-1-247 Mascia C., Uva P., Leo S., ZanettiG. OpenEHR modeling for genomics in clinical practice. InternationaI Journal of Medical Informatics, 2018, vol. 120, pp. 147-156. doi: 10.10l6/j.ijmcdinf.2018.10.007 Santos M.R., Bax M.P., Kalra D. Building a logical EHR architecture based on ISO 13606 standard and semantic web technologies. Studies in Health Technology and Informatics, 2010, vol. 160.no. l.pp. 161165. doi: 10.3233/978-1-60750-588-4-161

Ulrich H„ Kock A.-K., Duhm-Harbcck P., Habcrmann J.K., Ingenerf J. Metadata repository for improved data sharing and reuse based on HL7 FHIR. Studies in Health Technology and Informatics,

2017, vol. 228, pp. 162 166. doi: 10.3233/978-1-61499-678-1-162 Hong N.. Wen A., Mojarad M R., Sohn S., Liu H., Jiang G. Standardizing heterogeneous annotation corpora using HL7 FHIR for facilitating their reuse and integration in clinical NLP. AMIA Annual S\7nposium Proceedings. American Medical Informatics Association,

2018, vol. 2018, pp. 574-583.

Dudchenko A., Dudchenko P., Ganzinger M., Kopanitsa G. Extraction from mcdical records. Studies in Health Technology and Informatics,

2019, vol. 261, pp. 62-67. doi: 10.3233/978-1-61499-975-1-62 Olcynik M., Kugic A., Kasai Z., Krcuzthaler M. Evaluating shallow and deep learning strategics for the 2018 n2c2 shared task on clinical text classification. Journal of the American Medical Informatics Association, 2019, vol.26, no. 11, pp. 1247-1254. doi: 10.1093/jamia/oczl49

Applicability of Machine Learning Methods to MultiLabel Medical Text Classification

Iuliia Lenivtceva<:r), Evgenia Slasten, Mariya Kashina, Georgy Kopaiiitsa

ITMO University, 49 Kronverkskiy prospect, 197101 Saint Petersburg, Russian Federation

lenivezzkiggmail.com, slastenevgenia@gmail.com, k.mariyal997@gmail.com, georgy.kopanitsaSgmail.com

Abstract. Structuring medical text using international standards allows to improve interoperability and quality of predictive modelling. Medical text classification task facilitates information extraction. In this work we investigate the applicability of several machine learning models and classifier chains (CC) to medical unstructured text classification The experimental study was performed on a corpus of 11671 manually labeled Russian medical notes. The results showed that using CC strategy allows to improve classification performance. Ensemble of classifier chains based on lineal' SVC showed the best result: 0.924 micro F-measure, 0.872 micro precision and 0.927 micro recall.

Keywords: multi-label learning, medical text classification, interoperability, FHIR. data stnicUiring

1 Introduction

Medical data standardization is crucial in terms of data exchange and integration as data formats vary greatly from one healthcare provider to another. Many intemationa 1 standards for terminologies (SNOMED CT [1], LOINC [2]) and data exchange (openEHR [3], IS013606 [4], HL7 standards [5]) are successfully implemented and perform well in practice. The most developing and perspective standard for medical information today is FHIR-HL7 [6].

The data are usually stored in structured, semi-structured or unstructured form in medical databases. Structured and semi-structured data can be mapped to standards with minimum losses of information [7]. However, a big part of Electronic Health Record (EHR) is in free text [8]. Unstructured medical records are more complicated to process, however, they usually contain detailed information on patients which is valuable in modeling and research [9].

The extraction of useful knowledge becomes more challenging as medical databases become more available and contain a wide range of texts [10]. Sorting documents and searching concepts and entities in texts manually is time-consuming. Text classification is an important task which aims to sort documents or notes according to the predefined classes [11] which facilitates entities extraction such as symptoms [12], drug names

[13], dosage [14], drug reactions [15], etc. The task of information extraction (IE) is domain specific and requires considering its specificity in practice. Thus, high performance in IE can be achieved through free text classification to a particular domain [16].

The developed applications and methods for processing free texts are language specific [17]. Russian medical free text processing is challenging mostly because there is no open source medical corpora [18]. Moreover, each medical team develops their own storage format, which makes it difficult to standardize, exchange and integrate Russian medical data.

Our long-term goal is to develop methods for data extraction from Russian unstructured clinical notes and mapping these data on FHIR for better interoperability and personalized medicine. The purpose of the article is to investigate the applicability of machine learning algorithms to classify Russian unstructured and semi-structured allergy anamnesis to facilitate entities extraction.

2 Related work

Studies on text classification using machine learning methods are widely represented in literature.

A. Jain et al [16] describes classifiers based on Multinomial Naive Bayes (MNB), k-Nearest Neighbors (k-NN) and Support Vector Machine (SVM) as the most popular models for multi-label classification. Logistic regression (LR) is also a widespread model for the task [19].

Binary relevance (BR) approach suggests to train N independent binary classifiers for multi-label classification with N labels. This approach has a linear complexity; however, it does not consider interdependences between labels [19]. Classifier Chains (CC) is a popular and representative algorithm for multi-label classification. CC suggests to link N binary classifiers in a chain with random ordering as it shows better predictive performance of the classification. The set of predicted labels is treated as extra features for the next classifiers in a chain. CC and ensembles [20] are known to solve over-fitting problem. CC are more computationally demanding than simple binary classifiers [21].

The performance metrics of multi-label classifiers applied to medical text are represented in table 1. The literature review showed that there is no a single concept on which metrics to use when evaluating multi-label classifiers.

Table 1. Performance of medical multi-label classifiers

Classifier #labels Data and tools Fl PRC REC Citation

micro macro micro macro micro macro

BR 0.78 0.84 0.80 R-W.

CC 10 Real data 0.79 0.89 0.75 Zhao et al [22]

Binary

CC

kNN

Open 45 dataset Medical

0.38 0.39

J. Read et al [23]

3.3 Preprocessing

The steps of preprocessing are:

1. Clean medical notes from symbols and extra spaces. Full stops are left as they play an important role in sentence tokenization.

2. Reduce notes to minimize noise during classification as the original note might contain up to 9239 words. Only 2 meaningful sentences before and after regular expression («ajinepnia», «(He)nepeHociiMocn>») are left.

3. Correct syntactic, case and spaces errors using regular expressions.

4. Dictionary-based spelling correction with Levenshtein distance calculation.

5. Tokenize and normalize words.

6. Train-test split, training set contains 7819 notes and test set - 3852.

7. Vectorize both train and test sets using Bag of Words (BOW) representation. Hie dictionary size for BOW is 8000 words.

3.4 Classification

We applied four shallow machine learning models: MNB, LR, SYM. k-NN and two ensembles of classifier chains: ECCLR, ECCSVM. The optimal parameters of the shallow models were adjusted by grid search. Optimal parameters of the models are introduced in table 3.

Table 3. Parameters of classifiers

Model Parameters

Shallow classifiers

MNB Alpha: 0.5

LR Solver: saga, penalty: 12. C=3. max itei-4000

Linear SMvI Loss: squared hinge, penalty: 12. max itet=4000. C=1.3684

k-NN Algorithm: brute, n neighbors=l, weights: uniform

Ensembles of Classifier Chains

ECCLR Ensemble of 10 logistic regression classifier chains with ran-

dom ordering of labels

ECCS\"M Ensemble of 10 lineal' SMV1 classifier chains with random

ordering of labels

The pipeline was built using python version 3.7.1. For lexical normalization «py-morphy2» was used. All the preprocessing steps were realized with custom skripts. «scikit-learn» package was used to implement supervised learning algorithms, evaluate models and to perform t-SNE. «Bokeh», «matplotlib» and «plotly» were used for visualization.

Word Count and Importance of Label Keywords

Label: N

Fig. 7. Top 10 positive keywords for label N

5 Discussion

Regarding previous studies on multi-label medical text classification many authors use applications for entities extraction and algorithms implementation (table 1). However, there is no open source applications for medical purposes developed for the Russian case such as MetaMap [30], for instance. Thus, all the steps were realized manually and with custom scripts.

In the medical text multi-label classification task with limited labeled data we concentrated on improving F-measure as it enforces a better balance between performing on relevant and irrelevant labels and, thus, suitable for multi-label task evaluation [31]. Also, precision, recall and F-measure are not sensitive to classes imbalance.

Two of the proposed shallow classifiers LR and linear SVM performed well on real unstructured labeled data. Using CC strategy allowed to improve the results of basic classifiers and the best performance was shown by ensemble of classifier chains based on linear SVC. Classification report for this classifier (table 5) has shown that three most important labels for mapping AL, R and NN are well separated from each other and from the fourth class N. The fourth class showed lower performance which can be caused by the least number of labeled data in the corpus and the variety of topics covered in it.

Recall is higher than precision for all classifiers and for both averaging strategies. It means that classifiers are good at identifying classes and differentiating them from each other. The number of false negatives is low, which means that classifiers do not intend to lose important notes. This result is satisfying from the point of mapping task as it is important to find as many class representatives as possible.

The obtained result of 0.924 micro F-measure, 0.872 micro Precision and 0.927 micro Recall by ECCSVC outperformed almost all the represented in table 1 results. Y. Baghdadi et al [24] reported high overall performance of implemented classifiers and the data were previously standardized. W.-H. Weng et al [25] used additional tools for clinical text processing and information extraction. The closest task was solved by A. A. Argaw et al [10] in terms of real data manual labeling. All the obtained metrics of our ECCSVC are higher, however, the number of labels in the classification task is lower.

t-SNE representation shows that classes are well separated.

Fig. 4 shows 10 most important words associated with allergens and substances. The list of keywords for this task contain such entities as «intolerance» which indicates the presence of patient's intolerance in the text of anamnesis; «food» which is associated with the categoiy of allergy in the FHIR resource; medications such as «сопсог» which might be associated with a substance in the FHIR resource; number of vetbs indicating the presence of allergy such as «follow», «have». The words «intolerance» and «food» are also most frequent words of this class in a corpus.

Fig. 5 shows 10 most important words associated with clinical symptoms in FHIR resources and reactions. All the most frequent keywords of this class are symptoms.

Fig. 6 shows 10 most important words associated with the situation when no allergy was detected. This class keywords contain many negative words such as «по», «deny», «not complicated» and general purpose normalized words, which are usually met in calm allergy anamnesis: «calm», «be», «notice». The keywords of this group are not frequent hi a corpus because of low number of labeled notes for this class. Hie NN notes would be marked as «no allergy» and would not be considered during information extraction and mappings.

Fig. 7 shows 10 most important words associated with class N, which indicates that the exact note is not connected with allergy or intolerance. The most important and frequently met keyword in this class is «tolerate (переносить)». This word has one root with the word «intolerance (непереносимость)». Thus, this word frequent due to the initial mechanism of search. Other keywords represent different topics not connected with allergy and intolerance. Thus, the notes from this class would not be considered during information extraction and mappings.

6 Conclusion

In this study we investigated the applicability of several classifiers to the task of clinical free-text allergy anamnesis classification for filtering multi-topic data.

The research showed that LR linear SVC, ECCLR and ECCSVC perforated well and can be applied to the task of clinical free-text allergy anamnesis classification. The use of chaining strategy improved the performance of shallow classifiers.

In the future we plan to apply a model for Named Entity Recognition (NER) to extract named entities such as allergies and symptoms from medical free text and map them to FHIR. Also, we plan to develop a model to ICD-10 Russian codes and terms identification in medical free-text allergy anamnesis.

Acknowledgements. This work financially supported by the government of the Russian Federation through the ITMO fellowship and professorship program. This woik

was supported by a Russian Fund for Basic research 18-37-20002. This work is financially supported by National Center for Cognitive Research of ITMO University.

References

1. Fung KW. Xu J. Rosenbloom ST. Campbell JR (2019) Using SNOMED CT-encoded problems to improve ICD-10-CM coding—A randomized controlled experiment. Int J Med Inform 126:19-25. https://doi.org/10.1016 j.ijmediiif.2019.03.002

2. Fiebeck J. Gietzelt M. Bailout S, et al (2019) Implementing LOINC: Current staUis and ongoing work at the Hannover Medical School. In: Studies in Health Technology and Informatics. IOS Press, pp 247-248

3. Mascia C, Uva P. Leo S. Zanetti Q (2018) OpenEHR modeling for genomics in clinical practice. Int J Med Inform 120:147-156. https://doi.Org/10.1016/j.ijmedinf.2018.10.007

4. Santos MR. Bax MP. Kalra D (2010) Building a logical EHR architecture based on ISO 13606 standard and semantic web technologies. In: Studies in Health Technology and Informatics

5. Ulrich H. Kock AK. Duhm-Harbeck P. et al (2017) Metadata repository for improved data sharing and reuse based on HL7 FHIR In: SUidies ill Health Technology and Informatics

6. Hong N. Wen A, Mojarad MR. et al (2018) Standardizing Heterogeneous Annotation Corpora Using HL7 FHIR for Facilitating their Reuse and Integration in Clinical NLP. AMIA . Aiinu Symp proceedings AMIA Symp 2018:574-583

7. Lenivtseva Y. Kopanitsa G (2019) Investigation of Content Overlap in Proprietary Medical Mappings. SUid Health Technol Inform 258:41^15. https://doi.org/10.3233/978-l-61499-959-1-41

8. KaurR. Ginige JA (2019) Analysing Effectiveness of Multi-Label Classification in Clinical Coding. In: ACM International Conference Proceeding Series. Association for Computing Machinery

9. Wang Y. Wang L. Rastegar-Mojarad M. et al (2018) Clinical infoimation extraction applications: A literature review. J. Biomed. Inform 77:34-49

10. Alernu A. Hulth A, Megyesi B (2007) General -Purpose Text Categorization Applied to the Medical Domain Cornput Sei 16:

11. Onan A. Korukoglu S, Bulut H (2016) Ensemble of keyword extraction methods and classifiers in text classification. Expert Syst Appl 57:232-247. https://doi.Org/10.1016/j.eswa.2016.03.045

12. Metivier JP. Serrano L. Chamois T. et al (2015) Automatic symptom extraction from texts to enhance knowledge discovery on rare diseases. In: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Springer Verlag, pp 249-254

13. Levin MA, Krol M. Doshi AM, Reich DL (2007) Extraction and mapping of drug names from free text to a standardized nomenclature. AMIA Annu Symp Proc 438—442

14. Xu H, Jiang M. Oetjens M, et al (2011) Facilitating phaimacogenetic studies using electronic health records and natural-language processing: a case study of warfarin. J Am Med Informatics Assoc 18:387-391. https://doi.org/10.1136/ainiajnl-2011-000208

15. Wang X. Hripcsak G, Markatou M. Friedman C (2009) Active Computerized Phannacovigilance Using Natural Language Processing. Statistics, and Electronic Health

Records: A Feasibility Study. J Am Med Informatics Assoc 16:328-337. https://doi.org/10.1197/jamiaM3028

16. Jain A. Mandowara J (2016) Text Classification by Combining Text Classifiers to Improve the Efficiency of Classification. Int J Coinput Appl 6:2250-1797

17. Ali AR Ijaz M (2009) Urdu text classification. In: Proceedings of the 6th International Conference on Frontiers of Infonnation Technology. FIT '09

18. Toldova S, Lyashevskaya O. Bonch-Osmolovskaya A, Ionov M (2015) Evaluation for morphologically rich language: Russian NLP. In: Proceedings on the International Conference on Artificial Intelligence (ICAI). CSREA Press. Las Vegas, pp 300-306

19. Cheng W, Hüllermeier E (2009) Combining instance-based learning and logistic regression for multilabel classification. In: Machine Learning, pp 211-225

20. Taliir MA. Kittler J, Bouridane A (2012) Multilabel classification using heterogeneous ensemble of multi-label classifiers. Pattern Recognit Lett 33:513-523. https://doi.Org/10.1016/j.patrec.2011.10.019

21. Zhang ML. Zhou ZH (2014) A review on multi-label learning algorithms. ŒEE Trans. Knowl. Data Eng. 26:1819-1837

22. Zhao RW. Li OZ. Liu JM Wang X (2013) Clinical multi-label free text classification by exploiting disease label relation. In: Proceedings - 2013 ŒEE International Conference on Bioinfomiatics andBiomedicine. IEEE BIBM 2013. pp 311-315

23. Read J, Pfahringer B. Holmes G. Frank E (2009) Classifier chains for multi-label classification. In: Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinfonnatics). pp 254-269

24. Baghdadi Y. Bourrée A Robert A. et al (2019) Automatic classification of free-text medical causes from death certificates for reactive mortality surveillance in France. Int J Med Inform 131 :. https://doi.org/10.1016/j.ijmedinf.2019.06.022

25. Weng W-H. Wagholikar KB. McCray AT. et al (2017) Medical subdomain classification of clinical notes using a machine learning-based natural language processing approach. BMC Med Inform Decis Мак 17:155. https://doi.org/10.U86/sl2911-017-0556-8

26. Stephan Spat. Bnino Cadonna. Ivo Rakovac. Christian Gutl. Hubert Leitner. Günther Stark. Thomas R Pieber PB (2011) Multi-label Classification of Clinical Text Documents considering the Impact of Text Pre-processing and Training size. In: 23rd International Conference of the European Federation for Medical Informatics

27. Lita LY, Yu S. Niculescu S, Bi J (2008) Large Scale Diagnostic Code Classification for Medical Patient Records. IJCNLP 877-882

28. Baumel T. Nassour-Kassis J. Cohen R. et al (2017) Multi-Label Classification of Patient Notes a Case Study on ICD Code Assignment. In: AAAI Conference on Artificial Intelligence, pp 409-416

29. van der Maaten L. J. P., & Hinton GE (2008) Visualizing High-Dimensional Data Using t-SNE. J Mach Leam Res 9:2579-2605

30. Aronson AR Lang FM (2010) An overview of MetaMap: Historical perspective and recent advances. J Am Med Informatics Assoc 17:229-236. https://doi.org/10.1136/jamia.2009.002733

31. Krzysztof Dembczynski. Arkadiusz Jachnik. Wojciech Kotlowski, et al (2013) Optimizing the F-measure in multi-label classification: plug-in rule approach versus sttuctured loss minimization. In: ICML'13: Proceedings of the 30th International Conference on International Conference on Machine Learning, pp 1130-1138

170 pHealth 2020

B Blobel etal. (Eds.) © 2020 The authors and ¡OS Press. This article is published online with Open Access by ¡OS Pivss and distributed under the terms of the Creative Commons Attribution Non-Commercial License 4.0 (CC BY-NC 4.0).

doi: 10.3233/SHTI200634

Category of Allergy Identification from Free-Text Medical Records for Data Interoperability

Iuliia LENIVTCEVA"Mariya KASHINA", Georgy KOPANITSA" ''ITMO University, Saint Petersburg, Russian Federation

Abstract. The use of different data formats complicates the standardization and exchange of valuable medical data. Moreover, a big part of medical data is stored as unstructured medical records that arc complicated to process. In this work wc solve the task of unstructured allergy anamnesis categorization according to categories provided by FHIR. Wc applied two stage classification model with manually labeled records. On the first stage the model filters records with information about allergies and on the second stage it categorizes each record. The model showed high performance. The development of this approach will ensure secondary use of data and interoperability.

Keywords. Medical data standardization, FHIR, allergy and intolerance, NLP, interoperability

Introduction

Integrated care requires to enable high level communication and data exchange to ensure a high-quality medical care [1]. The main challenge occurs when there is a need to exchange medical data between multiple agents providing services to the same patient due to the use of different data formats. Many international standards for terminology such as SNOMED CT [2] and LOINC [3]; logical data models such as openEHR [4], ISO 13606 [5], HL7 standards [6] and detailed clinical models such as ISO 13972 [7] were developed to overcome this problem and ensure interoperability. One of the most prospective standards for data exchange is HL7 FHIR [8].

It is widely accepted that about 80% of medical data are stored as unstructured medical notes which are complicated to process compared to structured information [9]. However, these notes contain useful information for modelling and research [10]. Manual information filtering and extraction is time-consuming. Thus, this task requires the use ofNatural Language Processing (NLP) techniques.

Information extraction (IE) and free-text classification are language and domain specific tasks. Neural networks (NN) show high performance for medical text classification. Dudchenko et al [ 11] used deep classifiers to discover diagnosis from freetext medical notes in Russian and German and achieved over 95% accuracy. The main limitation in NN applications is the need for a big dataset. Graph-based classification by

' Corresponding Author, Iuliia Lcnivtccva, ITMO University, 49 Kronverkskiy prospcct, 197101 Saint Petersburg, Russian Federation; E-mail: lcnivczzki@gmail.com.

Shanavas et al [12] showed 0.86 F-score and almost 0.87 Precision and recall. Shallow classifiers also perform well for text classification. Oleynik et al [13] reported 0.80 F-score by Logistic Regression (LR) and 0.81 by Support Vector Machines (SVM) in patient-phenotyping. Weng et al [14] SVM showed 0.93 F-score in subdomain medical classification. Tafti [15] reported 0.82 Precision and Recall of LR in biomedical sentence classification.

The aim of this work is to develop a method for allergy category identification from Russian free-text allergy anamnesis to facilitate medical data standardization and interoperability.

I. Methods

Free-text allergy anamnesis can be mapped to Allergylntolerance which is one of the FHIR Summary resources. It includes information about undesired reactions on different substances. The task of this work is to identify the category of allergy from the record. Figure 1 represents four categories of allergies introduced in FHIR.

Name

IQ Allergylntolerance

-ij) identifier -Cj) clinicalStatus Q veriflcationStatus

i_l type -■ i category

±_l criticality code

Food

Medication

Environment

Biologic

Figure 1. Categories of allergy in FHIR

Biologic allergy is not represented in the dataset; thus, the study is limited to food, medication and environment categories of allergy.

Russian medical records of more than 250 thousand patients were provided by the Almazov National Medical Research Centre (St. Petersburg, Russia). The personal information of patients was discarded. The records contain medical history fragments and anamnesis of life including allergy anamnesis. Table 1 shows the examples of records and labelling. Table 1. Records examples and labeling

Record Allergy Food Environment Medication

Allergy anamnesis. No allcrgic reaction noted. X - - -

Allergy to medications penicillin urticaria; ✓ x ✓

chocolatc, eggs.

Dust and weed pollen allergy reaction, seasonal X ✓ X

sensitivity.

Allergic bronchial asthma of unknown origin. V X X X

Intolerance to alcoholic drinks with allergic skin V X X

rush and edema.

172 I. Lenivtceva et at. / Category of Allergy Identification from Free-Text Medical Records To get relevant records:

• We filtered patients' records with allergy and intolerances using keywords and regular expressions («allergy», «(intolerance»)

• Cut the records with a one-sentence window from a keyword to reduce noise

• Removed full duplicates and similar patterns in records.

After these steps we obtained 12590 medical records. All these records were labeled manually by two experts. In case of disagreement the decision was made by consensus. Preprocessing:

• Clean the records from extra symbols and extra spaces.

• Correct syntactic, case and spaces errors using regular expressions where possible

• Correct space and spelling errors using «symspellpy» (dictionary based)

• Tokenize and normalize words with «nltk» and «pymorphy2»

• Represent text as Bag of Words (BOW).

The approach on allergy category identification consists of two stages.

• Binary classifier identifying if a record is related to allergy or intolerance.

• Three binary classifiers identifying if a record is related to one of three allergy categories.

For both classifiers we used LR with C=3, penalty='12', solver='saga', max_iter=4000, multiclass-ovr' from «scikit-learn» implementation. F-Score, Precision and Recall were used to evaluate classifiers.

2. Results

Figure 2a illustrates the number ofrecords per classes in a labeled dataset. On the second stage each record can be labeled with several categories. Some records do not report the allergen nature and have no category. We removed records with no category and, thus, the dataset for allergy categorization contains 9140 records. Figure 2b illustrates the distribution of categories number per record. A patient is reported to have all three types ofallergy if a record is assigned with three categories. For instance, 7741 records in the

Number of records in a labeled dataset Number of categories per record

742 92

2708 r\

() 1307 fe ■

^^^^^^^ 9882 7741

■ allergy ■ not allergy ■ 1 ■ 2 ■ 0 «3

a) b)

Figure 2. Data distribution in the labeled dataset a) number of records in a labeled dataset, b) niunbcr of categories labeled per record (from 0 to 3)

dataset are labelled with one category and 1307 records contain information about two different allergy categories (food and medication or food and environment).

Medication allergy. Number of records food allergy. Number of records Environment allergy. Number of records

1394^1

■ Medication ■ Other a food , other ■ Environment • Other

Figure 3. Number of records in categories Table 2 represents the performance of the applied classifiers.

Table 2. Performance of the classifiers

Classifier F-score Precision Recall

Relation to allergy 0.945 0.923 0.945

Food category 0.953 0.932 0.953

Environment category 0.932 0.902 0.932

Medication category 0.962 0.944 0.962

After classification we obtained lists of keywords for each category of allergy. Top keywords are shown in Table 3.

Table 3. Unigrams indicating category of allergy in a record

Category'

Food

Medication Environment

Top unigrams

Strawberry, food, chocolate, lactose, citrus, product, milk, honey, fish, red, alcohol, egg, nuts

Medication, novocaine, penicillin, polyallergy, antibiotic, bicillin, iodine, drug, medicine, analgin, aspirin, diphenhydramine

House, plaster, wool, flowering, cold, dust, pollen, metals, bite, sun, paint, insect

3. Discussion

Figure 2a shows that more than 20% of records are not related to allergy after filtering by keywords and regular expressions. It causes the need in additional classifier to filter the records in the dataset with imbalanced classes. We chose F-score, Precision and Recall metrics as they are not sensitive to classes imbalance.

We developed one filtering classifier and three classifiers for free-text allergy anamnesis categorization. According to figure 2b the number of categories assigned to a record differs and depends on the number of allergen types mentioned in a record. There are records with no category. Typically, these records specify only a reaction, allergy related diagnosis or reports the unknown allergen. We did not include these records in the dataset for categorization. Figure 3 shows that most records (more than 75%) are

related to allergies on medications, only 15% are related to food allergies and 22% are related to environment allergies.

The applied models perform well, however, misclassifications take place. Misclassification is a situation when the classifier labels a record with wrong category. For instance, the record "Pollen allergy, no medication allergy " would be classified with no allergy tag because of negation. Many misclassifications are connected with specific sentence structure of medical records. One record can report that a patient has food allergy but does not have medication allergy. Thus, the performance of models can be improved by applying classifiers to a meaningful segment ofa sentence.

Table 3 contains lists of top important keywords for each allergy category after classification. Mostly each list contains allergens specified in the records according to category. These lists are helpful for terminology mappings (SNOMED CT) and automatic codes assignment.

The performance of the approach (table 2) is close to performance of deep classifiers such as over 95% accuracy in [ 11 ]. The developed classifiers outperform most shallow classifiers. Ye et al [16] represented 0.8 Recall and close to 0.9 Precision for emergence reports classification. Weng et al in [14] represented a shallow classifier which showed 0.87 F-score which is lower than the results of the suggested approach. However, many researchers use concepts databases, such as UMLS, which improves the performance of the classification. Thus, the classifier with UMLS concepts in [14] showed 0.93 F-score. These databases have no Russian mappings and are not available for classification. However, the use of international terminologies and identifiers is the essential part of semantic interoperability.

The suggested solutions on standardizing free-text medical data should have impact in practice. To achieve full interoperability and prepare data for integration we plan to develop a model for standard terminology codes assignment such as SNOMED CT and ICD-10. As there is no Russian version of SNOMED CT this task requires its translation. Also, data extraction tools will be developed to specify substances and undesired reactions.

4. Conclusions

In this work we developed and evaluated a method for automated category of allergy identification from Russian free-text medical records. The two-stage method performed well and is comparable with state-of-the-art results.

This classification approach is a part of Russian free-text standardization module. The standardized data then can be used to construct predictive and automated therapy appointment models providing recommendations to clinicians. The development of this approach will ensure secondary use of data and interoperability of unstructured medical records.

Acknowledgments

This work financially supported by the government of the Russian Federation through the ITMO fellowship and professorship program. This work was supported by a Russian Fund for Basic research 18-37-20002. This work is financially supported by National Center for Cognitive Research oflTMO University.

/. Lenivtceva et al. / Category of Allergy Identification from Free-Text Medical Records 175 References

[1] Douglas HE, Gcorgiou A, Tariq A, Prgomet M, Warland A, Armour P, Westbrook JL. Implementing information and communication technology to support communityaged care service integration: Lessons from an Australian aged care provider. Int J Integr Care .2017 Apr 10;17(1):9. doi: 10.5334/ijic.2437.

[2] Fung KW, Xu J, Rosenbloom ST, Campbell JR. Using SNOMED CT-encoded problems to improve 1CD-10-CM coding—A randomized controlled experiment. Int J Med Inform. 2019;126:19-25. doi: 10.1016/j .ijmedinf.2019.03.002.

[3] Fiebeck J, Gietzclt M, Bailout S, et al. Implementing LOINC: Current status and ongoing work at the Hannover Medical School. Stud. Health Technol. Inform. 2019;267:247-248. doi: 10.3233/978-1-61499959-1-247.

[41 Mascia C, Uva P, Leo S, Zanetti G. OpenEHR modeling for genomics in clinical practice. Int. J. Med. Inform. 2018;120:147 156. doi: 10.1016/j.ijmedinf.2018.10.007.

[5] Santos MR, Bax MP, Kalra D. Building a logical EHR architecture based on ISO 13606 standard and semantic web technologies. Stud. Health Technol. Inform. 2010;160(Pt 1):161-165. doi: 10.3233/978-160750-588-4-161.

[6] Ulrich H, Kock AK, Duhm-Harbeck P, HabermannJK, Ingenerf J. Metadata repository for improved data sharing and reuse based on HL7 FHIR. Stud Health Technol Inform. 2017;228:162-166. doi: 10.3233/978-1-61499-678-1-162.

[7] Huff SM, R.A. Rocha RA, J.F. Coyle JF, S.P. Narus SP. Integrating detailed clinical models into application development tools. Stud Health Technol Inform. 2004;107:1058-1062. doi: 10.3233/978-160750-949-3-1058.

[8] Hong N, Wen A, Mojarad MR, Sohn S, Liu R Jiang G. Standardizing Heterogeneous Annotation Corpora Using HL7 FHIR for Facilitating their Reuse and Integration in Clinical NLP. AM1A Annu. Symp. Proceedings. AMIA Symp. 2018;2018:574-583.

[9] Lenivtceva ID, G. Kopanitsa G. Evaluating Manual Mappings of Russian Proprietary Formats and Terminologies to FHIR. Methods Inf Med. 2019;58:151 159. doi: 10.1055/s-0040-1702154.

[10] Wang Y, Wang L, Rastegar-Mojarad M, Moon S, et al. Clinical information extraction applications: A literature review. J Biomed Inform. Jan. 2018;77:34-49. doi: 10.1016/j.jbi.2017.11.011.

[11] Dudchenko A, M. Cianzinger M, G. Kopanitsa G. Diagnoses Detection in Short Snippets of Narrative Mcdical Texts. Procedia Comp Sci. 2019;156:150-157. doi: 10.1016/j.procs.2019.08.190.

[12] Shanavas N, H. Wang H, Z. Lin Z, G. Hawe G. Ontology-based enriched concept graphs for medical document classification. Inf Sci. (Ny). 2020;525:172-181. doi:10.1016/j.ins.2020.03.006.

[ 13] Oleynik M, Kugic A, Kasac Z, Kreuzthaler M. Evaluating shallow and deep learning strategics for the 2018 n2c2 shared task on clinical text classification. J Am Med Inform Assoc. 2013;26:1247-1254. doi: https://doi.org/10.1093/jamia/oczl49.

[ 14] Weng \V-H, K B. Wagholikar KB, A.T. McC'ray AT, P. Szolovits P, H.C. Chueh HC. Medical subdomain classification of clinical notes using a machine learning-based natural language processing approach. BMC Med Inform Decis Mak. 2017;17:155. doi:10.I186/sl2911-017-0556-8.

[15] [15] A.P. Tafti AP, E. Behravesh E, M. Assefi M, E. Larose E, J. Badger J, J. Mayer J, A. Doan A, D. Page D, P. Peissig P. BigNN: An open-source big data toolkit focused on biomedical sentence classification. Proc. - 2017 IEEE Int. Conf. Big Data, Big Data 2017, Institute of Electrical and Electronics Engineers Inc., 2017: pp. 3888-3896. doi: 10.1109/BigData.2017.8258394.

[16] Ye Y, Tsui FR, Wagner M, Espino JU, Li Q. Influenza detection from emergency department reports using natural language processing and Bayesian network classifiers. J Am Med Inform Assoc. 2014;21:815-823. doi:10.1136/amiajnl-2013-001934.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.