HEALTH INSURANCE FRAUD DETECTION SUBSYSTEM BASED ON MACHINE LEARNING MODELS

  • Authors: Danilov A.V.1, Isaenkova E.A.2, Bulygina N.V.2, Nevzorova E.V.2
  • Affiliations:
    1. Territorial fund of compulsory medical insurance of the Voronezh region. Voronezh State Medical University.
    2. Territorial fund of compulsory medical insurance of the Voronezh region
  • Issue: 2023: ФИНАНСОВОЕ ОБЕСПЕЧЕНИЕ МЕДИЦИНСКОЙ ПОМОЩИ: НА СТАЖЕ ОХРАНЫ ЗДОРОВЬЯ ЧЕЛОВЕКА И ЗАЩИТЫ ИНТЕРЕСОВ ЗАСТРАХОВАННОГО НАСЕЛЕНИЯ
  • Pages: 83-89
  • Section: Articles
  • URL: https://new.vestnik-surgery.com/index.php/1990-472X/article/view/8985

Cite item

Full Text

Abstract

Identifying fraudulent cases in healthcare using data mining is a complex problem. Most studies note a lack of real-world data for analysis and focus on a very narrow problem, covering either a specific organization alone or a type of health care or disease. The subsystem of interactive machine learning with the use of expertise for detection of cases of fraud in healthcare is considered.

The subsystem evaluates real data for six different types of abnormal behavior with the involvement of experts. Combines both proactive and retrospective analysis with improved imaging tools that significantly reduce the time it takes to establish a high-risk transaction.

Described is a subsystem for supporting decision making based on machine learning methods, which uses transactional data to identify suspicious cases (with assigning each transaction a risk measure based on a cost function) and provides a visual environment that helps expert doctors in determining whether a transaction is an actual fraud.

Full Text

Актуальность. Данное исследование мотивировано спросом на надежный и пригодный для использования инструмент автоматизированного выявления фактов мошенничества в сфере медицинского страхования.

На практике управление требованиями на оплату счетов за оказанную медицинскую помощь или услуги рассматривается как относительно простая задача и обрабатывается системой, основанной на правилах. В системах управления платежами в сфере медицинского страхования для рассмотрения страховых случаев и выявления подозрительных случаев полагаются на врачей-экспертов. Поскольку ручная проверка подозрительных претензий является довольно дорогим способом обнаружения мошеннического поведения и имеет несколько сомнительную эффективность, то имеется потребность в разработке автоматизированной подсистемы обнаружения мошенничества, которая использует фактические данные, собранные в рамках подсистемы управления качеством. В последние годы исследователи все больше заинтересованы в выявлении мошенничества, особенно с использованием методов интеллектуального анализа данных [1, 2].

Предпосылкой к созданию такой подсистемы являются накопленные подсистемой управления качеством данные, дающие возможность более продвинутого анализа, ориентированного на обнаружение фактов мошенничества. Однако обнаружение мошеннического поведения является непростой задачей и требует более интеллектуальных подходов к решению из-за весьма нелинейного и сложного характера проблемы, чем использование интуитивно понятного и основанного на эвристике подхода [3].

С учетом определений, изложенных в работах [4 - 6], мошенничество в сфере здравоохранения - преднамеренный обман или искажение, которое человек или организация делают, зная, что искажение может привести к некоторой несанкционированной выгоде для человека, организации или какой-либо другой стороны и приводит к ненужным затратам или возмещению услуг, которые не являются необходимыми с медицинской точки зрения или не соответствуют профессионально признанным стандартам здравоохранения.

Обычно мошенничество в счетах за медицинскую помощь может быть обнаружено только в том случае, если в ходе анализа учитываются и более ранние транзакции тех же участников. Большое количество транзакций также ограничивает применимость классических методов машинного обучения в качестве механизма поддержки принятия решений. Кроме того, следует учесть, что мошенническое поведение развивается со временем. То есть, действующие лица системы являются интеллектуальными и адаптируются к контролю страховых случаев, меняя свою тактику. Поэтому, вместо классических методов машинного обучения, предлагается для выявления мошенничества в сфере медицинского страхования подсистема поддержки принятия решений на основе интерактивных методов машинного обучения.

В настоящее время формирующейся тенденцией в области обнаружения и предотвращения мошенничества является машинное обучение. Машинное обучение - это использование искусственного интеллекта для формирования модели классификации транзакций на правомерные и мошеннические. В контексте предотвращения мошенничества существует два типа машинного обучения: с учителем и без учителя.

Машинное обучение без учителя использует алгоритм обнаружения аномалий, в котором признаки классификации (что является обычным, а что необычным в транзакции) определяются автоматически. Однако машинное обучение с учителем имеет дополнительные существенные преимущества при анализе фактов мошенничества. С помощью машинного обучения с учителем модель обучается с использованием исторической информации о мошенничестве. Таким образом, с помощью модели классификации путем присвоения оценки степени риска в режиме реального времени можно определить, является ли транзакция обычной или мошеннической.

Машинное обучение также можно использовать с точки зрения автоматизации. Невозможно постоянно иметь на месте эксперта по выявлению фактов мошенничества, который будет отслеживать все транзакции. Кроме того, машинное обучение потенциально устраняет предвзятость в утверждениях о фактах мошенничества. Машинное обучение исключает человеческие проблемы и позволяет автоматически принимать решения о транзакциях в режиме реального времени.

При разработке математических моделей классификации возможно применение различных методов, таких как: логистической регрессии; опорных векторов; деревьев решений; градиентного бустинга; иерархической кластеризации; нейронных сетей и глубокого обучения [7]. Возможно применение ансамбля моделей.

В работе использовались методы построения логистической регрессии и методы формирования деревьев решений. Логистическая регрессия является расширением множественной регрессии и отличается от последней тем, что в качестве зависимой переменной используется дихотомическая переменная, имеющая лишь два возможных значения (обозначают факт принадлежности/не принадлежности транзакции к одной из групп – обычная или мошенническая). Метод деревьев решений представляет особый интерес для исследований транзакций, поскольку позволяет обнаружить, какая переменная или комбинация переменных лучше предсказывает данный результат классификации, определить пороговые значения для каждой переменной, которая максимально предсказывает выбранный результат [8]. Применительно к нашей задаче при выборе того или иного метода классификации, предпочтение отдается методу деревьев решений по причине его наглядности, интерпретируемости и доступности для использования врачами-экспертами.

Для применения методов машинного обучения был подготовлен датасет, в котором данные представлены простой случайной выборкой, состоящей из более чем 285 тыс. счетов за медицинскую помощь, направленных для оплаты в течение 2022 года. При формировании выборки была оценена генеральная совокупность по медицинским организациям, условиям оказания медицинской помощи, исходам лечения, результатам проведения медико-экономической экспертизы.

Объем выборочной совокупности обеспечивает репрезентативность (точность 95% и погрешность ± 5%) генеральной совокупности, регламентированной Приказом Минздрава России от 28.02.2019 №108н «Об утверждении Правил обязательного медицинского страхования». В соответствии указанным документом оплата медицинской помощи, оказанной застрахованному лицу, осуществляется на основании представленных медицинской организацией счетов и реестров счетов на оплату медицинской помощи. Медицинская организация формирует и направляет счет и реестр счета за медицинскую помощь в территориальный фонд по месту оказания медицинской помощи. Территориальный фонд по месту страхования осуществляет контроль объемов, сроков, качества и условий оказанной медицинской помощи путем проведения медико-экономического контроля, медико-экономической экспертизы и экспертизы качества медицинской помощи в соответствии с порядком организации и проведения контроля.

Подготовка данных и обучение моделей в рассматриваемой подсистеме состоит из следующих основных этапов. Первый этап заключается в представлении и формализации знаний экспертов относительно целей и гипотез процесса машинного обучения. Это достигается с помощью подключения данных из различных источников и последующего визуального анализа, по аналогии с ручной работой врачей-экспертов. На практике (то есть, без использования разработанного инструмента поддержки принятия решений) врачи-эксперты пытаются определить ненормальное поведение, просто используя медицинскую отчетность [9]. Эксперты пытаются найти показатель аномального поведения на основе различных статистических данных (например, коэффициентов, показателей и линий тренда), полученных из существующей базы данных. Как только эксперт замечает нерегулярное поведение, он фокусируется на характеристиках случая, повлекших нарушение. Эти характеристики оцениваются с точки зрения медицинских и страховых правил и обозначаются как «рискованные». В зависимости от конкретной ситуации далее принимаются различные управленческие и законодательные меры [10]. На втором этапе наполняется хранилище данных на основе характеристик случаев мошенничества, выявленных на первом этапе. Третий этап связан с настройкой механизма распределения рисков, в котором оцениваются риски транзакций. Четвертый этап заключается в подготовке инструментов визуализации, показывающих различные анализы на основе входных значений атрибутов или результирующих оценок риска транзакций. Этот инструмент визуализации позволяет взаимодействовать с алгоритмом обучения подсистемы поддержки принятия решений путем внесения изменений параметров и введения новых атрибутов в качестве индикаторов риска транзакций. Используются три вида атрибутов: периодический, дифференциальный и совокупный из-за различных типов аномального поведения. При этом периодические атрибуты представлены месячными значениями, кумулятивные - годовыми значениями, дифференциальные атрибуты представляют собой скорость изменения периодического атрибута по отношению к предыдущему месяцу.

Полученные результаты и их обсуждение. Характер поведения субъектов, связанный с мошенничеством, ограничивает альтернативные подходы к решению проблемы выявления мошенничества и затрудняет применение подходов, основанных на машинном обучении с учителем. При этом методы обучения с учителем требуют, чтобы каждая транзакция была помечена (например, врачами-экспертами) как подозрительная или нет. Однако изначально транзакция не должна быть помечена как мошенническая. Например, вполне возможно, что для двух транзакций с одинаковым содержанием в терминах наборов данных счетов одна транзакция может быть частью мошенничества, а другая нет, в зависимости от статуса более ранних транзакций участников [11].

Существуют различные типы ненормального поведения, например:

выставлены счета за услуги, которые никогда не предоставлялись;

выполнены более дорогостоящие услуги и процедуры, чем необходимо;

оказаны ненужные с медицинской точки зрения услуги исключительно с целью получения страховых выплат;

неправильно выбраны методы лечения как необходимые с медицинской точки зрения только с целью получения страховой выплаты;

фальсифицирован диагноз заболевания и/или история лечения пациента;

фальсифицирован счет об оказанных услугах.

Таким образом, процесс автоматизации обнаружения мошеннического поведения заключается в определение того, имеется ли в счете за медицинскую помощь факт конкретного ненормального поведения с учетом ранее созданного фрагментированного набора данных и динамического характера проблемы. Определен процесс выявления экспертами подозрительных случаев, основанный на анализе снизу-вверх для каждого субъекта отношений к медицинским услугам. Затем используется нисходящий подход для автоматизации деятельности экспертов для выявления соответствующих доказательств, с возможностью анализа всей медицинской документации, хранящейся в ЕГИСЗ [12; 13]. Разработанный инструмент поддержки принятия решений значительно снижает необходимость ручного анализа, выделяя только самые подозрительные случаи и исключая те, которые вряд ли будут критичными. Кроме того, инструмент визуализации данных позволяет пользователю эффективно расследовать каждый случай и тем самым узнать больше о мошенническом поведении, информируя о модификациях механизма оценки рисков.

Экспериментальный анализ проводился для измерения точности классификации транзакций. Использовались реальные данные выборки за 2022 год. Рассчитаны высокие риски для 35 тыс. транзакций, которые были приняты в качестве прогнозных и использованы для установления пороговых значений. Определена важность сведений для каждого из шести типов ненормального поведения с помощью периодических, дифференциальных и кумулятивных типов атрибутов. [14]

Результаты экспериментов были использованы в итерациях по дообучению моделей с целью повышения точности классификации (чувствительности, специфичности).

Выводы. Описана интерактивная подсистема на основе методов машинного обучения для выявления фактов мошеннического поведения в сфере медицинского страхования. Предложенная структура подсистемы не зависит от параметров субъектов, имеет возможность настраиваться, адаптироваться в динамической среде мошеннического поведения, эффективно обрабатывать фрагментированный характер ненормального поведения. Подсистема может использоваться как для упреждающего, так и для ретроспективного анализа. Наличие инструментов визуализации значительно сокращает время, необходимое врачам-экспертам для поиска факта нарушения после того, как подсистема предупредила о рискованных транзакциях.

Кроме того, тщательный анализ процесса интерактивного машинного обучения, особенно деталей пересмотра мнений врачей-экспертов, дает дополнительную информацию для дообучения моделей. Например, каковы значения факторов и как они влияют на процесс принятия решений, является ли результат ошибочным или правильно классифицированным в процессе обучения.

Внедрение новых технологий, основанных на данных, такие как прогнозная аналитика и искусственный интеллект, дают возможность руководству применять методы для предотвращения и выявления мошенничества в отрасли здравоохранения.

×

About the authors

Alexander Valentinovich Danilov

Territorial fund of compulsory medical insurance of the Voronezh region.
Voronezh State Medical University.

Author for correspondence.
Email: idf-dav@omsvrn.ru
SPIN-code: 8274-8009

доктор медицинских наук, профессор, директор ТФОМС Воронежской области

Russian Federation

Evgenia Alexandrovna Isaenkova

Territorial fund of compulsory medical insurance of the Voronezh region

Email: zpz-iea@omsvrn.ru

начальник управления организации обязательного медицинского страхования ТФОМС Воронежской области

Russian Federation

Natalya Vladimirovna Bulygina

Territorial fund of compulsory medical insurance of the Voronezh region

Email: oiib-bnv@omsvrn.ru

начальник отдела сопровождения и разработки программного обеспечения ТФОМС Воронежской области

Russian Federation

Elena Vladimirovna Nevzorova

Territorial fund of compulsory medical insurance of the Voronezh region

Email: oiib-nev@omsvrn.ru

заместитель начальника отдела сопровождения и разработки программного обеспечения ТФОМС Воронежской области

Russian Federation

References

  1. Bauder R.A., Khoshgoftaar T.M. Medicare Fraud Detection Using Machine Learning Methods. 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA)- 2017.- pp. 858-865.
  2. Tizian M.T., Prinz C., Masuch K., Trang S. Healthcare in Fraudster's Crosshairs: Designing, Implementing and Evaluating a Machine Learning Approach for Anomaly Detection on Medical Prescription Claim Data // Twenty-fifth Pacific Asia Conference on Information Systems, Dubai, UAE, 2021. – pp. 1-14.
  3. Jyothi P.N., Lakshmi D.R., Rama Rao K.V.S.N. Performance on Fraud Detection in Medical Claims of Healthcare Data // International Journal of Innovative Technology and Exploring Engineering, Vol. 8, Issue 7. - 2019. – pp. 1158-1165.
  4. Как это работает: семь видов мошенничества в разъяснениях Пленума ВС - Верховный Суд Российской Федерации // [Электронный ресурс] Режим доступа: https://www.vsrf.ru/press_center/mass_media/26082/ (дата обращения: 04.03.2023).
  5. Шляпников Ю.В. Информационные основы расследования мошенничества в сфере здравоохранения // Проблемы экономики и юридической практики. 2021. - № 6. - С. 176-179.
  6. Лупарев Е.Б., Епифанова Е.В. Публичное медицинское право: учебное пособие / Е.Б. Лупарев, Е.В. Епифанова; Министерство науки и высшего образования Российской Федерации, Кубанский государственный университет. – Краснодар: Кубанский гос. ун-т. – 2021. – 191 с.
  7. Лимановская О.В. Основы машинного обучения: учебное пособие / О.В. Лимановская, Т.И. Алферьева; Мин-во науки и высш. образования РФ. - Екатеринбург: Изд-во Урал. ун-та, 2020. - 88 с.
  8. Белозерова Е.В., Данилов А.В., Исаенкова Е.А. и др. Прогнозирование развития гипертонической болезни с использованием моделей машинного обучения в подсистеме дистанционного кардиомониторинга / Е.В. Белозерова, А.В. Данилов, Е.А. Исаенкова, Л.Б. Калинина, О.А. Манерова, Ю.И. Усов // Менеджер здравоохранения. - 2022. - № 2. - С. 76-84.
  9. Максимова Л.В. Особенности коррупционных проявлений в сфере здравоохранения / Л.В. Максимова. // Молодой ученый. - 2016. - № 1 (105). - С. 812-815.
  10. Ефремова Е.И., Бахтигозина Э.И. Мошенничество в медицинских организациях: методы борьбы. // Бухучет в здравоохранении. – 2018. - №10.- С. 39-44.
  11. Johnson J.M., Khoshgoftaar T.M. Medicare fraud detection using neural networks // Journal of Big Data. Vol. 6, Article number 63. - 2019.-pp. 1-35.
  12. Единая государственная информационная система в сфере здравоохранения. Подсистема «Федеральный реестр электронных медицинских документов». Описание интеграционных профилей РЭМД (API V.3) // Москва, 2021. – 117 С.
  13. Данилов, А. В. К проблемам отнесения расходов медицинских организаций, оплаченных из средств обязательного медицинского страхования к нецелевому использованию / А. В. Данилов, С. М. Тютина, Е. Н. Егорова // Прикладные информационные аспекты медицины. – 2018. – Т. 21, № 1. – С. 58-67.
  14. Кирсанов, Д. В. Роль страховых медицинских организаций в построении пациент-ориентированного здравоохранения / Д. В. Кирсанов // Прикладные информационные аспекты медицины. – 2018. – Т. 21, № 1. – С. 102-109.

Supplementary files

There are no supplementary files to display.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies