ݺߣ

ݺߣShare a Scribd company logo
Исходные данные Процедура поиска подгрупп Результаты Заключение
Методы обнаружения знаний в задаче сравнения
эффективности стратегий лечения
Н.В. Корепанова1,2
, С.О. Кузнецов1
, А.И. Карачунский2
1
Национальный исследовательский университет
“Высшая школа экономики”
2
Федеральный научно-клинический центр детской гематологии,
онкологиии и иммунологии
им. Дмитрия Рогачева
Москва
2014
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 1 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Проблема
В России 10-летняя выживаемость при остром лимфобластном
лейкозе у детей:
5-10% в начале 90-х годов
80-85% сегодня
Но больше существенно увеличить не удается!
Возможное решение - оптимизация терапии в подгруппах,
выбор которых статистически обоснован.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Проблема
В России 10-летняя выживаемость при остром лимфобластном
лейкозе у детей:
5-10% в начале 90-х годов
80-85% сегодня
Но больше существенно увеличить не удается!
Возможное решение - оптимизация терапии в подгруппах,
выбор которых статистически обоснован.
Цель исследования
Разработать процедуру поиска подгрупп пациентов, в которых
существуют значимые различия в эффективности стратегий
лечения.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Исходные данные
Всего в базе 1773 пациента в возрасте до 18 лет включительно,
больных острым лимфобластным лейкозом (ALL-MB-2002).
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Исходные данные
Всего в базе 1773 пациента в возрасте до 18 лет включительно,
больных острым лимфобластным лейкозом (ALL-MB-2002).
Физиологические характеристики пациента
Пол (мужской или женский)
Возраст на момент постановки диагноза (в годах)
Инициальный лейкоз (x109
/л)
Иммуно-фенотип (8 типов)
Пальпируемый размер печени (в см)
Пальпируемый размер селезенки (в см)
Поражение ЦНС (поражена, не поражена, исследование не
проводилось)
Поражение средостения (поражено, не поражено, исследование
не проводилось)
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Исходные данные
Другие характеристики пациента
Стратегия лечения (DEXA или MEDROL)
Дата постановки диагноза
Дата последнего осмотра
Последний статус пациента (жив, мертв, нет информации)
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Исходные данные
Другие характеристики пациента
Стратегия лечения (DEXA или MEDROL)
Дата постановки диагноза
Дата последнего осмотра
Последний статус пациента (жив, мертв, нет информации)
Данные для анализа
1501 полностью описанный пациент (наличие или отсутствие
опражения ЦНС и средостения точно определены):
919 пациентов, получавших DEXA
582 пациентов, получавших MEDROL
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Расстояние между пациентами
Допускается вычислять расстояние только между сравнимыми
пациентами.
Сравнимость
Два пациента сравнимы, если их значения качественных
физиологических характеристик (таких, как пол, иммуно-фенотип и
т.д.) совпадают.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Расстояние между пациентами
Допускается вычислять расстояние только между сравнимыми
пациентами.
Сравнимость
Два пациента сравнимы, если их значения качественных
физиологических характеристик (таких, как пол, иммуно-фенотип и
т.д.) совпадают.
Значения количественных физиологических характеристики
нормируются, и на их основе вычисляется один из видов
расстояния, например, расстояние Евклида.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пары схожих пациентов
Схожие пациенты, получавшие разное лечение, находятся при
помощи алгоритма Гейла и Шепли для решения задачи о
поиске стабильного паросочетания[Gale and Shapley, 1962].
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пары схожих пациентов
Схожие пациенты, получавшие разное лечение, находятся при
помощи алгоритма Гейла и Шепли для решения задачи о
поиске стабильного паросочетания[Gale and Shapley, 1962].
Предпочтения
Чем меньше расстояние между двумя пациентами, тем
предпочтительнее они друг для друга.
Cтрогость предпочтений =⇒ Оптимальность паросочетания
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Выделение подгрупп
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 7 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Кластеры пациентов
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 8 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример возможного деления на классы
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 9 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Генерация гипотез (деревья решений)
Для решения задачи классификации и получения описаний
выделенных классов предлагается использовать деревья
решений.
Критерии выбора признака для ветвления[Kotsiantis, 2013;
Raileanu and Stoffel, 2004]:
прирост информации (information gain)
нормализованный прирост информации (information gain
ratio)
индекс Джини (Gini index)
Из всех полученных гипотез были выбраны наиболее точно
классифицируемые.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Генерация гипотез (деревья решений)
Для решения задачи классификации и получения описаний
выделенных классов предлагается использовать деревья
решений.
Критерии выбора признака для ветвления[Kotsiantis, 2013;
Raileanu and Stoffel, 2004]:
прирост информации (information gain)
нормализованный прирост информации (information gain
ratio)
индекс Джини (Gini index)
Из всех полученных гипотез были выбраны наиболее точно
классифицируемые.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Проверка гипотез
Проверка каждой выбранной гипотезы проводилась
стандартными методами анализа выживаемости:
Кривые Каплан-Майера[Kaplan and Meier, 1958]
Логранговый критерий[Kleinbaum and Klein, 2012]
Критерий эквивалентности[Foody, 2009]
Вычисление чувствительности (мощности)
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 11 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Кривые Каплан-Майера для всей выборки
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 12 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример подтвержденной гипотезы о наличии различий
MEDROL более эффективен, чем DEXA, для пациентов старше
6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-B
иммуно-фенотипом
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример подтвержденной гипотезы о наличии различий
MEDROL более эффективен, чем DEXA, для пациентов старше
6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-B
иммуно-фенотипом
Всего таких пациентов
47.
Достовреность 95%,
чувствительность 84%.
При лечении всех
пациентов MEDROL
удалось бы спасти
приблизительно 8
пациентов.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример неподтвержденной гипотезы о наличии различий
DEXA более эффективен, чем MEDROL, для пациентов c
pre-pre-B, common-B, pre-B или B фенотипов и размером
селезенки не больше 4 см.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример неподтвержденной гипотезы о наличии различий
DEXA более эффективен, чем MEDROL, для пациентов c
pre-pre-B, common-B, pre-B или B фенотипов и размером
селезенки не больше 4 см.
Всего таких пациентов
1061.
Достоверность 95%, но
чувствительность
составляет 12% (так как
разница в выживаемости
всего лишь около 2%)
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример неподтвержденной гипотезы об отсутствии
различий
Разницы нет при размере селезенки не больше 6.5 см, размере
печени не больше 7.5 см, инициальном лейкозе не выше
75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Пример неподтвержденной гипотезы об отсутствии
различий
Разницы нет при размере селезенки не больше 6.5 см, размере
печени не больше 7.5 см, инициальном лейкозе не выше
75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет
Всего таких пациентов
78.
Согласно значениям
статистики критерия
эквивалентности
говорить об отсутствии
различий больше 5% с
достоверностью 95%
нельзя.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Заключение
Разработана процедура поиска подгрупп, в которых два
вида лечения имеют различия в эффективности. Лучше
всего удается выделять небольшие подгруппы с большими
различиями.
Полученные гипотезы были проверены стандартными
статистическими методами анализа выживаемости.
В полной мере оценить качество гипотез можно только
после проведения соответствующих рандомизированных
клинических исследований.
Все шаги процедуры могут быть легко адаптированы к
решению другой практической проблемы, содержащей
анализ в подгруппах и выходящей за рамки гематологии и
медицины.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 16 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Открытые вопросы
Какие модификации позволят добиться большей точности?
Как учитывать при выборе подгрупп разные типы
отрицательных событий (рецидив, метастазы и т.д.)?
Какие аномалии могут влиять на наличие отдельных
кластеров?
Как модифицировать процедуру для сравнения трех и
более стратегий лечения?
и т.д.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 17 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Ссылки
Foody, G. (2009). Classification accuracy comparison: Hypothesis tests and the
use of confidence intervals in evaluations of difference, equivalence and
non-inferiority. Remote Sensing of Environment, 13:1658–1663.
Gale, D. and Shapley, L. (1962). College admissions and the stability of
marriage. The American Mathematical Monthly, 69(1):9–15.
Kaplan, E. and Meier, P. (1958). Nonparametric estimation from incomplete
observations. Journal of the American Statistical Association,
53(282):457–481.
Kleinbaum, D. and Klein, M. (2012). Kaplan-meier survival curves and the
log-rank test. In Survival Analysis, pages 55–96. Springer New York.
Kotsiantis, S. (2013). The american mathematical monthly. Artificial
Intelligence Review, 39:261–283.
Raileanu, L. and Stoffel, K. (2004). Theoretical comparison between the gini
index and information gain criteria. Annals of Mathematics and Artificial
Intelligence, 41:77–93.
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 18 / 19
Исходные данные Процедура поиска подгрупп Результаты Заключение
Спасибо за внимание!
Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 19 / 19
Ad

Recommended

Клинические исследования с адаптивным дизайном
Клинические исследования с адаптивным дизайном
PHARMADVISOR
Эффективный дизайн клинических исследований
Эффективный дизайн клинических исследований
idkpharma
Доказательная медицина.Введение. Асланов Б. И. .Кафедра эпидемиологии СЗГМУ и...
Доказательная медицина.Введение. Асланов Б. И. .Кафедра эпидемиологии СЗГМУ и...
Hivlife Info
30.05 мельниченко
30.05 мельниченко
Kat
Изучение эффективности и безопасности лекарственных препаратов в рамках набл...
Изучение эффективности и безопасности лекарственных препаратов в рамках набл...
cardiodrug
Docazatelnaia medicina
Docazatelnaia medicina
amansaulyk
Доказательная медицина, клинические рекомендации и реальная клиническая практика
Доказательная медицина, клинические рекомендации и реальная клиническая практика
Fiordmaster
KPCD Wedding Cars Hire Ireland Limo Hire
KPCD Wedding Cars Hire Ireland Limo Hire
KPCDWeddingCars Ireland
Бизнес-тур в Грузию с CEO Club Ukraine
Бизнес-тур в Грузию с CEO Club Ukraine
Dmytro Diedushenko
Tukkie summer v2_n19
Tukkie summer v2_n19
University of Pretoria
SWCDO 101: Building a team
SWCDO 101: Building a team
Jonathan Arvin Adolfo
General Information/Undergraduate study programme information-2015(eng)
General Information/Undergraduate study programme information-2015(eng)
University of Pretoria
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning
Faculty of Humanities/Humanities (undergraduate)-2014
Faculty of Humanities/Humanities (undergraduate)-2014
University of Pretoria
Studija o sreći - skraćena verzija
Studija o sreći - skraćena verzija
UNICEF Srbija
The Science result by M.Kursabaev (2010-2013)
The Science result by M.Kursabaev (2010-2013)
University of Turan Astana
Italian reverse mortgage prestito vitalizio ipotecario
Italian reverse mortgage prestito vitalizio ipotecario
Paolo Pellegrini
Atto - Moodle HQ
Atto - Moodle HQ
MoodlemootAU2014
SWCDO 101: Project management
SWCDO 101: Project management
Jonathan Arvin Adolfo
Referencing Information
Referencing Information
TonyQuirk
O PODER DA PRESSAO -EBOOK
Robson Lima
Радченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данные
bigdatabm
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
bigdatabm
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
bigdatabm
Вяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опыт
bigdatabm
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
bigdatabm
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
bigdatabm
Баранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессов
bigdatabm
Фокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетей
bigdatabm
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
bigdatabm

More Related Content

Viewers also liked (13)

Бизнес-тур в Грузию с CEO Club Ukraine
Бизнес-тур в Грузию с CEO Club Ukraine
Dmytro Diedushenko
Tukkie summer v2_n19
Tukkie summer v2_n19
University of Pretoria
SWCDO 101: Building a team
SWCDO 101: Building a team
Jonathan Arvin Adolfo
General Information/Undergraduate study programme information-2015(eng)
General Information/Undergraduate study programme information-2015(eng)
University of Pretoria
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning
Faculty of Humanities/Humanities (undergraduate)-2014
Faculty of Humanities/Humanities (undergraduate)-2014
University of Pretoria
Studija o sreći - skraćena verzija
Studija o sreći - skraćena verzija
UNICEF Srbija
The Science result by M.Kursabaev (2010-2013)
The Science result by M.Kursabaev (2010-2013)
University of Turan Astana
Italian reverse mortgage prestito vitalizio ipotecario
Italian reverse mortgage prestito vitalizio ipotecario
Paolo Pellegrini
Atto - Moodle HQ
Atto - Moodle HQ
MoodlemootAU2014
SWCDO 101: Project management
SWCDO 101: Project management
Jonathan Arvin Adolfo
Referencing Information
Referencing Information
TonyQuirk
O PODER DA PRESSAO -EBOOK
Robson Lima
Бизнес-тур в Грузию с CEO Club Ukraine
Бизнес-тур в Грузию с CEO Club Ukraine
Dmytro Diedushenko
General Information/Undergraduate study programme information-2015(eng)
General Information/Undergraduate study programme information-2015(eng)
University of Pretoria
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning - Summary Example Cleans
Town & Country Cleaning
Faculty of Humanities/Humanities (undergraduate)-2014
Faculty of Humanities/Humanities (undergraduate)-2014
University of Pretoria
Studija o sreći - skraćena verzija
Studija o sreći - skraćena verzija
UNICEF Srbija
Italian reverse mortgage prestito vitalizio ipotecario
Italian reverse mortgage prestito vitalizio ipotecario
Paolo Pellegrini
Referencing Information
Referencing Information
TonyQuirk
O PODER DA PRESSAO -EBOOK
Robson Lima

More from bigdatabm (15)

Радченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данные
bigdatabm
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
bigdatabm
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
bigdatabm
Вяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опыт
bigdatabm
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
bigdatabm
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
bigdatabm
Баранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессов
bigdatabm
Фокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетей
bigdatabm
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
bigdatabm
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
bigdatabm
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
bigdatabm
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
bigdatabm
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
bigdatabm
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
bigdatabm
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
bigdatabm
Радченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данные
bigdatabm
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
bigdatabm
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
bigdatabm
Вяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опыт
bigdatabm
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
bigdatabm
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
bigdatabm
Баранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессов
bigdatabm
Фокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетей
bigdatabm
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
bigdatabm
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
bigdatabm
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
bigdatabm
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
bigdatabm
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
bigdatabm
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
bigdatabm
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
bigdatabm
Ad

Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения

  • 1. Исходные данные Процедура поиска подгрупп Результаты Заключение Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения Н.В. Корепанова1,2 , С.О. Кузнецов1 , А.И. Карачунский2 1 Национальный исследовательский университет “Высшая школа экономики” 2 Федеральный научно-клинический центр детской гематологии, онкологиии и иммунологии им. Дмитрия Рогачева Москва 2014 Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 1 / 19
  • 2. Исходные данные Процедура поиска подгрупп Результаты Заключение Проблема В России 10-летняя выживаемость при остром лимфобластном лейкозе у детей: 5-10% в начале 90-х годов 80-85% сегодня Но больше существенно увеличить не удается! Возможное решение - оптимизация терапии в подгруппах, выбор которых статистически обоснован. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19
  • 3. Исходные данные Процедура поиска подгрупп Результаты Заключение Проблема В России 10-летняя выживаемость при остром лимфобластном лейкозе у детей: 5-10% в начале 90-х годов 80-85% сегодня Но больше существенно увеличить не удается! Возможное решение - оптимизация терапии в подгруппах, выбор которых статистически обоснован. Цель исследования Разработать процедуру поиска подгрупп пациентов, в которых существуют значимые различия в эффективности стратегий лечения. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 2 / 19
  • 4. Исходные данные Процедура поиска подгрупп Результаты Заключение Исходные данные Всего в базе 1773 пациента в возрасте до 18 лет включительно, больных острым лимфобластным лейкозом (ALL-MB-2002). Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19
  • 5. Исходные данные Процедура поиска подгрупп Результаты Заключение Исходные данные Всего в базе 1773 пациента в возрасте до 18 лет включительно, больных острым лимфобластным лейкозом (ALL-MB-2002). Физиологические характеристики пациента Пол (мужской или женский) Возраст на момент постановки диагноза (в годах) Инициальный лейкоз (x109 /л) Иммуно-фенотип (8 типов) Пальпируемый размер печени (в см) Пальпируемый размер селезенки (в см) Поражение ЦНС (поражена, не поражена, исследование не проводилось) Поражение средостения (поражено, не поражено, исследование не проводилось) Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 3 / 19
  • 6. Исходные данные Процедура поиска подгрупп Результаты Заключение Исходные данные Другие характеристики пациента Стратегия лечения (DEXA или MEDROL) Дата постановки диагноза Дата последнего осмотра Последний статус пациента (жив, мертв, нет информации) Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19
  • 7. Исходные данные Процедура поиска подгрупп Результаты Заключение Исходные данные Другие характеристики пациента Стратегия лечения (DEXA или MEDROL) Дата постановки диагноза Дата последнего осмотра Последний статус пациента (жив, мертв, нет информации) Данные для анализа 1501 полностью описанный пациент (наличие или отсутствие опражения ЦНС и средостения точно определены): 919 пациентов, получавших DEXA 582 пациентов, получавших MEDROL Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 4 / 19
  • 8. Исходные данные Процедура поиска подгрупп Результаты Заключение Расстояние между пациентами Допускается вычислять расстояние только между сравнимыми пациентами. Сравнимость Два пациента сравнимы, если их значения качественных физиологических характеристик (таких, как пол, иммуно-фенотип и т.д.) совпадают. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19
  • 9. Исходные данные Процедура поиска подгрупп Результаты Заключение Расстояние между пациентами Допускается вычислять расстояние только между сравнимыми пациентами. Сравнимость Два пациента сравнимы, если их значения качественных физиологических характеристик (таких, как пол, иммуно-фенотип и т.д.) совпадают. Значения количественных физиологических характеристики нормируются, и на их основе вычисляется один из видов расстояния, например, расстояние Евклида. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 5 / 19
  • 10. Исходные данные Процедура поиска подгрупп Результаты Заключение Пары схожих пациентов Схожие пациенты, получавшие разное лечение, находятся при помощи алгоритма Гейла и Шепли для решения задачи о поиске стабильного паросочетания[Gale and Shapley, 1962]. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19
  • 11. Исходные данные Процедура поиска подгрупп Результаты Заключение Пары схожих пациентов Схожие пациенты, получавшие разное лечение, находятся при помощи алгоритма Гейла и Шепли для решения задачи о поиске стабильного паросочетания[Gale and Shapley, 1962]. Предпочтения Чем меньше расстояние между двумя пациентами, тем предпочтительнее они друг для друга. Cтрогость предпочтений =⇒ Оптимальность паросочетания Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 6 / 19
  • 12. Исходные данные Процедура поиска подгрупп Результаты Заключение Выделение подгрупп Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 7 / 19
  • 13. Исходные данные Процедура поиска подгрупп Результаты Заключение Кластеры пациентов Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 8 / 19
  • 14. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример возможного деления на классы Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 9 / 19
  • 15. Исходные данные Процедура поиска подгрупп Результаты Заключение Генерация гипотез (деревья решений) Для решения задачи классификации и получения описаний выделенных классов предлагается использовать деревья решений. Критерии выбора признака для ветвления[Kotsiantis, 2013; Raileanu and Stoffel, 2004]: прирост информации (information gain) нормализованный прирост информации (information gain ratio) индекс Джини (Gini index) Из всех полученных гипотез были выбраны наиболее точно классифицируемые. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19
  • 16. Исходные данные Процедура поиска подгрупп Результаты Заключение Генерация гипотез (деревья решений) Для решения задачи классификации и получения описаний выделенных классов предлагается использовать деревья решений. Критерии выбора признака для ветвления[Kotsiantis, 2013; Raileanu and Stoffel, 2004]: прирост информации (information gain) нормализованный прирост информации (information gain ratio) индекс Джини (Gini index) Из всех полученных гипотез были выбраны наиболее точно классифицируемые. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 10 / 19
  • 17. Исходные данные Процедура поиска подгрупп Результаты Заключение Проверка гипотез Проверка каждой выбранной гипотезы проводилась стандартными методами анализа выживаемости: Кривые Каплан-Майера[Kaplan and Meier, 1958] Логранговый критерий[Kleinbaum and Klein, 2012] Критерий эквивалентности[Foody, 2009] Вычисление чувствительности (мощности) Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 11 / 19
  • 18. Исходные данные Процедура поиска подгрупп Результаты Заключение Кривые Каплан-Майера для всей выборки Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 12 / 19
  • 19. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример подтвержденной гипотезы о наличии различий MEDROL более эффективен, чем DEXA, для пациентов старше 6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-B иммуно-фенотипом Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19
  • 20. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример подтвержденной гипотезы о наличии различий MEDROL более эффективен, чем DEXA, для пациентов старше 6.6 лет с размером селезенки не менше 3.5 и pre-pre- или pre-B иммуно-фенотипом Всего таких пациентов 47. Достовреность 95%, чувствительность 84%. При лечении всех пациентов MEDROL удалось бы спасти приблизительно 8 пациентов. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 13 / 19
  • 21. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример неподтвержденной гипотезы о наличии различий DEXA более эффективен, чем MEDROL, для пациентов c pre-pre-B, common-B, pre-B или B фенотипов и размером селезенки не больше 4 см. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19
  • 22. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример неподтвержденной гипотезы о наличии различий DEXA более эффективен, чем MEDROL, для пациентов c pre-pre-B, common-B, pre-B или B фенотипов и размером селезенки не больше 4 см. Всего таких пациентов 1061. Достоверность 95%, но чувствительность составляет 12% (так как разница в выживаемости всего лишь около 2%) Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 14 / 19
  • 23. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример неподтвержденной гипотезы об отсутствии различий Разницы нет при размере селезенки не больше 6.5 см, размере печени не больше 7.5 см, инициальном лейкозе не выше 75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19
  • 24. Исходные данные Процедура поиска подгрупп Результаты Заключение Пример неподтвержденной гипотезы об отсутствии различий Разницы нет при размере селезенки не больше 6.5 см, размере печени не больше 7.5 см, инициальном лейкозе не выше 75x109/л, не пораженной ЦНС и в возрасте от 12 до 14.4 лет Всего таких пациентов 78. Согласно значениям статистики критерия эквивалентности говорить об отсутствии различий больше 5% с достоверностью 95% нельзя. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 15 / 19
  • 25. Исходные данные Процедура поиска подгрупп Результаты Заключение Заключение Разработана процедура поиска подгрупп, в которых два вида лечения имеют различия в эффективности. Лучше всего удается выделять небольшие подгруппы с большими различиями. Полученные гипотезы были проверены стандартными статистическими методами анализа выживаемости. В полной мере оценить качество гипотез можно только после проведения соответствующих рандомизированных клинических исследований. Все шаги процедуры могут быть легко адаптированы к решению другой практической проблемы, содержащей анализ в подгруппах и выходящей за рамки гематологии и медицины. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 16 / 19
  • 26. Исходные данные Процедура поиска подгрупп Результаты Заключение Открытые вопросы Какие модификации позволят добиться большей точности? Как учитывать при выборе подгрупп разные типы отрицательных событий (рецидив, метастазы и т.д.)? Какие аномалии могут влиять на наличие отдельных кластеров? Как модифицировать процедуру для сравнения трех и более стратегий лечения? и т.д. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 17 / 19
  • 27. Исходные данные Процедура поиска подгрупп Результаты Заключение Ссылки Foody, G. (2009). Classification accuracy comparison: Hypothesis tests and the use of confidence intervals in evaluations of difference, equivalence and non-inferiority. Remote Sensing of Environment, 13:1658–1663. Gale, D. and Shapley, L. (1962). College admissions and the stability of marriage. The American Mathematical Monthly, 69(1):9–15. Kaplan, E. and Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53(282):457–481. Kleinbaum, D. and Klein, M. (2012). Kaplan-meier survival curves and the log-rank test. In Survival Analysis, pages 55–96. Springer New York. Kotsiantis, S. (2013). The american mathematical monthly. Artificial Intelligence Review, 39:261–283. Raileanu, L. and Stoffel, K. (2004). Theoretical comparison between the gini index and information gain criteria. Annals of Mathematics and Artificial Intelligence, 41:77–93. Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 18 / 19
  • 28. Исходные данные Процедура поиска подгрупп Результаты Заключение Спасибо за внимание! Методы обнаружения знаний в задаче сравнения эффективности стратегий лечения 19 / 19