ПРИМЕНЕНИЕ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ С РАКОМ ЯИЧНИКОВ

© В.Н. Журман, 2023

УДК 618.11-006.6-036.66

 В.Н. Журман1,2

1ГБУЗ «Приморский краевой онкологический диспансер», г. Владивосток

2ФГБОУ ВО «Тихоокеанский государственный медицинский университет» МЗ РФ, г. Владивосток

Журман Варвара Николаевна — кандидат медицинских наук, врач онколог ГБУЗ «Приморский краевой онкологический диспансер»

690105, г. Владивосток, ул. Русская, д. 63А, тел. +7-904-622-25-77, e-mail: varvara2007@yandex.ru, ORCID ID: 0000-0002-6927-3336

Реферат

Целью данного исследования явилось применение алгоритма машинного обучения для определения прогностических параметров, прогнозировать выживаемость пациентов раком яичников.

Информация о 910 пациентах раком яичников из Приморского краевого онкологического диспансера проанализирована с использованием метода машинного обучения «случайный лес» (Random Forest) и регрессии Кокса. Для визуализации общей выживаемости пациентов использовался метод Каплана ― Мейера.

Результаты. Выявлено, что при прогнозировании общей выживаемости пациентов раком яичников наибольший вклад вносят применение платиносодержащих агентов при химиотерапии второй линии, первичная циторедукция (полная и оптимальная и неоптимальная), гистологические типы серозный high-grade, low-grade и муцинозный рак. Предложенное сочетание алгоритма машинного обучения с регрессионным анализом Кокса и методом Каплана ― Мейера позволяет выделить из множества факторов, сопровождающих развитие рака яичников, те показатели, которые имеют прогностическое значение для определения общей выживаемости пациенток. Этот алгоритм может быть полезен для более точной оценки индивидуальных результатов и выбора наилучших вариантов лечения для пациентов раком яичников.

Ключевые слова: рак яичников, выживаемость, регрессия Кокса, случайный лес, метод Каплана ― Мейера.

 Введение

Рак яичников относится к наиболее распространенным злокачественным новообразованиям женской половой сферы с высоким уровнем летального исхода, показатель 5-ти летней выживаемости ниже 45%. По причине невыраженной и неспецифичной симптоматики он проявляется в вариабельной клинической картине не характерной для онкологического заболевания. Чаще рак яичников диагностируют на III – IV стадии, когда эффективность применяемых методов лечения значительно снижена [1]. Вследствие чего общая выживаемость (ОВ) пациентов при раке яичников продолжает оставаться на низком уровне, и смертность составляет 4,4% от общего количества во всем мире [2]. В России в 2019 году выявлено 14 206 больных раком яичников (12 843 больных в 2009 г.), погибло от рака яичников в 2019 году 7 520 больных (в 2009 г. ― 7 759 больных). Показана оценка значимости многочисленных различных маркеров в первичной диагностике и появлении рецидивов опухоли яичников, их вклад в эффективность проводимой терапии, а также прогностическая ценность для общей выживаемости. Для пациентов с раком яичников к факторам риска неблагоприятного прогноза, согласно рекомендациям Международной федерации гинекологии и акушерства (FIGO), относят гистологические тип и степень дифференцировки опухоли, наличие резидуальной опухоли и уровень ракового антигена 125 (CA-125) [3, 4]. Несмотря на это проводятся дальнейшие исследования для повышения качественности предикторов в прогнозировании заболевания у пациентов раком яичников, что необходимо для индивидуализации лечения. Методы прогнозирования на основе обширного количества данных с применением интеллектуального анализа эффективно используются при многих видах исследований в области здравоохранения, при определении эффективности лечения рака [5, 6]. Показано применение онлайн-наборов данных, таких как машинное обучение UCI, SEER [7] и TCGA [8, 9]. Обширное количество вводимых параметров в таких системах не позволяет охватить все показатели. Для построения различных моделей прогнозирования широкую область применения имеют алгоритмы машинного обучения [2]. Уменьшение размера дизайна модели путем сокращения числа переменных, позволяет убрать незначимые переменные. Дизайн модели в комбинации различных вариантов, позволяет дифференцировать и отобрать наилучшую модель, содержащую минимум независимых переменных. Необходимо построить алгоритмы отбора наиболее важных факторов. С этих позиций часто используется метод Correlation Feature Selection (CFS), который позволяет оценивать подмножества признаков на базе гипотезы: «Хорошие поднаборы признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом» [10].

Настоящее исследование направлено на определение важности отдельных предикторов для прогноза времени жизни пациентов раком яичников. Для создания модели прогнозирования общей выживаемости пациентов использована интегрированная модель, включающая атрибуты из разных профилей данных. Были собраны данные пациентов Приморского краевого онкологического диспансера и обработаны соответствующим образом. Предпринята попытка использования методов машинного обучения для оценки влияния отдельных факторов на время жизни пациентов с раком яичников, включая назначенные курсы лечения. Ранее показана связь временных промежутков между курсами лечения и прогнозом у пациентов раком яичников [11-13]. 

Материал и методы

Проведен ретроспективный анализ больных раком яичников I – IV стадии, получавших лечение в Приморском краевом онкологическом диспансере в период с 2004 по 2021 гг. (г. Владивосток, Россия). В исследовании проанализированы данные 910 больных раком яичников I – IV стадии. Гистологический тип был классифицирован в соответствии с критериями Всемирной организации здравоохранения (ВОЗ). Данные были собраны вручную из файлов, хранящихся в цифровом виде в канцер-регистре онкологического диспансера, после получения соответствующего разрешения на использование по принципу анонимности. Исследование утверждено этическим комитетом Тихоокеанского государственного медицинского университета (Протокол №51/16.11.2019).

Параметры для исследования включали: дата постановки и снятия с учета, возраст, дата установления диагноза, цензурирующая переменная (0) ― цензурированный пациент, который выбыл из исследования по какой-либо причине, но на момент выбывания был жив, (1) ― нецензурированный пациент с известным исходом, смерть), тип отдаленных метастазов, прогрессирование заболевания (в месяцах), стадия по классификации FIGO и гистологический тип опухоли, данные молекулярно-генетического анализа на наличие изменений нуклеотидных последовательностей гена BRCA 1 и 2, объем хирургического вмешательства, виды химиотерапии, срок наблюдения после терапии (стабилизация, прогрессирование, линии терапии и их количество), сопутствующие заболевания, гинекологический анамнез. Всего в моделях машинного обучения проанализировано 24 фактора, представленных 53 переменными (для переменных качественного типа были введены наборы фиктивных переменных). Клинические данные показали высокую связь с общей выживаемостью пациентов и были наиболее широко используемыми предикторами в существующих исследованиях. В отличие от онлайн-наборов данных и других клинических исследований, в настоящем исследовании рассмотрены методы лечения.

Для анализа общей выживаемости пациентов использован метод Каплана ― Майера [14]. Анализ дожития/выживаемости (анализ длительности до наступления событий) позволяет выявить закономерность определенного исхода в течение определенного времени. Общая выживаемость отображается в виде долей единицы или в процентах, период времени до возникновения события может быть представлен в виде количества месяцев, лет. Анализ Каплана ― Майера позволяет оценить длительность до наступления события при наличии цензурированных наблюдений. Это позволяет охарактеризовать процесс, который на момент последнего обследования не завершился событием (смертью или прогрессированием заболевания), включая данные пациентов со злокачественными новообразованиями, которые живы на момент завершения наблюдения. Второй вариант цензурированных случаев ― пациенты, которые исключаются из наблюдения (в случае переезда в другой город или отказа от наблюдения и т.д.). Следовательно, множительный непараметрический метод Каплана ― Мейера позволяет оценить кумулятивную функцию дожития (выживаемость) в момент возникновения каждого случая исхода, расчет которой производится по формуле:

где:  ― число объектов, доживающих до момента времени , исключая выбывших;  ― число объектов, для которых произошел исход в момент времени ,  ― вероятность исхода.

Графическое изображение метода Каплана ― Мейера заключается в построении кривой общей выживаемости, отображающей пациентов, у которых ожидаемое событие не произошло к окончанию периода наблюдения. Временные интервалы определены периодичностью наблюдения (контрольных обследований) пациентов с диагнозом рака яичников. Перерасчет доли оставшихся в исследовании пациентов, у которых событие не произошло, отображается «ступенькой» вниз на кривой. Время до события ― это время от начала до исследуемого исхода. В базу данных занесены даты последнего контакта с пациентом для цензурированных наблюдений или даты интересующего события (даже если сам контакт случился позже). Этот метод взят нами за основу расчета.

Анализ данных проводился в три основных этапа (рис. 1): сбор данных, предварительная их обработка и прогнозирование. К сожалению, при формировании медицинской базы данных обнаруживается много отсутствующих и нерелевантных показателей, которые не могут быть использованы для прогнозирования.

Рис. 1. Последовательность разработки модели прогнозирования общей выживаемости у пациентов с раком яичников

Fig. 1. Sequence of development of a model for predicting overall survival in patients with ovarian cancer

Поэтому в процесс выполнения второго этапа мы включили предварительную обработку клинических данных, включающую очистку, проверку и кодировку значений.

Для машинного обучения выбора признаков с целью ранжирования и выявления наиболее релевантных функций для целевого класса с выбором характеристик типа фильтра использовали метод выбора признаков Minimum Redundancy ― Maximum Relevance (MRMR), предложенный Ding and Peng et al. [15]. Использование этого метода позволяет найти максимально релевантные функции для целевых классов, а также помогает убедиться, что эти выбранные функции максимально не похожи друг на друга.

Для целей прогнозирования применяли метод машинного обучения, алгоритм «случайного леса», который продемонстрировал эффективность в клинических приложениях. Алгоритм на каждом шаге генерирует из имеющейся выборки пациентов подвыборку с возвращением, на основании которой создает новое «дерево», на основании которого делается вывод о том, какие переменные внесли наибольший вклад. После большого числа шагов работы алгоритма полученные результаты усредняются и получается итоговое решение. Специфика алгоритма заключается в том, что в отличие от стандартного регрессионного анализа, основанного на методе наименьших квадратов или максимального правдоподобия, он представляет собой «черный ящик», то есть не представляет исследователю регрессионную модель в привычном виде. Результат может быть получен только в виде рассчитанного прогноза, ошибок прогноза и величин важности переменных для моделирования. При этом не представляется возможным проверить значимость влияния независимых переменных на зависимую, а также записать модель в явном виде. Это снижает возможности применения алгоритма для прогнозирования, так как для получения прогноза каждый раз требуется его повторный запуск. Однако преимуществом алгоритма является принцип его работы, заключающийся в том, что на каждом шаге алгоритма строятся некоррелированные друг с другом деревья, что решает проблему мультиколлинеарности, возникающую при оценке параметров модели стандартными способами. В связи с этим в настоящем исследовании предлагается использовать алгоритм «случайного леса» для отбора показателей, вносящих наибольший вклад в прогнозирование общей выживаемости пациентов с раком яичников, для дальнейшей верификации с помощью регрессии Кокса, учитывающей наличие цензурированных наблюдений.

Для исходных данных для моделирования представлены описательные статистики показателей исследуемой совокупности пациентов, включая количество и доли для категориальных переменных, и медианы и квартили для непрерывных переменных, не распределенных нормально. Тестирование переменных на нормальность выполнено с помощью теста Колмогорова ― Смирнова (с коррекцией значимости Лильефорса) и Шапиро ― Уилка. Для анализа выживаемости использована множительная оценка Каплана ― Мейера и лог-ранговый критерий для тестирования различия выживаемости по уровням категориальных факторов. Для принятия решений использованы уровни значимости 0,05 и 0,01. Статистический анализ выполнен с помощью STATA 17.

Результаты

Демографические и клинические характеристики пациентов приведены в таблице 1. Проанализированы медицинские записи 910 пациентов с серозным раком яичника, пролеченных в Приморском краевом онкологическом диспансере. Выявлено 446 случаев рецидива рака яичников и 313 случаев смерти. Большинство пациентов имели IIIС‒IV стадию заболевания (51,3%) и гистологически high-grade серозный рак яичников (65,3%). 749 пациентам (82,3%) выполнена первичная циторедуктивная операция, из них известно, что у 490 (65,4%) это была полная и оптимальная, и у 163 (21,8%) ― неоптимальная операция. Интервальная циторедуктивная операция выполнена 160 (17,9%) пациентам, из них 25 (15,6%) ― полная и оптимальная, 130 (81,3%) ― неоптимальная, по остальным информации не имеется.

Таблица 1. Демографические данные и клинические характеристики пациентов

Table 1. Demographic data and clinical characteristics of patients

Характеристики n (%)
 

1

2

3

4

5

6

Демографические показатели:

Средний возраст*

Менструальный цикл сохранен

Менопауза до 50 лет

Менопауза с 50 лет и более

Нет данных

Роды в анамнезе

910 (100,0%)

54 [46;62]

16 (1,8%)

19 (2,1%)

763 (83,8%)

112 (12,3%)

556 (61,1%)

 

7

8

9

Стадия:

I-IIA

IIB-IIIB

IIIC-IV

 

336 (36,9%)

107 (11,8%)

467 (51,3 %)

 

10

11

12

13

14

15

16

Гистологический тип:

– Серозный low-grade

– Серозный high-grade

– Эндометриоидная карцинома

– Муцинозный рак

– Светлоклеточная карцинома

– Злокачественная опухоль Бреннера

– Не указано

 

173 (19,0%)

594 (65,3%)

21 (2,3%)

5 (0,5%)

5 (0,5%)

2 (0,2%)

110 (12,1%)

 

17

18

19

Асцит:

– Да

– Нет

– Не указано

 

517 (56,8%)

376 (41,3%)

17 (1,9%)

 

20

21

22

Отдаленные метастазы:

– Да

– Нет

– Не указано

 

109 (12,0%)

786 (86,4%)

15 (1,6%)

 

23

24

Рецидив:

– Да

– Нет

 

446 (49,0%)

464 (51,0%)

 

25

26

27

28

29

30

Сопутствующие заболевания**:

– Желудочно-кишечного тракта

– Эндокринные заболевания

– Ожирение

– Заболевания сердечно-сосудистой системы

– Гинекологические заболевания

– Другие сопутствующие заболевания

 

805 (78,4%)

379 (43,6%)

118 (13,0%)

341 (37,5%)

186 (20,4%)

415 (45,6%)

 

 

31

32

33

34

35

36

37

38

39

40

41

Лечение:

Хирургическое

– Первичная циторедукция

– Интервальная циторедукция

– Первичная циторедукция полная и оптимальная

– Первичная циторедукция неоптимальная

– Интервальная циторедукция полная и оптимальная

– Интервальная циторедукция неоптимальная

Химиотерапия 1 линия

– ТС/ТР/ДР/ДС

– платина и другие нетаксановые агенты

– ТР/TC + bev

– ТР/TC + олапариб

676 (76,0%)

 

749 (82,3%)

160 (17,9%)

490 (53,8%)

163 (17,9%)

25 (2,7%)

130 (14,3%)

853 (93,7%)

623 (68,5%)

152 (16,7%)

72 (7,9%)

6 (0,7%)

 

42

43

44

Мутации в гене BRCA1/2:

– BRCA 1+

– BRCA 2+

– BRCA neg

306 (34,4%)

86 (9,5%)

12 (1,3%)

263 (28,9%)

Примечание: * ― возраст не распределен нормально, поэтому указана медиана и квартили []; ** ― у одного пациента встречалось по несколько сопутствующих заболеваний одновременно

Note: * ― the age is not distributed normally, so the median and quartiles are indicated []; ** ― one patient had several concomitant diseases at the same time

Общая выживаемость онкологических пациентов характеризует длительность периода, в течение которого пациенты остаются живы. Этот показатель позволяет оценивать эффективность подхода к противоопухолевому лечению, мониторирования программ по контролю рака и стимулирования к принятию решений в доступе помощи. Стандартный подход к регрессионному анализу подразумевает проведение на первом этапе корреляционного анализа для выявления связи факторов с зависимой переменной. Однако большая часть анализируемых факторов является категориальными, что не дает возможности использовать коэффициенты линейной корреляции. Альтернативой в данном случае является показатель эмпирического корреляционного отношения, позволяющий оценить тесноту связи непрерывной и категориальной переменной. Но его применение не позволяет оценить направление связи, а также ограничено в применении в связи с наличием цензурированных наблюдений, что может привести к смещению оценок. Таким образом, возможности применения корреляционного анализа для отбора переменных для моделирования ограничены, что приводит к необходимости использовать другой подход, основанный на применении алгоритма машинного обучения «случайный лес». Результатом работы алгоритма с включением всех переменных (категориальные были закодированы в бинарной форме) и 500 итерациями явились показатели важности факторов для прогнозирования общей выживаемости, представленные для переменных с наибольшим вкладом в модель на рисунке 2. Показатели важности рассчитаны в процессе работы алгоритма и означают вклад каждой переменной при формировании регрессионной модели. Показатели нормированы таким образом, что важность переменной с наибольшим вкладом равна единице, остальные определяются пропорционально. Отметим, что показатели важности не имеют аналогов в обычном регрессионном анализе, не являются ни регрессионными коэффициентами, ни показателями статистической значимости, поэтому могут быть использованы только для отбора переменных. Наибольший вклад вносит химиотерапия второй линии платиносодержащим агентом, на втором и третьем местах ― первичная циторедукция соответственно полная и оптимальная и неоптимальная. Остальные переменные имеют меньшие показатели важности, но для четырнадцати первых переменных превышают 0,4. Это дает возможность предположить, что регрессионная модель с включением данных переменных позволит прогнозировать общую выживаемость пациентов раком яичников.

Рис. 2. Диаграмма важности факторов при прогнозировании общей выживаемости

Fig. 2. Diagram of the importance of factors in predicting overall survival

С помощью алгоритма «случайного леса» были спрогнозированы значения общей выживаемости. Средняя абсолютная ошибка прогноза составила 12,46, среднеквадратическая ошибка модели составила 17,12. Однако, как отмечалось, данный алгоритм машинного обучения, работающий по принципу «черного ящика», не позволяет получить регрессионную модель в явном виде, что неудобно. Поэтому те переменные, которые были идентифицированы алгоритмом, как вносящие наибольший вклад в прогнозирование общей выживаемости, были включены в спецификацию модели пропорциональных рисков Кокса. Результаты представлены в таблице 2. Видно, что в многофакторной модели, включающей десять факторов, получивших оценки наибольшей важности в результате работы алгоритма «случайного леса» не все коэффициенты являются значимыми, что подтверждается вхождением единицы в доверительный интервал для оценок относительного риска. Причина такого результата заключается в наличии коллинеарности факторов, включенных в модель. Это подтверждается результатами оценки набора однофакторных регрессий Кокса, включенных в таблицу 2 для сравнения. По отдельности влияние каждого фактора на общую выживаемость является статистически значимым.

Таблица 2. Результаты оценки однофакторных и многофакторной модели Кокса для общей выживаемости

Table 2. Results of evaluation of single-factor and multi-factor Cox models for overall survival

Факторы Многофакторный анализ Однофакторный анализ
р ОР (95% ДИ) р ОР (95% ДИ)
Вторая линия терапии платиносодержащим агентом 0,845 0,97 (0,76-1,26) 0,006 1,37 (1,09-1,71)
Первичная циторедукция полная и оптимальная 0,037 1,58 (1,03-2,44) <0,001 0,45 (0,35-0,57)
Первичная циторедукция неоптимальная <0,001 4,11 (2,61-6,47) <0,001 2,38 (1,85-3,07)
Гистологический тип

серозный high-grade

0,046 1,43 (1,01-2,03) <0,001 1,83 (1,42-2,35)
Гистологический тип

серозный low-grade

0,305 1,26 (0,81-1,95) 0,047 0,72 (0,52-0,99)
Гистологический тип муцинозный рак <0,001 17,37 (5,93-50,84) <0,001 12,54 (4,62-34,03)
Опухоль в малом тазу

локальная

0,774 1,04 (0,80-1,36) 0,007 1,40 (1,10-1,78)
Стадия II 0,077 0,65 (0,41-1,05) 0,005 0,51 (0,32-0,81)
НАХТ <0,001 5,09 (3,28-7,91) <0,001 2,95 (2,33-3,74)
Возраст <0,001 1,04 (1,03-1,05) <0,001 1,05 (1,04-1,06)

Полученный результат свидетельствует о том, что хотя алгоритм «случайного леса» не позволяет получить регрессионную модель в явной форме, он позволяет преодолеть препятствие классического регрессионного анализа, связанного с ухудшением оценок модели при наличии корреляции независимых переменных.

Для иллюстрации значимости влияния факторов, выявленных алгоритмом «случайного леса», на общую выживаемость пациентов с раком яичников, а также оценки качества прогноза, полученного с помощью алгоритма, были построены функции дожития в форме множительных оценок Каплана ― Мейера. На рисунке 3 представлены фактические и прогнозные значения общей выживаемости для трех факторов, определенных алгоритмом, как первых по важности в построенной регрессии.

Рис. 3. Функции общей выживаемости пациентов с раком яичников (множительная оценка Каплана ― Мейера)

Fig. 3. Functions of the overall survival of patients with ovarian cancer (multiple score Kaplan ― Meyer)

Как видно на рисунке 3, общие выживаемости при наличии и отсутствии влияющих факторов различаются статистически значимо (р<0,001) по результатам расчета лог-рангового критерия. При этом формы фактических и прогнозных кривых дожития похожи, однако прогнозная модель дает более пессимистическую оценку дожития ― накопленная общая выживаемость убывает быстрее по сравнению с фактической оценкой. Это подтверждает возможность применения комбинации алгоритма «случайного леса» с регрессией Кокса и оценкой Каплана ― Мейера для прогнозирования общей выживаемости пациентов раком яичников.

 Обсуждение

Для анализа эффективности организации онкологической помощи проводится популяционная оценка общей выживаемости пациентов на основе данных канцер-регистра, располагающего сведениями о зарегистрированных на его территории больных и имеющего своевременные и полные сведения об их жизненном статусе. Эти данные не в полном объеме показывают влияние различных параметров общей выживаемости при раке яичников. Точный прогноз для отдельного пациента все еще затруднен с помощью традиционных статистических методов, поскольку большинство клинических характеристик демонстрируют многомерную и нелинейную связь [16, 17]. Метод машинного обучения обладает высокой гибкостью при обнаружении и распознавании сложных нелинейных взаимосвязей между переменными. В своем исследовании мы провели прогностическую оценку общей выживаемости с использованием алгоритма машинного обучения «случайный лес», и продемонстрировали, что его преимущество в решении данной задачи заключается в преодолении эффекта мультиколлинеарности, создающего смещение оценок стандартных ошибок коэффициентов и самих коэффициентов стандартной регрессии Кокса и приводящего к невозможности анализа результатов многофакторной регрессии Кокса. В качестве основных факторов, оказывающих значимое влияние на время дожития пациентов с раком яичников, выявлены применение во время второй линии химиотерапии платиносодержащих агентов, проведение первичной циторедукции (полной и оптимальной ― снижает риск смерти, неоптимальной ― повышает его), гистологического типа опухоли (серозный high-grade и муцинозный рак повышает риски смерти, серозный low-grade ― снижает).

 Заключение

Предложенный нами принцип применения алгоритма машинного обучения позволяет выделить из множества факторов, сопровождающих развитие рака яичников, те показатели, которые имеют прогностическое значение при определении выживаемости пациенток. Такой алгоритм машинного обучения может быть полезен для более точной оценки индивидуальных результатов и выбора наилучших вариантов лечения пациентов раком яичников.

 Поддержка

Исследование поддержано в рамках государственного задания Министерства здравоохранения Российской Федерации «Технологии искусственного интеллекта в фенотипировании тканевого и системного ремоделирования и прогнозировании исходов на стадиях развития хронических неинфекционных заболеваний у людей разных этнических групп».

 Конфликт интересов

Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.

 Источник финансирования

Авторы заявляют о финансировании проведенного исследования из собственных средств.

 Литература

  1. Mizuno M., Kajiyama H., Shibata K., et al. Prognostic value of histological type in stage IV ovarian carcinoma: a retrospective analysis of 223 patients // Br. J. Cancer. ― ― 112. ― P. 1376-83.
  2. Torre L.A., Trabert B., DeSantis C.E., et al. Ovarian cancer statistics, 2018 // CA Cancer J. Clin. ― ― 68. ― P. 284-296.
  3. Bendifallah S., Body G., Daraï E., & Ouldamer L. Diagnostic and prognostic value of tumor markers, scores (clinical and biological) algorithms, in front of an ovarian mass suspected of an epithelial ovarian cancer: Article drafted from the French Guidelines in oncology entitled «Initial management of patients with epithelial ovarian cancer» developed by FRANCOGYN, CNGOF, SFOG, GINECO-ARCAGY under the aegis of CNGOF and endorsed by INCa // Gynecologie, obstetrique, fertilite & senologie. ― 2019. ― 47 (2). ― P. 134-154. https://doi.org/10.1016/j.gofs.2018.12.013
  4. Paik E.S., Lee Y.Y., Lee E.J., et al. Survival analysis of revised 2013 FIGO staging classification of epithelial ovarian cancer and comparison with previous FIGO staging classification // Obstet. Gynecol. Sci. ― ― 58. ― P. 124-34.
  5. Zhordania K.I., Kalinicheva E.V., Moiseev A.A. Ovarian cancer: epidemiology, morphology and histogenesis // Oncogynecology. ― ― 3 (23). ― P. 26-32.
  6. Mosayebi A., Mojaradi B., Bonyadi Naeini A., & Khodadad Hosseini S.H. Modeling and comparing data mining algorithms for prediction of recurrence of breast cancer // PloS one. ― 2020. ― 15 (10). ― P. https://doi.org/10.1371/journal.pone.0237658
  7. Kaur I., Doja M.N., Ahmad T., et al. An Integrated  Approach for Cancer Survival Prediction Using Data Mining Techniques // Computational intelligence and neuroscience. ― ― 6342226. https://doi.org/10.1155/2021/6342226
  8. «Surveillance, epidemiology, and end results (SEER) Program». ― https://www.seer.cancer.gov.
  9. Network T.R. The Cancer Genome Atlas Data Portal, National Institute of Health, Maryland, USA, 2010.
  10. Gareth J., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning. — Springer, 2013.
  11. Senliol B., Gulgezen G., Yu L., Cataltepe Z. Fast Correlation Based Filter (FCBF) with a different search strategy // ISCIS’08. 23rd International Symposium on. — IEEE, 2008. — P. 1-4.
  12. Fagotti A., Ferrandina M.G., Vizzielli G., et al. Randomized trial of primary debulking surgery versus neoadjuvant chemotherapy for advanced epithelial ovarian cancer (SCORPION-NCT01461850) // International journal of gynecological cancer: official journal of the International Gynecological Cancer Society. ― 2020. ― 30 (11). ― P. 1657-1664. https://doi.org/10.1136/ijgc-2020-001640
  13. Kawakami E., Tabata J., Yanaihara N., et al. Application of Artificial Intelligence for Preoperative Diagnostic and Prognostic Prediction in Epithelial Ovarian Cancer Based on Blood Biomarkers // Clinical cancer research: an official journal of the American Association for Cancer Research. ― 2019. ― 25 (10). ― P. 3006-3015. https://doi.org/10.1158/1078-0432.CCR-18-3378
  14. Shen S., Wang G., Zhang R., et al. Development and validation of an immune gene-set based Prognostic signature in ovarian cancer // EBioMedicine. ― 2019. ― ― P. 318-326. https://doi.org/10.1016/j.ebiom.2018.12.054
  15. Ding C., Peng H., Minimum redundancy feature selection from microarray gene expression data. In: Computational Systems Bioinformatics CSB2003 Proceedings of the 2003 IEEE Bioinformatics Conference CSB2003: 11-14 Aug. 2003. ― P. 523-528.
  16. Zhu L., Luo W., Su M., et al. Comparison between artificial neural network and Cox regression model in predicting the survival rate of gastric cancer patients // Biomed. Rep. ― ― 1. ― P. 757-60.
  17. Каминский Ю.В., Полушин О.Г., Горелик М.З. Морфогистохимические исследования в современной клинике // Тихоокеанский медицинский журнал. ― ― 4. ― С. 7-12.