СТАТИСТИЧЕСКИЙ АНАЛИЗ КОЛИЧЕСТВЕННОГО ПРЕДСТАВЛЕНИЯ ЛЕТУЧИХ МЕТАБОЛИТОВ МОЧИ КАК ВОЗМОЖНЫХ ОНКОМАРКЕРОВ

© Р.Р. Фурина, Я.А. Фурман, С.А. Казанкова, С.А. Казанков, Е.А. Голодюк, М.О. Гремякина, Н.Н. Митракова, 2018

УДК 54.061:543.06:577.121:612.015.3:616.15:616.633:616.24-008.8-074

Р.Р. Фурина1,2, Я.А. Фурман1, С.А. Казанкова1, С.А. Казанков1, Е.А. Голодюк1,2, М.О. Гремякина1, Н.Н. Митракова1,2

1ГБУ РМЭ «Республиканская клиническая больница», г. Йошкар-Ола

2ФГБОУ ВПО «Государственный Поволжский технический университет», г. Йошкар-Ола

Митракова Нина Николаевна ― доктор медицинских наук, профессор кафедры радио-технических и медико-биологических систем ФГБОУ ВПО «Государственный Поволжский технический университет», заведующая эндоскопическим отделением ГБУ РМЭ «Республиканская клиническая больница»

424030, г. Йошкар-Ола, ул. Осипенко, д. 33, тел.: (362) 42-64-54, +7-927-871-90-22, e-mail: endomitrakova@mail.ru

Резюме. Решается задача выбора информативных признаков летучих метаболитов мочи пациентов как онкомаркеров для диагностики рака легких. На хромато-масс-спектрограммах, полученных на хроматографе «Хроматэк-Кристалл-5000», определены характеристики порядка 150 метаболитов, выделенных из мочи пациентов. Выполнен предварительный отбор 16-ти метаболитов для дальнейших исследований. Проведен двухэтапный математический анализ хроматографических данных. В качестве информативных признаков были приняты значения высоты  и площади  пиков каждого метаболита. На первом этапе анализа проверялась справедливость нулевой гипотезы для выборочных данных параметров  и . Показано, что только для метаболита Disulfide dimethyl нулевая гипотеза уверенно отвергается. На втором этапе анализа параметров данного метаболита методом максимального правдоподобия получены оценки вероятностей правильной диагностики рака легких для контрольной группы и группы, больных раком легкого, соответственно равные 0,733 и 0,677.

Ключевые слова: онкомаркеры, метаболиты, диагностика рака легких.

Введение

На сегодня во всем мире проводятся активные исследования по обнаружению онкомаркеров. Большие надежды в данном вопросе возлагаются на молекулярную биологию, активно развивающуюся в последнее время. Результатом расшифровки генома человека является возникновене ряда научных направлений принципиально нового характера, получивших собирательное название «постгеномные технологии». К ним относятся метаболомика, изучающая совокупность метаболитов (метаболический профиль) у пациента при данной патологии [1, 5]. Поэтому на метаболомику возлагаются большие надежды в поиске метаболитов ― биомаркеров заболеваний, и в первую очередь онкологических. 

Одним из направлений подобных исследований служит разработка простого, неинвазивного, обладающего низкой стоимостью метода диагностики онкопатологии при диспансеризации населения и, в перспективе, для самостоятельного обследования с использованием тест-систем [1, 2, 5, 6]. В последнем десятилетии активно обсуждаются методы, основанные на анализе метаболизма человека при наличии онкологических заболеваний [3, 4, 12]. Среди них существенную роль играют методы, основанные на хроматографии с масс-спектрометрическим детектированием [9, 10, 11]. Применение хромато-масс-спектрометрии в обнаружении рака получила широкое применение благодаря работам Филлипса и его коллег, разработавших «электронный нос» для автоматизированного анализа дыхания и обнаружения летучих органических соединений для различных видов онкопатологии [7, 8].

Цель данной работы состоит в разработке двух последовательно выполняемых процедур. Первая из них является тест-пробой для разделения сформированных выборок с количественными данными метаболита в контрольной и рабочей группах на два класса: группа с информативным метаболитом и группа с нонинформативным метаболитом. Вторая процедура является классическим статистическим анализом, в результате которого для группы с информативным метаболитом принимается диагностическое решение.

Методика подготовки материалов для анализа состава летучих метаболитов мочи

Исследования проводились в лаборатории компании «Хроматэк» на базе газового хроматографа «Хроматэк-Кристалл 5000» отечественного производства. Для подготовки пробы использовался метод твердофазной микроэкстракции (ТФМЭ). Метод основан на сорбции компонентов газовой фазы образца на нить с полимерным покрытием и ее последующей термической десорбцией в предварительно нагретом инжекторе газового хроматографа (рис. 1).

Рис. 1. Шприц ТФМЭ

Суть газовой хроматографии заключается в разделении смеси образца на компоненты, перемещающиеся по хроматографической колонке с потоком газа-носителя. По мере движения разделяемая смесь многократно распределяется между газом-носителем и нелетучей неподвижной жидкой фазой. Масс-спектрометрический Детектор обнаруживает в потоке газа-носителя анализируемые вещества по какому-либо физико-химическому свойству. Отклик осуществляется за счет преобразования свойств в электрический сигнал. В масс-спектрометрическом детекторе ионизированные компоненты разделяются в соответствии с их m/z (отношение массы иона к заряду), и регистрируемый ионный ток для каждого значения m/z преобразуется в масс-спектр.

Формирование метаболических профилей больных онкопатологией

В процессе проведения исследования была сформирована группа из 94 пациентов с клинически подтвержденным раком легкого (РЛ) и контрольная группа (КГ) из 134 клинически здоровых людей.

Результатом каждого хромато-масс-спектрометрического анализа является набор летучих метаболитов мочи пациента, представляющий собой таблицу с перечнем детектированных системой ГХ-МС химических соединений, с соответствующей информацией о времени выхода из колонки и достоверностью интерпретации состава соединений. Пик характеризовался следующими количественными параметрами: высота h пика и его площадь s. Из полученного профиля исключались вещества, выделяющиеся с поверхности колонки и других частей хроматографа. Пример файла с результатами, полученными методом ГХ-МС приведен на рисунке 2.

Рис. 2. Пример файла хромато-масс-спектра (матрица)

Отбор данных для проведения диагностических исследований

При проведении исследований биологического материала на газовом хроматографе «Хроматэк-Кристалл 5000» зарегистрированы 114 летучих метаболитов. Из них для пациентов контрольной группы КГ ― 46, и для пациентов группы РЛ ― 68 метаболитов. Как уже было отмечено выше, каждый метаболит в обеих группах был количественно охарактеризован следующими параметрами: время выхода tвых, высота пика h, площадь пика s и достоверность сравнения Pпр с соединениями из банка эталонов. В качестве информативных параметров были приняты параметры h и s ― соответственно высота и площадь пика на хроматограмме по выбранному иону при условии достаточно высоких значений параметра Pпр (Pпр≥0,8). Параметры h и s рассматриваются в качестве количественных концентраторов информации о наличии и отсутствии у пациента рака легких. Из большого количества полученных с помощью газового хроматографа летучих метаболитов большая часть была исключена из дальнейшего анализа по следующим причинам:

  • отсутствия значительного количества значений параметров h и s; для пациентов обеих групп;
  • малая частота встречаемости метаболита в группе (например, метаболит 3-methylfuran был получен только для семи пациентов КГ);
  • низкое значение параметра Pпр.

С учетом этих ограничений диагностические исследования далее проводились для следующих 16-ти метаболитов: methanethiol; hexanal; 2-ethyl-methylfuran; 2,5dimethylfuran; 2,3,5-triethylfuran; dimethyldisulfide; dimethyltrisulfide; acetone; 4-heptanone; 2-pentanone; 2-methoxythiophene; 2h-1-benzopyran; 2-butanone; 2,6,10,10-tetramethyl-1-oxaspiro4.5dec-6-ene; 2-ethyl-1-hexanol; 1-bromo-2-methyl-2propanol.

Методика тест-пробы полученных выборок

В соответствии со сформулированной целью данной статьи, для быстрого определения из полученных на хроматографе профилей 16-ти метаболитов была выполнена проверка для каждого из них нулевой гипотезы. Нулевая гипотеза в рамках данного исследования для конкретного метаболита заключалась в следующем утверждении: выборки значений параметров h и s для групп КГ и РЛ относятся к одной и той же генеральной совокупности. Очевидно, если нулевая гипотеза имеет место, то эти выборки в плане вынесения диагноза являются нонинформативными. Следует отметить, что отрицание нулевой гипотезы для конкретного метаболита еще не является достаточным условием для принятия решения о наличии или отсутствия рака легкого у пациента. Нулевая гипотеза используется для оценки генеральных параметров случайной величины по их выборочным данным. Если в результате проверки эта гипотеза принимается, то это значит, что изменчивость генеральных параметров случайных величин вызвана второстепенными случайными причинами. Поэтому обе анализируемые выборки относятся к одной и той же генеральной совокупности и, следовательно, пациенты групп КГ и РЛ либо оба здоровы, либо страдают патологией. Критерием оценки служит стандартная величина нормированного отклонения , с которой сравнивается фактическое значение этого критерия. Критерием достоверности различия между средними  и  выборок групп КГ и РЛ служит отношения разности средних  к своей статистической ошибке. Вычисление этого соотношения выполняется по формуле 1.

.                                  (1)

В этом выражении через  обозначены объем выборки и ее дисперсия для группы КГ, а через  ― аналогичные параметры выборки для группы РЛ. Предполагая нормальный закон распределения вероятностей в этих выборках можно задать в рамках нулевой гипотезы вероятность того, что выборочная средняя m не отклонится от средней M генеральной совокупности больше, чем на 2t, где . Заранее установленный процент случаев, когда такое отклонение будет иметь место, называемый уровнем значимости гипотезы, позволяет принять или отвергнуть нулевую гипотезу. Обычно в исследовательской практике приняты три уровня значимости гипотезы, равные соответственно 5%, 1% и 0,1%. Им соответствуют следующие величины  . Если из соображений значимости проводимого эксперимента выбран конкретный уровень значимости , то при                                                                     (2)

нулевая гипотеза принимается. Здесь ― величина, вычисляемая по формуле (1). Следует отметить, что в целом ряде случаев диагностическое решение принимается не по одному, а по нескольким информативным признакам. При этом для отклонения нулевой гипотезы надо учитывать вклад каждого из таких признаков и для каждого из них устанавливать отдельный уровень значимости.

В таблице 1 приведены результаты тест-пробы 16-ти отобранных для диагностических исследований метаболитов. Для каждого из них вычислялись два значения параметра ― одно значение для  выборки высоты пиков, другое значение  ― для выборки площади этих пиков. Как следует из данных этой таблицы перспективным метаболитом для диагностики рака легкого является Disulfide dimethyl со значениями . Среди других метаболитов, позволяющих получить полезную информацию для принятия диагностического решения, отметим следующие: Furan, 2-ethyl-5-methyl , Dimethyltrisulfide  и 1-Oxaspiro4 .

Таблица 1. Результаты тест-пробы 16-ти метаболитов

Необходимо отметить, что эти результаты имеют предварительное, ориентировочное значение, так как получены при условии нормального закона распределения вероятностей в исследуемых выборках. Более точное решение будет найдено ниже по результатам статистического анализа полученных выборок для метаболита Disulfide dimethyl.

Методика уточненного анализа выборочных значений метаболита Disulfide dimethyl на основе значений функции правдоподобия

Как видно из данных таблицы 1 для метаболита Disulfide dimethyl были получены значения параметров , с высокой вероятностью отвергающие нулевую гипотезу для выборок высоты и площади пиков данного метаболита на хроматограммах. Поэтому он является достаточно перспективным для эффективной диагностики рака легких. Целью уточненного анализа будет получение оценок вероятности правильной диагностики Pnp по выборочным значениям параметров h и s данного метаболита для групп КГ и РЛ. При проведении анализа примем следующие условия: 1) выборочные значения взаимно независимы и 2) случайные величины в выборке h и групп КГ и РЛ подчинены нормальному закону распределения вероятностей. Хотя справедливость этих предположений достаточно сомнительна, но это не приведет к получению окончательных ошибочных результатов, так как вероятности Pnp будут получены опытным путем использования объективных данных, полученных по метаболиту Disulfide-dimethyl методом ГХ-МС для обеих групп КГ и РЛ. Использование при расчетах Pnp приведенных выше предположений дает возможность использовать хорошо известный математический аппарат для нормального закона распределения, а полезность полученных значений Pnp далее буде подтверждена экспериментальным путем. В качестве критерия принятия решения об отнесении выборочного значения параметра h или метаболита к здоровому или больному пациентам будет использован критерий максимального правдоподобия. Широкое применение данного критерия на практике объясняется не только получением результатов сравнительно простыми расчётами, но и возможностью использования для этого минимального количества данных. Решение принимается на основании сравнения отношения правдоподобия  с пороговым значением , т.е.

 

где ― отсчеты функций правдоподобия, полученные при подстановке в выражение для плотности нормального распределения вероятностей выборочных значений. В целом ряде случаев пороговое значение  принимается равным единице, т.е..   

При использовании выражений (3) и (4) предварительно должны быть найдены параметры распределения законов вероятностей для выборочных значений. В нашем случае был принят нормальный закон распределения плотности вероятностей, задаваемый параметрами  найденных по экспериментально полученным выборкам. В таблице 2 приведены значения этих параметров.        Для нахождения отсчета функции правдоподобия L используется выражение для плотности распределения вероятностей нормально распределенной случайной величины                          

где x ― нормированное значение выборочной случайной величины, получаемое следующим образом:

Параметры в этих формулах для каждой из групп КГ или РЛ берутся из таблицы 2. Например, если нормируется отсчет 10,94 высоты пика метаболита Disulfide dimethyl, в предположении, что он относится к группе КГ, то

Таблица 2. Параметры, выбранные для рабочей (РЛ) и контрольной (КГ) групп

Таблица 3. Результаты автоматической диагностики пациентов контрольной группы по высоте h пика

Таблица 4. Результаты автоматической диагностики пациентов контрольной группы по площади s пика

Таблица 5. Результаты автоматической диагностики пациентов рабочей группы по высоте h пика

Таблица 6. Результаты автоматической диагностики пациентов рабочей группы по площади s пика

Таблица 7. Оценки вероятностей правильных решений по величине параметров h и s метаболита Disulfide dimethyl

Воспользовавшись таблицей для функции (5) получаем отсчет функции правдоподобия 

Если же предполагается, что этот отсчет относится к группе РЛ, то

Отсчет функции правдоподобия для этого случая имеет вид  Отношение правдоподобия для рассмотренного примера равно

Заключение

В процессе проведения исследования летучих метаболитов мочи клинически здоровых пациентов (контрольная группа КГ) и пациентов с клинически установленным диагнозом рака легких (рабочая группа РЛ) установлено статистическое различие параметров  метаболита Disulfide-dimethyl для этих групп. Для данного метаболита не подтвердилась нулевая гипотеза в отношении выборочных значений высот и площадей пиков на хроматограмме соответствующих параметров метаболита Disulfide-dimethyl. Дальнейший анализ выборочных данных на основе аппарата функций правдоподобия позволил оценить вероятности правильной постановки диагноза для группы КГ (пациент здоров), равную 0,666 и для РЛ группы (пациент болен), равную 0,733. Данные оценки постановки правильного диагноза охватывают достаточно высокий 70-ти процентный уровень. Они представляют практический интерес и стимулируют проведение дальнейших исследований в поисках других метаболитов, позволяющих увеличить этот уровень до 95%.

Литература

  1. Фурина Р.Р., Рыжков В.Л., Митракова Н.Н., и др. Метод ранней диагностики рака желудка на основе матаболомических исследований // Экспериментальная и клиническая гастроэнтерология. ― 2014.  ―вып. 110, №10. ― С. 14-17.
  2. Фурина Р.Р., Митракова Н.Н., Рыжков В.Л., Сафиуллин И.К. Метаболомические исследования в медицине // Казанский медицинский журнал. ― 2014. ― XCV (1). ― С. 1-6.
  3. Царев Н.И., Царев В.И., Катраков И.Б. Практическая газовая хроматография. ― Барнаул: Изд-во Алт. Ун-та, 2000. ― 156 с.
  4. Kouremenos К.А., Pitt J., Marriott P.J. Metabolic profiling of infant urine using comprehensive two-dimensional gas chromatography: Application to the diagnosis of organic acidurias and biomarker discovery // Journal of Chromatography A. ― 2010. ― 1217. ― P. 104-111.
  5. Oliveira P.A., Colaco A., Chaves H.R. et al. Chemical carcinogenesis // An Acad. Bras. Cienc. ― 2007. ― 79. ― P. 593-616.
  6. Patti G.J., Yanes O., Siuzdak G. Innovation: Metabolomics: the apogee of the omics trilogy // Nat. Rev. Mol. Cell. Biol. ― 2012. ― 13. ― P. 263-269.
  7. Phillips M., Cataneo R.N., Cummin A.R.C. et al. Detection of lung cancer with volatile markers in the breath // Chest. ― 2003. ― 123 (6). ― P. 2115-2123.
  8. Phillips M., Gleeson K., Hughes J.M., et al. Volatile organic compounds in breath as markers of lung cancer: a crosssectional study // Lancet. ― 1999. ― 353. ― P. 1930-1933.
  9. Pauling L., Robinson A.B., Teranishi R., Cary P. Quantitative analysis of urine vapor and breath by gas-liquid partition chromatography // Proc. Natl. Acad. Sci. USA. ― 1971. ― 68. ― P. 2374-2376.
  10. Silva C.L., Passos M., Camara J.S. Investigation of urinary volatile organic metabolites as potential cancer biomarkers by solid-phase microextraction in combination with gas chromatography-mass spectrometry // British Journal of Cancer. ― 2011. ― 105. ― P. 1894-1904.
  11. Zimmermann D., Hartmann M., Moyer M.P. et al. Determination of volatile products of human colon cell line metabolism by GC/MS analysis // Metabolomics. ― 2007. ― 31. ― P. 13-17.
  12. Woo H.M., Kim K.M., Choi M.H. et al. Mass spectrometry based metabolomic approaches in urinary biomarker study of women's cancers // Clin. Chim. Acta. ― 2009. ― 400. ― P. 63-69.