MULTIPLE COMPARISONS IN BIOMEDICAL RESEARCH: THE PROBLEM AND ITS SOLUTIONS

Cover Page

Abstract


One of the most common but rarely discussed problems in Russian biomedical research is a problem of multiple comparisons. When a researcher performs pairwise comparisons of means in several groups the number of tested ststistical hypotheses increases leading to inflation of the alpha-error. In international scientific literature this issue is well-described and several solutions are offered. The aim of this article is to describe the problem of alpha error inflation and present methods for solving the problem of multiple comparisons. The methods suggested in this paper can be applied at the stages of research planning, data analysis and interpretation of the results. Bonferroni, Sidak, Holm-Bonferroni, Holm-Sidak and the Benjamin-Hochberg methods are described in details. We also present user-friendly examples for manual calculations as well as a description of implementation of the suggested solutions using SPSS software.

Full Text

В настоящее время одной из широко распространенных, но редко обсуждаемых проблем статистического анализа является проблема множественных сравнений. Эта проблема заключается в том, что увеличение числа проверяемых в процессе исследования статистических гипотез приводит к увеличению вероятности возникновения ошибок первого типа [2, 3, 21]. Увеличение вероятности возникновения ошибок первого типа приводит к тому, что исследователи могут констатировать наличие случайных, но статистически 55 Методология научных исследований Экология человека 2020.10 значимых различий или связей, что в свою очередь приводит к ошибочным заключениям и выводам. Особенно актуальна эта проблема для генетических исследований, при проведении которых современная техника позволяет измерять тысячи, десятки тысяч различных параметров, в последующем подвергаемых статистическому анализу и сравнению [9, 12, 15]. В то же время в русскоязычной биомедицинской литературе часто встречается сравнение нескольких групп без проведения коррекции на инфляцию ошибки первого типа, что делает результаты таких исследований как минимум сомнительными, особенно при дихотомизации результатов на «p < 0,05» и «p > 0,05», что является малоинформативным способом представления результатов проверки статистических гипотез и затрудняет понимание результатов читателями в случае множественных сравнений. В зарубежной научной литературе данной проблеме посвящена масса работ, как предлагающих новые подходы к решению проблемы множественных сравнений, так и описывающих применение уже общепризнанных методов [11, 13, 14, 19]. Однако в отечественной литературе такие работы встречаются довольно редко [1, 4, 5]. В чем же заключается проблема множественных сравнений? В биомедицинской литературе общепринятым считается использовать уровень альфа-ошибки, равный 5 %, т. е. за критическое значение уровня значимости берется 0,05. Это означает, что мы в 5 % случаев готовы отклонить верную нулевую гипотезу, то есть принять решение о наличии различий там, где их на самом деле нет. Это называется ошибкой первого рода или типа. Если допустить, что истинных различий между сравниваемыми группами нет, то величина достигнутого уровня значимости (р) будет соответствовать вероятности обнаружения выявленных или еще более выраженных отличий между сравниваемыми группами в исследованиях с аналогичными объемами выборки. Если мы берем 0,05 за критический уровень значимости, то вероятность ошибки первого типа будет 5 %. Вероятность отсутствия этой ошибки составит 0,95, или 95 %. При проведении, например, шести сравнений (сравниваем попарно четыре группы - 1-2, 1-3, 1-4, 2-4, 2-3, 3-4) вероятность отсутствия ошибки первого типа в любом из сравнений составит 0,95n, то есть 0,954 = 0,815, или 81,5 %, а значит, вероятность сделать хотя бы одну ошибку первого типа будет равна 1 - 0,95n = 1 - 0,815 = 0,185, или 18,5 % вместо объявленных 5 %! Таком образом становится понятным, что в публикациях, где результаты представлены наподобие «p < 0,051-2, p > 0,052-3, p > 0,051-3 p < 0,051-4 p < 0,052-4 p > 0,052-3 p > 0,053-4» (чаще, конечно, мы видим такие результаты в таблицах), абсолютно невозможно сделать вывод о статистической значимости различий между группами 1 и 2, 1 и 4 и 2 и 4, а потому результаты должны интерпретироваться в лучшем случае как сомнительные. Максимальное количество возможных сравнений в зависимости от количества групп в исследовании рассчитывается с помощью формулы: n = 0,5 х N х (N -1), где N - количество изучаемых групп. Нам очень нравится пример, который был описан ранее, но который по-прежнему актуален. «При попарных сравнениях среднемесячных значений тех или иных показателей максимальное количество возможных сравнений составит n = 0,5 х 12 х (12 - 1) = 66. Если оставить критический уровень значимости без изменений (0,05), то вероятность случайного обнаружения статистически значимых различий составит 1 - 0,9566 = 0,966, или 96,6 %» [2]. То есть, если не обращать внимание на проблему множественных сравнений, риск ошибочных выводов крайне велик! В данной статье мы рассматриваем способы решения проблемы множественных сравнений, которые могут применяться в медико-биологических исследованиях. Для удобства изложения информации мы разделили их на три группы по этапу исследования, на котором они могут применяться: 1) на этапе планирования исследования; 2) этапе статистического анализа; 3) этапе интерпретации результатов статистического анализа. Решение проблемы множественных сравнений на этапе планирования исследования Рассмотрим решение проблемы множественных сравнений на этапе планирования исследования на примере. Исследователем планируется сравнить число госпитализаций за 10 лет у пациентов с сахарным диабетом, которые лечились двумя разными методами, и пациентов, которые не лечились. В данном случае I группа (опытная группа № 1) - пациенты с сахарным диабетом, которые лечились методом № 1, II группа (опытная группа № 2) - пациенты с сахарным диабетом, которые лечились методом № 2, III группа (контрольная группа) - пациенты с сахарным диабетом, которые не принимали лечения, а признак, который сравнивается в этих трех группах, - число госпитализаций за 10 лет (рис. 1). Группа пациентов без лечения (контрольная) Группа пациентов с лечением методом № 1 (опытная № 1) Группа пациентов с лечением методом № 2 (опытная № 2) Рис. 1. Три группы пациентов, страдающих сахарным диабетом Классически при проведении таких экспериментов исследователи прибегают к попарному сравнению имеющихся групп. То есть если исследователь имеет три группы, то попарная оценка различий осуществляется между I и II, I и III, II и III группами. Таким образом, исследователь осуществляет проверку трех гипотез о наличии различий между группами (рис. 2). Опыт статистического анализа данных показывает, что даже при наличии трех и более групп от попарного сравнения данных групп в целом можно отказаться, но при этом решить поставленные задачи [6]. На самом 56 Экология человека 2020.10 Методология научных исследований Группа пациентов без лечения (контрольная) Группа пациентов с лечением методом № 1 (опытная № 1) Группа пациентов без лечения (контрольная) Группа пациентов с лечением методом № 2 (опытная № 2) Г руппа пациентов с лечением методом № 1 (опытная № 1) Группа пациентов с лечением методом № 2 (опытная № 2) Рис. 2. Этапы сравнения трех групп пациентов, страдающих сахарным диабетом деле при планирования такого эксперимента можно ограничиться двумя сравнениями. Если принять во внимание исходную задачу и группы, которые имеются у исследователя, то скорее всего перед ним стоит задача доказать, что число госпитализаций у пациентов без лечения отличается от числа госпитализаций у пациентов с лечением. Следующая задача - доказать, что число госпитализаций у пациентов с лечением методом № 1 отличается от числа госпитализаций у пациентов с лечением методом № 2. Если перед исследователем стоят действительно две описанные выше на примере задачи, то эти задачи могут быть решены путем всего двух сравнений (рис. 3). Для этого можно объединить пациентов с лечением методами № 1 и № 2 в одну группу, а затем сравнить число госпитализаций в группах пациентов без лечения и пациентов с лечением методом № 1 и методом № 2. И на следующем этапе сравнить число госпитализаций в группах пациентов с лечением методом № 1 и пациентов с лечением методом № 2. Г руппа пациентов без лечения (контрольная) Группа пациентов с лечением методом № 1 и методом № 2 (опытные № 1 и № 2) Г руппа пациентов с лечением методом № 1 (опытная № 1) Группа пациентов с лечением методом № 2 (опытная № 2) Рис. 3. Сравнение трех групп в два этапа Таким образом, если имеются три и более группы сравнения, практически всегда необходимо будет перейти к попарным сравнениям, но при этом еще на этапе планирования эксперимента можно снизить число данных сравнений и сформировать несколько иные группы пациентов. Надо отметить, что способ, описанный в настоящем разделе, подойдет далеко не всегда, но в первую очередь следует оценить, возможно ли с его помощью уменьшить число сравнений при планировании эксперимента. С помощью программного обеспечения SPSS данный подход может быть реализован путем проведения плановых сравнений (contrasting) в ходе дисперсионного анализа, если соблюдаются условия для его применения. Детали применения дисперсионного анализа в SPSS, Statistica и Stata описаны в [1, 4, 5]. Для проведения плановых сравнений средних арифметических в нескольких группах необходимо в выпадающем меню «Анализ (Analyze)» выбрать «Сравнение средних (Compare Means)», в котором, в свою очередь, выбрать «Дисперсионный анализ» (One-Way ANOVA). В появившемся диалоговом окне (рис. 4) выбираем зависимую переменную и группи-ровочную переменную, как описано в [2], поэтому во избежание повторного представления материала остановимся только на плановых сравнениях, которые выбираем посредством нажатия на кнопку «Contrasts» в нижнем ряду, после чего появится диалоговое окно как на рис. 5 Рис. 4. Диалоговое окно для дисперсионного анализа с выбранными переменными для анализа в SPSS Рис. 5. Диалоговое окно для плановых сравнений (Contrasts) в SPSS Для этого в соответствующем меню необходимо дать обозначения группам, чтобы программа «поняла», какие сравнения надо проводить. Особенностью кодировки групп при проведении плановых сравнений в SPSS при наличии нескольких групп является необходимость обеспечения суммы номеров групп, равной нулю. Группа, которая не участвует в сравнениях, кодируется как 0. На практическом примере эта особенность выглядит понятнее. Если имеются три группы (как на рис. 1-3), то для сравнения контрольной и объединенной опытной группы необходимо задать коды для групп в виде -2, 1 и 1. Таким образом, значение первой группы и сумма значений второй будут равны нулю, то есть SPSS «поймет», что мы хотим сделать. Для сравнения двух опытных групп надо прежде всего исключить 57 Методология научных исследований Экология человека 2020.10 из анализа контрольную группу, а двум опытным группам присвоить значения - 1 и 1, что в сумме также составляет 0. Для первого сравнения вводим вышеупомянутые коэффициенты, как показано на рис. 6. После введения коэффициентов (после каждого нажимаем кнопку «Add»), следующее плановое сравнение вводим после нажатия на кнопку «Next». Рис. 6. Коэффициенты для осуществления планового сравнения контрольной группы и объединенной группы из двух экспериментальных Для второго сравнения вводим коэффициенты, как показано на рис. 7. Рис. 7. Коэффициенты для осуществления планового сравнения двух экспериментальных групп Запускаем анализ кнопкой «Continue», затем «ОК». В результате программа выдает три таблицы с ответами, первая из которых содержит результат дисперсионного анализа (для особенностей интер претации - см. [2]). Следующие две таблицы посвящены плановым сравнениям. Таблица «Contrasts coefficients» повторяет введенные коэффициенты для первого и второго сравнений (рис. 8). Contrast Coefficients Gruppa Contrast 1 2 3 1 -2 1 1 2 0 -1 1 Рис. 8. Таблица «Contrasts Coefficients» в SPSS. Объяснения в тексте Результаты проверки статистических гипотез в двух сравнениях представлены в таблице «Contrast Tests» (рис. 9). Номера сравнений соответствуют тем, что указаны в предыдущей таблице и пояснены выше. В табл. 9 показаны средние значения разности между средними для запланированных сравнений (Value of Contrast), стандартные ошибки для этих разностей, значение t-критерия с указанием числа степеней свободы (df) и достигнутого уровня значимости (Sig (2-tailed)). Из таблицы видно, что есть статистически значимые различия между контрольной группой и комбинированной экспериментальной, но нет между двумя экспериментальными группами независимо от того, допускаем ли мы соблюдение условия равенства дисперсий. Решение проблемы множественных сравнений на этапе статистического анализа Если избежать попарных сравнений путем перегруппировки изучаемых пациентов на этапе планирования не удается, можно воспользоваться способами уменьшения числа сравнений групп, которые применяются в апостериорных тестах Ньюмена - Кейлса и Даннета при проведении дисперсионного анализа [10, 16, 18]. Процедура, используемая в апостериорном тесте Ньюмена - Кейлса заключается в следующем. На первом этапе для каждой исследуемой группы рассчитывается среднее арифметическое, затем группы упорядочиваются по мере увеличения или уменьшения среднего арифметического. На следующих этапах производится сравнение последней группы с I, II, III и так далее до предпоследней. Далее сравнивается предпоследняя группа с I, II, III и так далее Contrast Tests Contrast Value of Contrast Std. Error t df Sip. (2-tailed) N Азбите equal variances 1 -5,40 1,289 -4,190 26 ,000 2 -80 ,718 -1,114 26 ,275 Does not assume equal 1 -5,40 1,472 -3,669 11,630 ,003 variances 2 -,80 ,624 -1,283 17,611 ,216 Рис. 9. Таблица «Contrast Tests» в SPSS. Объяснения в тексте 58 Экология человека 2020.10 Методология научных исследований до предпредпоследней. Суть процедуры уменьшения числа сравнений заключается в том, что если между какими-то парами групп нет статистически значимых различий, то дальнейшее сближение не происходит, так как при последующем сближении априори нет статистически значимых различий. Процедура, используемая в апостериорном тесте Даннета, похожа на предыдущую, только она применяется в том случае, когда среди групп есть контрольная группа, с которой необходимо сравнить все остальные. На первом этапе для каждой исследуемой группы также рассчитывается среднее арифметическое, затем группы упорядочиваются по мере увеличения или уменьшения среднего арифметического, далее контрольная группа сравнивается с наиболее от нее отличающейся по значению среднего арифметического. Суть процедуры заключается в том, что опять же если между контрольной группой и какой-то из групп различий нет, то дальнейшее сближение не осуществляется. Таким образом, исследователем может быть уменьшено число гипотез, которые проверяются в процессе эксперимента. Следует отметить, что описанные в этом разделе процедуры подойдут только в случае использования параметрических тестов, т. е. в случае подчинения сравниваемых данных закону нормального распределения и соблюдения прочих условий их применения. Для попарного сравнения непараметрических тестов данные процедуры непригодны. В SPSS решение проблемы множественных сравнений на этапе статистического анализа найдено посредством включения 18 статистических критериев, призванных держать под контролем ошибку первого типа, при проведении попарных сравнений (Post-hoc Tests), из которых наилучшее сочетание мощности и контроля за ошибкой первого типа предлагает критерий REGWQ (Ryan, Einot, Gabriel, Welsh Q-критерий), который можно рекомендовать как критерий выбора при сравнении любого количества групп приблизительно равного объема. Если же объемы групп различаются, мы рекомендуем GT-2 критерий Хохберга (Hochberg’s GT-2 test). Для обоих вышеперечисленных критериев необходимо соблюдение условия равенства дисперсий. При несоблюдении этого условия целесообразно применять критерий Games-Howell. Для сравнения нескольких групп с контрольной в SPSS применяется критерий Даннетта (Dunnett’s test). Алгоритм применения вышеупомянутых критериев детально описан в наших более ранних публикациях [2, 4]. Решение проблемы множественных сравнений на этапе интерпретации результатов статистического анализа Если ни один из предыдущих способов и процедур не позволяет в процессе планирования и статистического анализа уменьшить число проверяемых гипотез, то уже после проведенного статистического анализа также возможно скорректировать результаты для решения проблемы множественных сравнений. Для этого используются различные методы корректировки значений p и а. Значение p (уровень значимости) - значение, которое получает исследователь по результатам применения какого-либо статистического теста (например, p = 0,015 или p = 0,896). Значение а - граничное значение уровня значимости, которое используется при интерпретации результатов применения статистических тестов. Как правило, в медико-биологических исследованиях в качестве а применяется значение 0,050 - если p < 0,050, то нулевая гипотеза отклоняется, т. е. различия статистически значимы, а если p > 0,050, то нулевая гипотеза принимается, т. е. различия статистически незначимы. Все методы корректировки значений p и а также можно разделить на две группы: одношаговые и многошаговые. К одношаговым методам корректировки относятся поправки Бонферрони и Сидака (Шидака) [8, 17, 20, 22]. К многошаговым методам относятся методы Холма - Бонферрони, Холма - Сидака (Шидака) и метод Бенджамини - Хохберга [7, 14]. Поправка Бонферрони Рассмотрим наиболее известный из всех представленных методов - поправку Бонферрони. При проведении множественных сравнений данная поправка позволяет скорректировать значение а, которое должно использоваться для принятия решения о принятии или отклонении нулевой гипотезы. Корректировка производится по формуле: m где а - первоначальный уровень альфа (0,050); ав - скорректированный уровень а с помощью поправки Бонферрони; m - число сравнений (гипотез). Таким образом, если исследователь первоначально использовал в качестве а значение 0,050 и произвел 10 попарных сравнений, то в качестве граничного значения а необходимо использовать значение 0,005. Если при каких-то сравнениях p < 0,005, то только в них можно считать наличие статистически значимых различий. В остальных случаях (p > 0,005) необходимо признать отсутствие статистически значимых различий. Корректировка значения а не всегда удобна при представлении результатов исследований в статье или диссертации, так как при представлении результатов проверки гипотез принято указывать значение p. Помимо этого на разных этапах исследования а может быть различным, что затрудняет как представление результатов, так и их чтение. Проще всего скорректировать полученные значения p, а граничное значение а так и останется равным 0,050. Корректировка значений p производится по формуле: pAdjisted = p ^ ^ где p - полученное по результатам сравнения зна а 0B 59 Методология научных исследований Экология человека 2020.10 чение p; pAdjusted - скорректированное значение p; m - число сравнений (гипотез). Таким образом, если исследователь по результатам сравнения между какими-либо группами получил p = 0,024, но при этом произвел десять попарных сравнений, то в качестве значения p необходимо использовать p = 0,240. В свою очередь скорректированное значение p сравнивается с привычным значением а, равным 0,050. В связи с тем, что корректировка с помощью поправки Бонферрони значений а и p осуществляется в одно действие, данный метод относится к одношаговым. Поправка Сидака (Шидака) Поправка Сидака (Шидака) является менее известной, но менее консервативной при решении проблемы множественных сравнений большого числа групп. Данная поправка применяется так же, как и поправка Бонферрони, за исключением того, что скорректированные значения а и p рассчитываются с применением иных несколько более сложных формул. Скорректированное значение а рассчитывается по формуле: _1_ aS = 1 - (1 - a)m, где а - первоначальный уровень альфа (0,050); aS -скорректированный уровень а с помощью поправки Сидака (Шидака); m - число сравнений (гипотез). Скорректированное значение p: fAdjiusted = 1 - (1 - P)m, где p - полученное по результатам сравнения значение p; pAdjusted - скорректированное значение p; m - число сравнений (гипотез). Метод Холма - Бонферрони Метод Холма - Бонферрони относится уже к многошаговым процедурам. На первом шаге применения метода реальные, полученные в ходе статистического анализа, значения p сортируются по возрастанию: p1 < ... < где p1 - наименьшее значение p из всех полученных; pn - наибольшее значение p из всех полученных. Затем для каждого i-того значения p рассчитывается свое собственное скорректированное граничное значение а по формуле: ai =-, н-в m - i + 1 где а - первоначальный уровень альфа (0,050); а!н- B - скорректированный уровень а по методу Холма - Бонферрони; m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. На каждом шаге после расчета скорректированного значения а осуществляется проверка условия: p1 < аh-в- Если на первом шаге нулевая гипотеза отвергнута, т. е. условие выполнено и различия статистически значимы, то осуществляется переход к следующему шагу (i = i + 1). Алгоритм останавливается, когда принимается первая нулевая гипотеза. В таком случае все остальные нулевые гипотезы тоже принимаются. Коррекция значения p для приведения в статье или диссертации также осуществляется пошагово с применением формулы: piAdjiusted = p ^ (m - i + 1), где p - полученное по результатам сравнения значение p; piAdjusted - скорректированное значение p; m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. Если на каком-либо шаге скорректированное значение p меньше, чем предыдущее, то скорректированное p значение приравнивается к предыдущему значению p. Метод Холма - Сидака (Шидака) Метод Холма - Сидака (Шидака) по своей этап-ности похож на метод Холма - Бонферрони. На этапе применения метода полученные в результате статистического анализа значения p также сортируются по возрастанию. Собственное скорректированное граничное значение а для каждого i-того значения p рассчитывается по формуле: і 1 /1 \\т - i + 1 а'н_ S = 1 - (1 - а) , где а - первоначальный уровень альфа (0,050); а!н_S- скорректированный уровень а по методу Холма - Сидака (Шидака); m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. После каждого расчета скорректированного граничного значения а для принятия или отклонения нулевой гипотезы также проверяется условие: p < ai г 1 - ^н-S Если на каком-либо шаге нулевая гипотеза не отклоняется, то дальнейший расчет скорректированных значений а не осуществляется, а все последующие нулевые гипотезы принимаются. Коррекция значения p с применением метода Холма - Сидака (Шидака) для приведения в статье или диссертации осуществляется пошагово по формуле: і m - i + 1 p'лф*ы = 1 - (1 - p) , где p - полученное по результатам сравнения значение p; piAdjusted - скорректированное значение p; m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. В отношении метода Холма - Сидака (Шидака) также применяется условие: если на каком-либо шаге скорректированное значение p меньше, чем предыдущее, то скорректированное p значение приравнивается предыдущему значению p. а 60 Экология человека 2020.10 Методология научных исследований Метод Бенджамини - Хохберга Метод Бенджамини - Хохберга по этапности абсолютно идентичен двум предыдущим. Однако расчет скорректированных значений а и p осуществляется по иным формулам, за счет чего данный метод является наименее консервативным из рассматриваемых в статье методов. Собственное скорректированное граничное значение а для каждого i-того значения p рассчитывается по формуле: а B _ H i а m где а - первоначальный уровень альфа (0,050); dB_H - скорректированный уровень а по методу Бенджамини - Хохберга; m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. Коррекция значения p с применением метода Бенджамини - Хохберга для приведения в статье или диссертации также осуществляется пошагово по формуле: p pt • m Adjusted где p - полученное по результатам сравнения значение p; piAdjusted - скорректированное значение p; m - число сравнений (гипотез); i - порядковый номер значения p из упорядоченного по возрастанию списка. В отношении метода Бенджамини - Хохберга также следует отметить, что если на каком-либо шаге скорректированное значение p меньше, чем предыдущее, то скорректированное p значение приравнивается предыдущему значению p. Ручная реализация методов коррекции значений а и p Предположим, что в ходе попарного сравнения пяти групп между собой исследователем были получены следующие значения p - 0.000034, 0.001, 0.010, 0.015, 0.028, 0.037, 0.043, 0.050, 0.087, 0.128. При игнорировании проблемы множественных сравнений исследователь может сделать заключение об отклонении восьми гипотез (т. е. сделать заключение о наличии между восемью парами групп статистически значимых отличий), так как первые восемь значений p < 0,050. Решая проблему множественных сравнений с помощью приведенных формул, используя поправку Бонферрони (табл. 1), исследователь отклонит только две гипотезы. Это можно установить двумя путями. Во-первых, сравнивая имеющиеся значения p со скорректированными значениями аз. Во-вторых, сравнивая скорректированные значения p Adjusted с классической границей 0,050. В любом случае заключения будут одинаковыми - отклоняются только две нулевые гипотезы с двумя наименьшими значениями p. Значения р, скорректированные значения а и р, принятие или отклонение нулевых гипотез при применении поправки Бонферрони Таблица 1 Параметр Значение p 0,000034 0,001 0,010 0,020 0,028 0,037 0,043 0,050 0,087 0,128 аБ 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 p Adjusted 0,000340 0,010 0,100 0,200 0,280 0,370 0,430 0,500 0,870 1,000 H0 - - + + + + + + + + Значения p, скорректированные значения а и p, принятие или отклонение нулевых гипотез при применении поправки Сидака (Шидака) Таблица 2 Параметр Значение p 0,000034 0,001 0,010 0,020 0,028 0,037 0,043 0,050 0,087 0,128 ач 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,000339 0,010 0,096 0,183 0,247 0,314 0,356 0,401 0,598 0,746 H0 - - + + + + + + + + Значения p, скорректированные значения а и p, принятие или отклонение нулевых гипотез при применении метода Холма - Бонферрони Таблица 3 Параметр Значение p 0,000034 0,001 0,010 0,020 0,028 0,037 0,043 0,050 0,087 0,128 i 1 2 3 4 5 6 7 8 9 10 m-i + 1 10 9 8 7 6 5 4 3 2 1 ^-B 0,005 0,006 0,006 0,007 0,008 0,010 0,013 0,017 0,025 0,050 0,000340 0,009 0,080 0,140 0,168 0,185 0,185 0,185 0,185 0,185 H0 - - + + + + + + + + 61 Методология научных исследований Экология человека 2020.10 Таблица 4 Значения p, скорректированные значения а и p, принятие или отклонение нулевых гипотез при применении метода Холма - Сидака (Шидака) Параметр Значение p 0,000034 0,001 0,010 0,020 0,028 0,037 0,043 0,050 0,087 0,128 i 1 2 3 4 5 6 7 8 9 10 m-i + 1 10 9 8 7 6 5 4 3 2 1 0h-s 0,005 0,006 0,006 0,007 0,009 0,010 0,013 0,017 0,025 0,050 p Adjusted 0,000340 0,009 0,077 0,132 0,157 0,172 0,172 0,172 0,172 0,172 H0 - - + + + + + + + + Таблица 5 Значения p, скорректированные значения а и p, принятие или отклонение нулевых гипотез при применении метода Бенджамини - Хохберга Параметр Значение p 0,000034 0,001 0,010 0,020 0,028 0,037 0,043 0,050 0,087 0,128 а/m 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 0,005 i 1 2 3 4 5 6 7 8 9 10 0b-h 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 p Adjusted 0,000340 0,005 0,033 0,050 0,056 0,061 0,061 0,063 0,097 0,128 H0 - - - - + + + + + + При использовании поправки Сидака (Шидака) для решения проблемы множественных сравнения в приведенном примере получены несколько меньшие значения скорректированных значений p (табл. 2). Однако число отклоняемых нулевых гипотез осталось тем же - отклоняются только две нулевые гипотезы. Результаты принятия или отклонения нулевых гипотез с применением методов Холма - Бонферрони (табл. 3) и Холма - Сидака (Шидака) (табл. 4) позволяют получить те же самые результаты - отклоняются лишь две нулевые гипотезы. То есть только между двумя парами групп можно констатировать статистически значимые отличия. Как было указано выше, метод Бенджамини - Хохберга менее консервативен, чем предыдущие. В связи с этим результаты его применения существенно отличаются (табл. 5). Так, по результатам применения данного метода отклоняются четыре нулевые гипотезы, т. е. исследователь может констатировать различия между четырьмя парами исследуемых групп. Такая консервативность на текущий момент является практически единственным решением при множественных многотысячных проверках статистических гипотез. Программная реализация методов коррекции значений а и p Вне всяких сомнений, при большом числе проверяемых гипотез (сотня, тысяча или десятки тысяч), несмотря на простоту описанных методов, ручной расчет скорректированных значений а и p для решения проблемы множественных сравнений весьма проблематичен. Однако существующие программные средства позволяют упростить, автоматизировав, этот процесс. Один из наиболее простых способов это осуществить - использовать возможности языка программирования python. Для этого в любой среде программирования языка python необходимо подключить модули statsmodels и pandas (https://www. statsmodels.org/stable/index.html, https://github.com/ pandas-dev/pandas/releases/tag/v1.1.0). На вопросах установки данных модулей останавливаться в данной статье не будем, но их подключение осуществляется путем написания следующих строк кода: import statsmodels.api as statsmodels import pandas Затем задается список полученных в результате множественных сравнений значений p: p_value = [0.000034, 0.001, 0.010, 0.020, 0.028, 0.037, 0.043, 0.050, 0.087, 0.128] На следующем этапе осуществляется непосредственная коррекция значений p с использованием заданного метода (в коде - method = <bonferroni>) и проверка статистических гипотез в соответствии с заданным значением а (в коде - alpha = 0.05): adjusted_p_values = statsmodels.stats. multipletests(p_value, alpha = 0.05, method = ‘bonferroni’, is_sorted = False) На заключительном этапе необходимо осуществить вывод результатов на экран с помощью следующей конструкции: print(str(adjusted_p_values)) Полный код реализации коррекции значений p с применением описанных методов выглядит следующим образом: import statsmodels.api as statsmodels import pandas p_value = [0.000034, 0.001, 0.010, 0.020, 0.028, 0.037, 0.043, 0.050, 0.087, 0.128] adjusted_p_values = statsmodels.stats. 62 Экология человека 2020.10 Методология научных исследований multipletests(p_value, alpha=0.05, method = ‘bonferroni’, is_sorted = False) print(str(adjusted_p_values)) Для изменения метода коррекции следует изменить значение параметра «method». В примере нашего кода он равен «bonferroni». В таком случае для коррекции будет использоваться поправка Бонферрони. Для применения поправки Сидака (Шидака) следует заменить значение параметра «method» на «sidak», для применения метода Холма - Бонферрони - на «holm», метода Холма - Сидака (Шидака) - на «holm-sidak», метода Бенджамини - Хохберга - на «fdr_bh». Рассмотрим выводимые результаты при применении различных методов решения проблемы множественных сравнений путем программной реализации на языке python. При применении поправки Бонфер-рони (method=’bonferroni’) выводимые результаты выглядят следующим образом: (array([True, True, False, False, False, False, False, False, False, False]), array([0.00034, 0.010, 0.100, 0.200, 0.280, 0.370, 0.430, 0.500, 0.870, 1.000]), 0.005116196891823743, 0.005) Как видно из приведенного текста, результаты представляются в виде двух списков и двух значений. Первый список включает в себя информацию об отклонении нулевых гипотез при заданном значении а (в коде - alpha = 0.05): True означает, что нулевая гипотеза отклоняется, а False - принимается. Второй список включает в себя скорректированные значения p с применением заданного метода (в коде - method = <bonferroni>). Два значения, которые приводятся в конце, - скорректированные значения а поправками Бонферрони и Сидака (Шидака). Они приводятся независимо от того, какой метод корректировка значений p выбран. При применении поправки Сидака (Шидака) (method = <sidak’) выводимые результаты выглядят следующим образом: (array([True, True, False, False, False, False, False, False, False, False]), array([0.000339, 0.009955, 0.095617, 0.182927, 0.247229, 0.314096, 0.355653, 0.401263, 0.597553, 0.745806]), 0.005116196891823743, 0.005) При применении метода Холма - Бонферрони (method = <holm’) выводимые результаты выглядят следующим образом: (array([True, True, False, False, False, False, False, False, False, False]), array([0.00034, 0.009, 0.080, 0.140, 0.168, 0.185, 0.185, 0.185, 0.185, 0.185]), 0.005116196891823743, 0.005) При применении метода Холма - Сидака (Шидака) (method = <holm-sidak’): (array([True, True, False, False, False, False, False, False, False, False]), array([0.00033995, 0.00896408, 0.07725531, 0.13187447, 0.15666992, 0.17180723, 0.17180723, 0.17180723, 0.17180723, 0.17180723]), 0.005116196891823743, 0.005) И в заключение приведем результаты решения проблемы множественных сравнений с применением метода Бенджамини - Хохберга (method = <fdr_bh’): (array([True, True, True, True, False, False, False, False, False, False]), array([0.00034, 0.005, 0.03333333, 0.05, 0.056, 0.06142857, 0.06142857, 0.0625, 0.09666667, 0.128]), 0.005116196891823743, 0.005) Как видно из представленных результатов программной реализации описанных в статье методов, приводимые скорректированные значения p и число отклоненных нулевых гипотез соответствуют полученным ручным применением данных методов. Таким образом, рассмотренная нами проблема множественных сравнений может быть решена различными способами на разных этапах научного исследования. Учитывая широкую распространенность проблемы и серьезность последствий, связанных с обнаружением не существующих в реальности различий и связей в результате инфляции ошибки первого типа, сама проблема, равно как и способы её решения, должны рассматриваться при подготовке аспирантов и докторантов. Использование представленных путей решения проблемы позволит повысить уровень качества расчетов и представления результатов, снизить число найденных случайным образом различий и связей и, в конечном итоге, повысить уровень исследований и публикаций, а также уменьшить количество решений, принятых на основании ошибочных выводов. Авторство Наркевич А. Н. внес существенный вклад в концепцию и дизайн исследования, получение, анализ и интерпретацию данных, подготовил первый вариант статьи, окончательно утвердил присланную в редакцию рукопись; Виноградов К. А. внес существенный вклад в концепцию и дизайн исследования, получение, анализ и интерпретацию данных, существенно переработал первый вариант статьи, на предмет важного интеллектуального содержания, окончательно утвердил присланную в редакцию рукопись; Гржибов-ский А. М. внес существенный вклад в концепцию и дизайн исследования, получение, анализ и интерпретацию данных, существенно переработал первый вариант статьи на предмет важного интеллектуального содержания, окончательно утвердил присланную в редакцию рукопись.

About the authors

A. N. Narkevich

Voino-Yasenetsky Krasnoyarsk State Medical University

Email: narkevichart@gmail.com

K. A. Vinogradov

Voino-Yasenetsky Krasnoyarsk State Medical University


A. M. Grjibovski

Northern State Medical University; West Kazakhstan Marat Ospanov Medical University; Al-Farabi Kazakh National University; M. K. Ammosov North-Eastern Federal University


References

  1. Буненков Н. С., Буненкова Г. Ф., Комок В. В., Гриненко О. А., Немков А. С. SAS Enterprise Guide 6.1 для врачей: сравнение групп // Медицинский академический журнал. 2019. Т. 19, № 4. С. 33-40. DOI: 10/17816/ MAJ17736
  2. Гржибовский А. М. Анализ трех и более независимых групп количественных данных // Экология человека. 2008. № 3. С. 50-58
  3. Гржибовский А. М. Сравнение трех и более независимых групп с использованием непараметрического критерия Краскела - Уоллиса в программе Stata // Экология человека. 2014. № 6. С. 55-58
  4. Гржибовский А. М., Иванов С. В., Горбатова М. А. Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 4. С. 5-37
  5. Гржибовский А. М., Иванов С. В., Горбатова М. А. Сравнение количественных данных трех и более парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 5. С. 5-29
  6. Маркевич А. Н., Виноградов К. А. Настольная книга автора медицинской диссертации: пособие. М.: Инфра-М, 2019. 454 с
  7. Benjamini Y., Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: series B (Methodological). 1995, 57 (1 ), pp. 289-300. doi: 10.1111/j.2517-6161.1995.tb02031.x
  8. Bonferroni C. E., Teoria statistica delle classi e calcolo delle probability Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze. 1936, 62 p.
  9. Che R., Jack J. R., Motsinger-Reif A. A., Brown C. C. An adaptive permutation approach for genome-wide association study: evaluation and recommendations for use. BioData Mining. 2014, 7, pp. 9. DOI: 10.1 186/1756-0381-7-9
  10. Dunnett C. W. A multiple comparison procedure for comparing several treatments with a control. Journal of the American Statistical Association. 1955, 50, pp. 1096-1121. doi: 10.1080/01621459.1955.10501294
  11. Foulkes A. C., Watson D. S., Griffiths C. E. M., Warren R. B., Huber W., Barnes M. R. Research Techniques Made Simple: Bioinformatics for Genome-Scale Biology. Journal of Investigative Dermatology. 2017, 137, pp. e163-e168. doi: 10.1016/j.jid.2017.07.095
  12. Gao X., Starmer J., Martin E. R. A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms. Genetic Epidemiology. 2008, 32 (4), pp. 361-369. DOI: 10.1002/ gepi.20310
  13. Holland B. S., Copenhaver M. D. Improved Bonferroni-type multiple testing procedures. Psychological Bulletin. 1988, 104 (1), pp. 145-149. doi: 10.1037//0033-2909.104.1.145
  14. Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics. 1979, 6 (2), pp. 65-70.
  15. Johnson R. C., Nelson G. W, Troyer J. L., Lautenberger J. A., Kessing B. D. Accounting for multiple comparisons in a genome-wide association study (GWAS). BMC Genomics. 2010, 11, pp. 724. doi: 10.1186/1471-2164-1 1-724
  16. Keuls M. The use of the «studentized range» in connection with an analysis of variance. Euphytica. 1952, 1 (2), pp. 112-122. doi: 10.1007/bf01908269
  17. Moran M. Arguments for rejecting the sequential Bonferroni in ecological studies. Oikos. 2003, 100 (2), pp. 403-405. doi: 10.1034/j.1600-0706.2003.12010.x
  18. Newman D. The distribution of range in samples from a normal population, expressed in terms of an independent estimate of standard deviation. Biometrika. 1939, 31 (1), pp. 20-30. doi: 10.1093/biomet/31.1-2.20
  19. Rothman K. J. No Adjustments Are Needed for Multiple Comparisons. Epidemiology. 1990, 1 (1), pp. 43-46. doi: 10.1097/00001648-199001000-00010
  20. Seidler J., Vondracek J. I., Saxl I. The life and work of Zbynek Sidak (1933-1999). Applications of Mathematics. 2000, 45 (5), pp. 321. doi: 10.1023/A: 1022238410461. hdl:10338.dmlcz/134443
  21. Shaffer J. P. Multiple Hypothesis Testing. Annual Review of Psychology. 1995, 46 (1), pp. 561-584. doi: 10.1146/annurev.ps.46.020195.003021
  22. Sidak Z. K. Rectangular Confidence Regions for the Means of Multivariate Normal Distributions. Journal of the American Statistical Association. 1967, 62 (318), pp. 626633. doi: 10.1080/01621459.1967.10482935

Statistics

Views

Abstract - 67

PDF (Russian) - 27

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions

Refbacks

  • There are currently no refbacks.

Copyright (c) 2020 Narkevich A.N., Vinogradov K.A., Grjibovski A.M.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies