INTERPRETATION OF AND ALTERNATIVES TO P-VALUES IN BIOMEDICAL SCIENCES



Cite item

Abstract

Existing difficulties in interpretation of the results of statistical analysis have been repeatedly mentioned as one of the factors behind poor reproducibility of research findings in biomedical sciences followed by a series of publications presenting alternatives to improve the situation including a abandonment of p-values and significance testing. In this paper we briefly present the scope of the problem as well as Fischer and Neyman-Pearson approaches to hypothesis testing. Moreover, we present confidence intervals and effect size calculation as alternatives to dichotomization of the results as significant or not significant using a certain cut-off level.  In addition, we summarize the pros and cons of suggestion to change the cut-off value from traditional 0.05 to 0.005. We also present a list of the most common misunderstandings of p-values discussed in international statistical literature. We conclude the paper with brief recommendations on careful interpretation of the results of statistical analysis to prevent misinterpretation and misuse of p-values in biomedical studies.

Full Text

Введение

Развитие персональной компьютерной техники открыло путь к широкому внедрению методов статистического анализа в «нетехнические» науки, такие как психология, медицина, биология, социологи и даже философию [26]. Появление технической возможности анализа эмпирических данных привело к ускорению накопления знаний, полученных из данных, в различных областях науки, которые сказываются на повседневной жизни человека, а потому корректность выводов, полученных в результате анализа данных, и последующих решений имеет намного более важное значение, чем представляют себе начинающие исследователи, знакомящиеся с основами научной методологии в целом и статистики в частности. Создание клинических рекомендаций, появление сложного диагностического оборудования, психометрических тестов было бы невозможным без доступности средств анализа данных. Вместе с тем закономерно образовалась проблема некорректного и местами даже нецелевого использования статистического инструментария, которая рассматривается в качестве одной из причин кризиса воспроизводимости в науках о здоровье [6; 7; 30]. Воспроизводимость результатов в независимости от места их получения является весомым аргументом при обосновании той или иной теоретической концепции. Как ни странно, множество проблем связано не со сложностью применяемых методов анализа, а с некорректной, часто необоснованно оптимистичной интерпретацией результатов. У достигнутого уровня значимости (величина р, р-значение, p-value), вероятно, самая незавидная судьба из всех статистических показателей. Как в зарубежной, так и в отечественной литературе часто встречаются неверные подходы к интерпретации полученных результатов и, как следствие, ошибочных выводов [1; 13; 16; 23]. Проблема проникла и в словесное описание результатов, из-за чего в отечественной литературе используются слова “значимость”, “достоверность” без должной академической строгости, на что неоднократно обращали внимание отечественные исследователи, впрочем, пока без существенного эффекта [2]. Из-за масштабов проблемы некорректного понимания и избыточного использования величины р в зарубежной статистической литературе стали появляться предложения по изменению подходов к планированию исследований, статистическому анализу данных, их интерпретации, а также написанию и рецензированию научных работ [18; 26] вплоть до полного запрета на использования p-значения [22]. В русскоязычной литературе, особенно биомедицинской, данная проблема обсуждается крайне редко, что, по нашему мнению, может иметь связь с тем. Что отечественные биомедицинские исследования не входят в число наиболее востребованных в международном научном сообществе. Не претендуя на всеобъемлющее описание проблемы, мы представляем теоретические рассуждения по данной проблеме, а также знакомим отечественного читателя с некоторыми предлагаемыми в статистической литературе путями решения в надежде на то, что они могут стать отправной точкой для более глубокого погружения в литературу и способствовать улучшению методологического качества отечественных научных публикаций.

Парадигма тестирования нулевой гипотезы

Подход Фишера: проверка значимости нулевой гипотезы (Null Hypothesis Significance Testing - NHST)

Тестирование гипотезы с использованием подхода Фишера можно разложить на несколько шагов [24]. Шаг 1 — выбрать необходимый статистический критерий, который соответствует исследовательскому вопросу и имеющимся данным. Шаг 2 — определиться с нулевой гипотезой. В зависимости от выбранных теоретических допущений необходимо выполнить шаг 3 и рассчитать вероятность получения наблюдаемых результатов относительно нулевой гипотезы. В ходе расчётов получается p-значение — вероятность того, что наблюдаемая статистика или её более экстремальные значения извлечены из такого распределения, которые соответствуют нулевой гипотезе [21]. Следует обратить внимание, что это не точечное значение, а кумулятивная сумма вероятностей от наименьшего значения до наблюдаемой границы [24]. Данное значение численно равно площади под кривой распределения, что продемонстрировано на рисунке 1. При таком ходе рассуждений можно утверждать, что величина p-значения является количественной (вероятностной) мерой доказательства против нулевой гипотезы [24]. Иными словами – вероятность обнаружить выявленные или еще более выраженные различия, если их на самом деле не существует. В итоге, исследователю необходимо определиться, принять или отклонить нулевую гипотезу. Порог принятия решений остаётся на усмотрение исследователя, но в большинстве биомедицинских исследований принимается равным 0,05, что достаточно регулярно подвергается критике в специализированных изданиях.

Подход Неймана-Пирсона: механизм принятия решений

Несмотря на логичность подхода Фишера к тестированию статистической гипотезы, было выполнено множество исследований и работ, в ходе которых предлагались различные улучшения. В научную практику вошёл принцип тестирования нулевой гипотезы Неймана-Пирсона. Основным отличием от подхода Фишера здесь является наличие четко проговариваемой альтернативной гипотезы [25]. В качестве альтернативной гипотезы выступает распределение с параметрами, отличными от изучаемого. Другим существенным отличием от подхода Фишера является принцип контроля частоты ошибок [25]. Напомним, что различают два рода ошибок, относящихся к проверке статистических гипотез. Ошибка первого рода (Type I error или альфа-ошибка) характеризуется отклонением верной нулевой гипотезы, то есть, когда исследователь делает заключение о том, что различия есть, а на самом деле их нет. Ошибка второго рода (Type II error, бета-ошибка) – это принятие ложной нулевой гипотезы, то есть исследователь делает вывод о том, что различий нет, а на самом деле они есть. В практическом смысле эти ошибки эквиваленты понятиям ложноположительного и ложноотрицательного результата, соответственно. Контроль заключается в наличии заранее определённых величин ошибок, которые будут лежать в основе принятия решений. Так, число альфа (ɑ) является вероятностью совершить ошибку первого рода, а число бета (β) — вероятность совершить ошибку второго рода. Значение (1-β) называется статистической мощностью. В сущности, мощность — это вероятность корректного отклонения нулевой гипотезы в пользу альтернативной [27]. Простыми словами – это вероятность отклонить нулевую гипотезу (сделать заключение о наличии различий), если они на самом деле есть. В процессе планирования исследований важно держать под контролем вероятность альфа- и бета ошибок. Это выполняется путём расчета необходимого объёма выборки. Способ принятия решений по Нейману—–Пирсону отражён в таблице 1.

Таблица 1. Взаимосвязь гипотез и ошибок при принятии решения.

 

Принимаемое решение

Истинное состояние

Нулевая гипотеза верна

Нулевая гипотеза ошибочна

Принимаем нулевую гипотезу

Корректное решение

Ошибка 2 рода

Отклоняем нулевую гипотезу

Ошибка 1 рода

Корректное решение

 

Данный подход прекрасно объясняется “житейскими” примерами из различных областей жизнедеятельности. В качестве первого примера рассмотрим процесс принятия решения при проведении судебного разбирательства. По умолчанию (нулевая гипотеза) считается, что человек невиновен (презумпция невиновности). Альтернативной гипотезой для невиновности является виновность подсудимого. Обвинению необходимо предоставить доказательства против невиновности подсудимого. В идеале доказательств должно быть достаточно, чтобы изменить первоначальное представление о невиновности, тем самым, отклонив исходное допущение, то есть нулевую гипотезу. Если доказательств окажется достаточно для подтверждения вины подсудимого, хотя в действительности подсудимый не совершал преступления, будет совершена ошибка первого рода или альфа-ошибка. Если же доказательств о виновности подсудимого недостаточно, то несмотря на то, что подсудимый совершил преступление, он не будет признан виновным, что является ошибкой второго рода или бета ошибкой.

Разберём другой пример. Для обеспечения транспортной безопасности в аэропорту необходимо проходить через арочный металлодетектор. По умолчанию, рамка не издаёт никаких звуков, но, если в её зону попадает металлический предмет, генерируется звуковой сигнал. Кроме корректного звукового сигнала в случае наличия металлического предмета и корректного отсутствия сигнала в случае отсутствия металлического предмета могут быть ещё два нежелательных, то есть ошибочных исхода. Рамка может издать звуковой сигнал в случае, когда у пассажира нет никаких металлических предметов (альфа-ошибка). Также возможно отсутствие реакции металлодетектора на проносимый металлический предмет (бета-ошибка).

В качестве третьего примера обсудим процесс диагностики изучаемого медицинского состояния с помощью интересующего нас диагностического маркера. На основании исходных знаний о патогенезе изучаемого состояния мы допускаем, что при отсутствии изучаемого состояния у человека нет интересующего нас маркера. Тогда как его обнаружение является свидетельством в пользу наличия заболевания. Как и в предыдущих примерах возможны ситуации следующего характера: биомаркер обнаружен, несмотря на отсутствие изучаемого состояния (альфа ошибка). Второй вариант — биомаркер не выявлен, но имеется четкая клиническая картина, соответствующая изучаемому состоянию (бета ошибка). Можно привести множество примеров, но мы надеемся, что трёх примеров достаточно для объяснения сущности проблемы принятия решения, а также подумать над примерами из собственной научной и/или клинической практики.

Концептуальная проблема p-значения и пути её решения

Проблемы в этой области тянутся с момента появления объяснения процедуры проверки статистических гипотез. По Рональду Фишеру в основе тестирования статистической гипотезы лежит доказательство от противного и p-значение оценивает силу доказательства против нулевой гипотезы в одном исследовании. То есть p-значение не подразумевает частотной интерпретации и относится только к наблюдаемую набору данных. Однако, величину ошибки первого рода имеет смысл установить заранее. Этому есть частотное объяснение: при большом количестве проверок гипотез с использованием данных, извлечённых из одной и той же(!) генеральной совокупности, истинная нулевая гипотеза ошибочно будет отклонена в некотором проценте случаев. В таком случае p-значение не является силой доказательства против нулевой гипотезы: она или верна, или нет [24]. Желание контролировать ошибку второго рода тоже интуитивно понятно: отсутствие результата из-за нехватки достаточного набора наблюдений – это неэффективное расходование ресурсов, включая временные. При использовании подхода Неймана-Пирсона заранее определяются допустимые уровни альфа и бета ошибок, а также те различия, которые мы считаем важными с практической точки зрения. На основании значений ошибок и ожидаемых различий рассчитывается необходимый объем выборки, на которой и выполняется исследование. В этом случае, расчет достигнутого уровня значимости не нужен, так как он будет меньше критического при выявлении ожидаемых или более выраженных различий.

Графическое различие между двумя подходами приведено на рисунке 1. Подход Фишера можно описать как частный случай подхода Неймана-Пирсона, в котором значительное количество факторов (ошибки, величина эффекта) не контролируются. В настоящее время, как нам представляется, имеет место смешение вышеупомянутых подходов.  Сложившаяся ситуация может приводить к ошибкам на этапе планирования, а также вести к некорректной интерпретации результатов, что в свою очередь, дает повод усомниться в качестве исследования и целесообразности использования его результатов в практической деятельности. Специалистами предлагались различные пути решения проблемы, однако, несмотря на их большое количество, мы кратко остановимся только на некоторых.

Рисунок 1. Графическое сравнение подходов к тестированию статистических гипотез

Примечание к Рис. 1: sig. – уровень значимости, d – величина эффекта, ɑ – вероятность ошибки первого рода, β — вероятность ошибки второго рода.

Доверительный интервал

Несмотря на то, что доверительный интервал и p-значение имеют тесную связь, они несут различную информацию [20]. Доверительный интервал по величине противоположен вероятности ошибки первого рода (1-ɑ), из чего следует, что в нём не содержатся значения, которые мы бы хотели отклонить при заданном уровне альфа-ошибки. Это его роднит с точечными оценками, которые основаны на вычислении p-значения. Однако вместе с тем доверительный интервал позволяет оценить ожидаемый размер эффекта, что явно более информативно. В сущности, доверительный интервал подразумевает, что если выборки взяты из одной и той же генеральной совокупности (популяции) с использованием того же метода извлечения (сбора) данных, то заданный процент их доверительных интервалов будут включать истинное значение интересующего параметра. В качестве типового примера приведём оценку среднего значения для нормального распределения с использованием не менее типового 95% доверительного интервала (1-0,05 = 0,95). При проведении единичного эксперимента вычисляется среднее арифметическое значение и доверительный интервал. Повторяя эксперимент бесконечно большое количество раз, 95% вновь вычисленных доверительных интервалов будут включать искомое значение. Демонстрация данного принципа приведена на рисунке 2. При помощи генератора случайных чисел 100 раз создавалась выборка размером в 100 наблюдений со средним значением 0, стандартным отклонением 1. В данном простом симуляционном эксперименте оказалось, что 6% значений не содержат ожидаемое среднее.

 

Рисунок 2. Демонстрация концепции доверительного интервала.

 

Тем не менее, доверительный интервал не является панацеей, так как его интерпретация не всегда корректна. В литературе отмечается широкая распространённость объяснения доверительного интервала как вероятности того, что интересующий параметр будет принимать значение в заданных границах 95% времени [25]. Для примера среднего значения некорректная, но часто встречающаяся трактовка звучит так: 95% доверительного интервала среднего значения, вычисленного по выборке, включает среднее значение совокупности (популяции) с вероятностью 95%. Ошибка связана с расчётом доверительного интервала на реальных данных (10, 100, 1000 наблюдений и т. д.), которые не равны общей совокупности [20]. Изменение ширины доверительного интервала оцениваемого параметра в зависимости от увеличения количества наблюдений приведено на рисунке 3. Нетрудно догадаться, что увеличение размера выборки повышает точность наших оценок, что положительно сказывается на мощности статистических критериев.

 

Рисунок 3. Демонстрация изменения ширины доверительного интервала в зависимости от объёма наблюдений.

 

Величина эффекта

Проверка статистической значимости не несёт никакой информации о том, насколько выявленные различия сильны. Мысль о том, что связь, для которой p <0,001 сильнее или имеет более высокую клиническую значимость, чем связь, для которой р = 0,043, является глубоко ошибочной.  К сожалению, подобная интерпретация силы связи по величине абсолютного значения достигнутого уровня значимости достаточно часто встречается в отечественной медицинской научной литературе. Доверительный интервал ситуацию радикально не исправляет, так как содержит информацию только о возможном диапазоне значений. Куда более важно наличие “линейки” (единиц измерения), при помощи которой можно объективизировать “расстояние” между интересующими данными точно также, как это делается при измерении массы, температуры, силы тока и т. п. Величина (сила) эффекта — это количественная характеристика ошибочности нулевой гипотезы [15]. Если нулевая гипотеза верна (оцениваемые параметры одинаковы, нет никакой ассоциации или связи между признаками), то сила эффекта равна нулю. Наглядное отображение концепции силы эффекта приведено на рисунке 4.

Рисунок 4. Демонстрация концепции силы эффекта.

Существует большое количество мер силы эффекта [27; 29]: d Коэна, отношение шансов (odds ratio), относительный риск (relative risk), r коэффициент корреляции Пирсона и т. д. Вне зависимости от меры эффекта, при планировании следует опираться на минимально значимый эффект или минимально клинически важный эффект. Это та граница, для преодоления которой необходима адекватная статистическая мощность критерия, для которой рассчитывается минимально приемлемый объем выборки. При возрастании объёма выборки мощность увеличивается [11], за счёт чего можно выявить сколь угодно малый статистически значимый эффект [29], который может иметь ничтожное значение с точки зрения практической деятельности. И наоборот, если сила эффекта достаточно высока, то нет нужды собирать большой массив данных и тратить лишние ресурсы. Яркой демонстрацией разницы между силой эффекта и p-значением является наблюдаемая в практике пропасть между клинической эффективностью и статистически значимыми результатами [27]. Напомним, что возможно четыре варианта: а) клинически незначимо и статистически незначимо; б) статистически значимо, клинически незначимо; в) статистически значимо, клинически значимо; в) статистически незначимо, клинически значимо. Не должно удивлять, что перечень вариантов напоминает таблицу 1 — это ровно та же самая проблема принятия решений. В данном направлении есть предложения по более детальной классификации с учётом накопленного опыта [28], но принципиальная суть остаётся той же.

Сила эффекта, зачастую, - это именно то, что интересует исследователя, а не какие-то р, которые часто относительно бездумно используют в качестве «бантика» на научной работе для придание ей некоторого наукообразия . Самый наглядный пример важности силы эффекта является соотношение “сигнал-шум” из теории обнаружения сигналов, которое касается не только работы металлодетектора, но мистических и паранормальных явлений [8]. Однако широкому внедрению силы эффекта в повседневную практику, на наш взгляд, мешает ряд проблем. Во-первых, отсутствие должного освещения данного вопроса в образовательных программах уменьшает вероятность использования силы эффекта в реальной практике. Отсутствие примеров использования силы эффекта в публикациях приводит к невостребованности изучения данной темы. Невостребованность показателя в практике ограничивает внедрение расчётов силы эффекта в программное обеспечение. Во-вторых, несмотря на достаточное количество литературы, правда, в основном, англоязычной, найти информацию про расчёты различных мер эффекта может стать весьма нетривиальной задачей. Этот пробел в отечественной литературе нуждается в восполнении, однако отправной точкой поиска может стать список литературы под основным текстом статьи. В-третьих, достаточно сложные и комплексные исследовательские вопросы требуют такого же трудоёмкого анализа, который не ограничивается традиционным набором статистических критериев. Это приводит к ещё большему повышению требований к специалистам в вопросах владения навыками в области статистического анализа, умению составить концепцию исследования, грамотно определить измеримый научный вопрос, разработать и реализовать математическую модель и грамотно интерпретировать полученные результаты.

Уменьшение порогового значения

На сегодняшний день общепринятое критическое значение уровня значимости составляет 0,05, по крайней мере, в биомедицинских исследованиях с редкими исключениями. Другими словами, допускается, что в каждом двадцатом случае исследователь может получить ложноположительный результат, то есть получить статистически значимые различия даже там, где их нет. Иными словами, в каждом двадцатом случае можно сделать «ложное открытие». Это демонстрирует суть поговорки, популярной среди некоторых исследователей: «Если данные долго пытать, что они в конце концов сознаются». Есть предложение, однако, изменить сложившуюся практику и уменьшить значение критического уровня значимости в 10 раз, то есть сделать его не 0,05, а 0,005 для профилактики таких ложных открытий [9]. Данное предложение вытекает из байесовского подхода пересчёта вероятностей, которое, впрочем, не лишено проблем и ограничений [4]. Расчеты демонстрируют, что при p=0,005 истинная нулевая гипотеза может быть отклонена только в 6,7% случаев [9]. Аналогичные расчеты показывают, что использование 0,05 в качестве критического значения может привести к ложным открытиям или ошибочному принятию справедливой нулевой гипотезы в 28,9% случаев! [11]. После этих расчетов наличие серьезной проблемы воспроизводимости научных результатов уже не вызывает удивления. Последствиями таких ложных открытий может стать назначение ничуть не более эффективного лекарства взамен существующего и часто более дешевого препарата, написание бесполезных профилактических программ, связанных с устранением влияния несуществующего фактора риска и т. д.

Однако сдвиг точки разделения для уровня значимости не решает принципиальную проблему восприятия контекста и непрерывности p-значения. Мощность статистического критерия зависит от размера выборки. Поэтому легко смоделировать ситуацию, когда p=0,005 на малой выборке будет отсекать интересующий нас эффект, в то время как с ростом выборки даже этого значения не хватит, чтобы отсечь неинформативные случайные находки. Понимание этой проблемы привело к предложению делать критическое значение индивидуальным для каждого конкретного случая [10]. Это является следствием идеи, что искомый эффект клинический, экономический или любой другой может варьировать от слабого до сильного. Никакого толка от того, что будет ли преодолён порог 0,05, 0,005 и т. д. нет, пока нет количественной оценки интересующего исследователей эффекта [10].

Также следует упомянуть и другие аргументы против данной позиции. При 80% мощности сдвиг порогового значения может приводить к увеличению необходимой выборки на 70% [19], что весьма затратно. Это усугубит проблему невозможности доказать эффективность клинически важных эффектов из-за их сложности и часто слабой выраженности [12], что приведёт к ещё большему расхождению между теорией и практикой. Интересно было также ознакомиться с работой A. Vexler о справедливости “народной мудрости” при выборе значения p=0,05 на основе ещё более сложных вычислительных экспериментов [31].

Чем не является p-значение

Несмотря на большой объём литературы по интерпретации величины p, мы предполагаем, что перечень неверных суждений может помочь избежать явных ошибок при написании научных текстов. Ниже перечислены наиболее часто встречающиеся заблуждения, однако перечень не является исчерпывающим [18]:

  1. p говорит о вероятности того, что отклонение нулевой гипотезы объясняется случайностью
  2. статистическая значимость устанавливает наличие важного эффекта
  3. p < 0,05 доказывает, что у нас есть поддержка проверяемой гипотезы
  4. p < 0,05 – это “значимый” результат, p < 0,01 - “очень значимый,” а p < 0,001 — “высоко значимый” (чаще даже встречается не «значимый», а «достоверный»)
  5. p является подходящей метрикой для тех, кто заинтересован в развитии теории, а размер эффекта имеет значение только тогда, когда речь идёт о практическом применении
  6. уровень p указывает на вероятность того, что результат не повторится, если исследование будет повторено
  7. уровень p предсказывает количество статистических результатов, которые были бы значимы случайно
  8. нулевая гипотеза — это научная гипотеза
  9. отклонение нулевой гипотезы означает, что альтернатива верна
  10. p - это то же самое, что и альфа-ошибка
  11. NHST все чаще рассматривает надёжность как замену валидности

 

Заключение

Несмотря на декларирование приверженности концепции принятия решений Неймана—Пирсона, на практике большинство исследователей в науках о здоровье следуют в русле подхода Фишера. Мы согласны с тем мнением, что ошибочная интерпретация p-значения во многом является следствием недостаточного качества преподавания [14; 17]. Несмотря на то, что это мнение было высказано иностранными специалистами, это предположение справедливо и для большинства российских вузов, по крайней мере, медицинских.  Помимо просветительской деятельности о сущности p-значения и что же оно на самом деле означает, а также насколько можно верить очередным «сенсационным результатам», следует представлять информацию и о других аспектах проверки статистических гипотез. В работе не было рассмотрено многих других подводных камней, связанных с p-значением, например, проблем множественных сравнений [3]. Из всего набора, безусловно, полезных рекомендаций по повышению качества исследований [5; 26], мы хотели бы отметить, на наш взгляд, критически важную. Из четырёх рассматриваемых параметров (вероятность ошибки первого рода, вероятность ошибки второго рода, сила эффекта, количество наблюдений) три необходимо выбрать до проведения исследования и, соответственно, вычислить четвёртый. Надеемся данная публикация станет отправной точкой для более глубокого и внимательного изучения литературы по данной проблеме.

Авторство

Оба автора участвовали в разработке концепции статьи, подготовке первого варианта рукописи, внесении изменений во все последующие варианты рукописи, а также утвердили окончательный вариант текста.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

 

×

About the authors

Andrej M Grjibovski

Northern State Medical University

Author for correspondence.
Email: andrej.grjibovski@gmail.com
ORCID iD: 0000-0002-5464-0498
http://seejph.uni-bielefeld.de/public/pdf/cv_grjibovski.pdf
Russian Federation

Anton N Gvozdeckii

Email: comisora@gmail.com

References

  1. Akanov A.A. Assessment of use of statistical methods in scientific articles of the Kazakhstan’s medical journals. / A.A. Akanov [et al.] // Ekologiya cheloveka (Human Ecology). – 2013. – Vol. 20. – № 5. – P. 61-64. [in Russian]
  2. Zorin N.A. «Validity» or «significance» — 12 years later / N.A. Zorin // Pediatricheskaya Farmakologiya [Pediatric Pharmacology]. – 2011. – Vol. 8. – № 5. – P. 13-19.
  3. Narkevich A.N. Multiple comparisons in biomedical research: the problem and its solutions / A. N. Narkevich, K. A. Vinogradov, A. M. Grjibovski // Ekologiya cheloveka (Human Ecology). – 2020. – Vol. 27. – № 10. – P. 55-64. [in Russian]
  4. Rubanovich A.V. Redefining the critical value of significance level (0.005 instead of 0.05): the bayes trace / A.V. Rubanovich // Radiatsionnaya biologiya. Radioekologiya [Radiation biology. Radioecology]. – 2018. – Vol. 58. – № 5. – P. 453-462. [in Russian]
  5. Kholmatova K. K. Experimental studies in medicine and public health: planning, data analysis, interpretation of results / K. K. Kholmatova, O.A. Kharkova, A. M. Grjibovski // Ekolohiya cheloveka (Human Ecology). – 2016. – Vol. 23. – № 11. – P. 50-58. [in Russian]
  6. Amrhein V. Inferential Statistics as Descriptive Statistics: There Is No Replication Crisis if We Don’t Expect Replication / V. Amrhein, D. Trafimow, S. Greenland // The American Statistician. – 2019. – Vol. 73. – P. 262-270.
  7. Amrhein V. The earth is flat (p > 0.05): Significance thresholds and the crisis of unreplicable research / V. Amrhein, F. Korner-Nievergelt, T. Roth // Peer J. – 2017. – Vol. 5. – P. e3544.
  8. Anderson N.D. Teaching signal detection theory with pseudoscience / N.D. Anderson // Frontiers in Psychology. – 2015. – Vol. 6. – P. 762.
  9. Benjamin D.J. Redefine statistical significance / D.J. Benjamin [et al.] // Nature Human Behaviour. – 2018. – Vol. 2. – № 1. – P. 6-10.
  10. Betensky R.A. The p-Value Requires Context, Not a Threshold / R.A. Betensky // The American Statistician. – 2019. – Vol. 73. – P. 115-117.
  11. Colquhoun D. An investigation of the false discovery rate and the misinterpretation of p-values / D. Colquhoun // Royal Society Open Science. – 2014. – Vol. 1. – № 3.
  12. Di Leo G. Statistical significance: P value, 0.05 threshold, and applications to radiomics—reasons for a conservative approach / G. Di Leo, F. Sardanelli // European Radiology Experimental. – 2020. – Vol. 4. – № 1. – P. 1-8.
  13. Dorey F. In Brief: The P Value: What Is It and What Does It Tell You? / F. Dorey // Clinical Orthopaedics and Related Research. – 2010. – Vol. 468. – № 8. – P. 2297-2298.
  14. Greenland S. Valid P-Values Behave Exactly as They Should: Some Misleading Criticisms of P-Values and Their Resolution With S-Values / S. Greenland // The American Statistician. – 2019. – Vol. 73. – P. 106-114.
  15. Grissom R.J. Effect sizes for research: Univariate and multivariate applications / R.J. Grissom, J.J. Kim. – 2nd ed. – New York: Routledge, 2012. – 434 p.
  16. Haller H. Misinterpretations of Significance: A Problem Students Share with Their Teachers? / H. Haller, S. Krauss. – 2002. – Vol. 7. – № 1. – P. 20.
  17. Hubbard R. Confusion over Measures of Evidence (p’s) versus Errors (α’s) in Classical Statistical Testing / R. Hubbard [et al.] // The American Statistician. – 2003. – Vol. 57. – № 3. – P. 171-182.
  18. Kmetz J.L. Correcting Corrupt Research: Recommendations for the Profession to Stop Misuse of p-Values / J.L. Kmetz // The American Statistician. – 2019. – Vol. 73. – P. 36-45.
  19. Lakens D. Justify your alpha / D. Lakens [et al.] // Nature Human Behaviour. – 2018. – Vol. 2. – № 3, 3. – P. 168-171.
  20. Lee D.K. Alternatives to P value: Confidence interval and effect size / D.K. Lee // Korean Journal of Anesthesiology. – 2016. – Vol. 69. – № 6. – P. 555-562.
  21. Lew M.J. Bad statistical practice in pharmacology (and other basic biomedical disciplines): You probably don’t know P: Statistical inference using P-values / M.J. Lew // British Journal of Pharmacology. – 2012. – Vol. 166. – № 5. – P. 1559-1567.
  22. McShane B.B. Abandon Statistical Significance / B.B. McShane [et al.] // The American Statistician. – 2019. – Vol. 73. – P. 235-245.
  23. Palesch Y.Y. Some common misperceptions about p-values / Y.Y. Palesch // Stroke; a journal of cerebral circulation. – 2014. – Vol. 45. – № 12. – P. e244-e246.
  24. Perezgonzalez J.D. Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing / J.D. Perezgonzalez // Frontiers in Psychology. – 2015. – Vol. 6. – P. 1-8.
  25. Pernet C. Null hypothesis significance testing: A guide to commonly misunderstood concepts and recommendations for good practice / C. Pernet // F1000Research. – 2017. – Vol. 4. – P. 621.
  26. Polonioli A. Reporting in Experimental Philosophy: Current Standards and Recommendations for Future Practice / A. Polonioli [et al.] // Review of Philosophy and Psychology. – 2021. – Vol. 12. – № 1. – P. 49-73.
  27. Serdar C.C. Sample size, power and effect size revisited: Simplified and practical approaches in pre-clinical, clinical and laboratory studies / C.C. Serdar [et al.] // Biochemia Medica. – 2021. – Vol. 31. – № 1.
  28. Stahel W.A. New relevance and significance measures to replace p-values / W.A. Stahel // PLOS ONE. – 2021. – Vol. 16. – № 6. – P. e0252991.
  29. Sullivan G.M. Using Effect Size—or Why the P Value Is Not Enough / G.M. Sullivan, R. Feinn // Journal of Graduate Medical Education. – 2012. – Vol. 4. – № 3. – P. 279-282.
  30. Szucs D. When Null Hypothesis Significance Testing Is Unsuitable for Research: A Reassessment / D. Szucs, J.P.A. Ioannidis // Frontiers in Human Neuroscience. – 2017. – Vol. 11. – P. 390.
  31. Vexler A. Valid p-values and expectations of p-values revisited / A. Vexler // Annals of the Institute of Statistical Mathematics. – 2021. – Vol. 73. – P. 227-248.

Copyright (c) Grjibovski A.M., Gvozdeckii A.N.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies