СРАВНЕНИЕ КОЛИЧЕСТВЕННЫХ ДАННЫХ В ДВУХ ПАРНЫХ ВЫБОРКАХ С ИСПОЛЬЗОВАНИЕМ ПАКЕТА СТАТИСТИЧЕСКИХ ПРОГРАММ STATA

  • Авторы: Субботина АВ1, Гржибовский А.М.2,3
  • Учреждения:
    1. Университет г. Тромсё
    2. Норвежский институт общественного здравоохранения
    3. Архангельская международная школа общественного здоровья ГБУО ВПО «Северный государственный медицинский университет»
  • Выпуск: Том 21, № 10 (2014)
  • Страницы: 61-64
  • Раздел: Статьи
  • Статья получена: 23.10.2019
  • Статья опубликована: 15.10.2014
  • URL: https://hum-ecol.ru/1728-0869/article/view/17199
  • DOI: https://doi.org/10.17816/humeco17199
  • ID: 17199


Цитировать

Полный текст

Аннотация

В статье рассматриваются основные принципы сравнения количественных данных в двух парных группах. Приводится пример проверки нормальности распределения данных, а также расчета парного критерия Стьюдента вручную и с помощью пакета статистических программ STATA. Авторы также рассматривают условия применения парного критерия Стьюдента и основные правила представления результатов в публикациях. Материал дает общие представления о применении парного критерия Стьюдента и не заменяет изучения специализированной литературы.

Полный текст

В предыдущих выпусках Практикума мы представляли методы, применяемые для сравнения количественных данных двух и более независимых выборок, подчеркивая, что независимость наблюдений друг от друга является одним из условий применения этих методов. В настоящей статье рассмотрим методы сравнения двух парных групп данных с помощью пакета статистических программ STATA [4]. Пользователям SPSS рекомендуем обратиться к нашей более ранней публикации [1]. Под парными данными мы понимаем значения связанных, то есть не являющихся независимыми, выборок. Парность изучаемых выборок определяется дизайном исследования. Примерами парных выборок могут служить ситуации, когда изучаемый признак измеряется у одних и тех же участников исследования в два разных момента времени, например до и после лечебного вмешательства, - исследования типа «до - после». Также парными данными будут являться, к примеру, результаты измерения одного и того же показателя у одной и той же группы пациентов: определение уровня холестерина в крови в нескольких лабораториях или измерение артериального давления двумя исследователями. Парными также считаются данные, полученные для двух групп в результате исследования типа «случай - контроль» с использованием метода подобранных пар (matched case-control design). В данном случае «контроли» не могут считаться полностью независимыми от «случаев», так как их намеренно подбирали, исходя из характеристик «случаев», например пола, возраста, района проживания. Парный t-критерий Стьюдента используется для того, чтобы определить, существует ли значимая разница между средними значениями одного и того же признака в парных группах. Оба измерения проводятся для каждой единицы выборки, а критерий основан на парных разностях между этими двумя значениями. Критерий также принимает во внимание вариацию в значениях внутри каждой выборки, в результате чего рассчитывается одно значение, известное как значение t Стьюдента. Зная значение t, мы можем оценить вероятность того, что различие в наших двух выборках не будет отличаться от разницы в выборках, взятых из одной и той же генеральной совокупности, на основании значения достигнутого уровня значимости (величина p). Если разница значимая (в большинстве случаев определяемая как p < 0,05), то делается вывод о том, что с выбранным уровнем доверительной вероятности (обычно 95 %) наши две выборки происходят из разных генеральных совокупностей, а значит, между ними существуют статистически значимые различия. В качестве примера рассмотрим изменение артериального давления у группы, состоящей из 33 пациентов, до и после начала применения гипотензивного препарата X. Значения данных переменных представлены переменными ad_t0 ad_t1 соответственно. Если мы примем первое значение какого-то признака у данного индивида за y1, а второе за y2, то разность между двумя наблюдениями для каждого пациента составит d = y1 - y2 Для того чтобы рассчитать разность между парными наблюдениями, создадим новую переменную diff0_1 в STATA, воспользовавшись командой: . generate diff0_1 = ad_t0 - ad_t1 Общие принципы работы пакета статистических программ STATA рассматривались в одном из предыдущих выпусков Практикума [3]. Затем рассчитываем среднее значение разности между двумя наблюдениями и стандартную ошибку для разности. Среднее значение разности между первым и вторым наблюдениями рассчитывается как _ £d . Среднее значение разницы представляет собой оценочное значение средней разности для генеральной совокупности Pd = Pi -Рз. Для расчета стандартного отклонения для разности из каждого значения разностей между парами наблюдений отнимаем среднее у, сумму квадратов полученных значений делим на количество пар наблюдений n и извлекаем квадратный корень из полученного числа. SD .в п где SD - стандартное отклонение разности в наблюдениях, n - размер выборки разностей (в данном случае, число пациентов). То же самое несложно рассчитать в STATA, используя команду . summarize ad_t0 ad_t1 diff0_1. В результате мы получаем описательную статистику для значений переменных ad_t1, ad_t2 и разности наблюдений (табл. 1): Среднее значение разностей будет равняться 1,86, стандартное отклонение 10,46. В силу того, что мы рассматриваем разности, для определения стандартной ошибки средней арифметической мы можем использовать ту же логику, какую использовали для одиночной выборки: SE5 = Нулевой гипотезой для парного критерия Стью-дента будет являться утверждение об отсутствии различий между средними в парных выборках, то есть разность (diff0_1) равна нулю. Соответственно альтернативной гипотезой будет являться предположение о том, что средняя разница между парными наблюдениями значимо при выбранном уровне значимости отличается от нуля: Н0: Pd = ° Hi: fld * 0 В нашем примере, нулевая и альтернативная гипотеза будут звучать следующим образом: H0 - между средними значениями артериального давления при измерении до и после применения препарата различий нет. H1 - между средними значениями артериального давления при измерении до и после применения препарата различия есть. Иными словами, данный тест предназначен для того, чтобы дать ответ на вопрос «Является ли наблюдаемая разница между парными наблюдениями достаточно большой, чтобы отклонить нулевую гипотезу об отсутствии различий?». Основным условием применения парного t-критерия Стьюдента является нормальное распределение разностей между индивидуальными значениями парных выборок. Необходимо обратить особое внимание на тот факт, что данный критерий может применяться при тестировании наблюдений, которые сами происходят из выборок, не соответствующих нормальному распределению, если значения разниц в наблюдениях нормально распределены. Для проверки этого условия мы можем использовать графический метод, то есть визуально оценить распределение разниц и сравнить с нормальным распределением. Для этого можно построить гистограмму (рис. 1) и / или квантильную диаграмму (рис. 2). . histogram diff0_1, bin(11) normal Судя по гистограмме, распределение разностей в нашем примере может подчиняться закону нормального распределения, однако график не очень убедителен. Квантильная диаграмма, в свою очередь, достаточно убедительно демонстрирует, что переменная diff0_1 подчиняется закону нормального распределения, по крайней мере в середине распределения. . qnorm diff0_1 где у - средняя разница между парами наблюдений, А - предполагаемая разница (0 при тестировании на равенство средних), SD - стандартное отклонение разниц, n - размер выборки. Количество степеней свободы в данном тесте n - 1. Подставляя значения, в нашем примере мы получаем: 1,86 - О . В STATA парный t-критерий Стьюдента можно рассчитать двумя способами (табл. 3 и 4). . ttest ad_t0 = ad_t1 Рис. 2. Квантильная диаграмма для оценки распределения переменной diff0_1 Также мы можем провести формальный тест на соответствие распределения нормальному (табл. 2). Воспользуемся командой . swilk diff0_1 Нулевая гипотеза для критерия Шапиро - Уилка, с помощью которого мы будем проверять данные на соответствие нормальному распределению, состоит в том, что наблюдения принадлежат совокупности с нормальным распределением. Значение p = 0,99, поэтому мы не можем отклонить нулевую гипотезу о том, что наши наблюдения распределены нормально, значит, условие нормальности разностей выполняется. Более детально о проверке нормальности распределения количественных данных можно прочитать в [2]. Альтернативным тестом для сравнения парных данных, для проведения которого нормальное распределение разностей не требуется, является критерий Вилкоксона, который мы рассмотрим в одном из последующих выпусков, однако этот тест обладает меньшей мощностью, чем парный t-критерий Стьюдента. Статистика t для парного критерия Стьюдента рассчитывается как Значение критерия Стьюдента t = 1,02 совпадает с ранее рассчитанным по формуле значением. Для оценки уровня значимости двустороннего теста мы смотрим на значение Ha: meantdiff) != 0 Pr(ITI > |t|) = 0.3147 Уровень значимости для двустороннего теста p = 0,31. Таким образом, мы не можем отвергнуть нулевую гипотезу об отсутствии различий между средними значениями артериального давления до лечения и через неделю после начала приема препарата. Тот же результат мы можем получить с помощью критерия Стьюдента для одной выборки для ранее рассчитанной переменной diff0_1: Ha: mean < 8 Ha: mean != 0 Ha: mean > 0 Pr(T < t) = 0.8427 Pr(|T| > |t|) = 0.3147 Pr(T > t) = 0.1573 . ttest diff0_1=0 Представляя результаты применения парного критерия Стьюдента, рекомендуется указывать значение критерия, количество степеней свободы и достигнутый уровень значимости. Рассмотренный выше пример можно представить следующим образом: средние значения артериального давления до лечения 147,8 мм рт. ст. (SD = 8,8) и через неделю после начала приема препарата X 146,0 мм рт. ст. (SD = 4,2) статистически не различались (t32 = 1,02, p = 0,31). Подробнее об особенностях представления результатов статистической обработки данных можно прочитать в [3].
×

Об авторах

А В Субботина

Университет г. Тромсё

Андрей Мечиславович Гржибовский

Норвежский институт общественного здравоохранения; Архангельская международная школа общественного здоровья ГБУО ВПО «Северный государственный медицинский университет»

Email: grjibovski@gmail.com
доктор медицины, профессор, старший советник; директор Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway

Список литературы

  1. Гржибовский А. М. Одномерный анализ повторных измерений // Экология человека. 2008. № 4. С. 51-60.
  2. Субботина А. В., Гржибовский А. М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. № 2. С. 51-57.
  3. Унгуряну Т. Н., Гржибовский А. М. Краткие рекомендации по описанию, статистическому анализу и представлению данных в научных публикациях // Экология человека. 2011. № 5. С. 55-60.
  4. Унгуряну Т. Н., Гржибовский А. М. Программное обеотечение для статистической обработки данных STATA: введение // Экология человека. 2014. № 1. С. 60-63.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Экология человека, 2014



СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 78166 от 20.03.2020.


Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах