COMPARISON OF QUANTITATIVE DATA IN TWO PAIRED SAMPLES USING STATA SOFTWARE

A V Subbotina; Субботина А В; A M Grjibovski; Гржибовский Андрей Мечиславович

doi:10.17816/humeco17199

COMPARISON OF QUANTITATIVE DATA IN TWO PAIRED SAMPLES USING STATA SOFTWARE

Authors: Subbotina AV¹, Grjibovski AM²
Affiliations:
1. University of Troms0
2. Norwegian Institute of Public Health
Issue: Vol 21, No 10 (2014)
Pages: 61-64
Section: Articles
Submitted: 23.10.2019
Published: 15.10.2014
URL: https://hum-ecol.ru/1728-0869/article/view/17199
DOI: https://doi.org/10.17816/humeco17199
ID: 17199

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

In this paper we have presented basic principles of analysis of quantitative data in two paired samples. Examples of normality testing, calculating paired t-test both manually and using the STATA software have been given. We have also considered assumptions for using paired t-test as well as the main principles of presentation of the results in scientific publications. The article has given only basic information on the use of t-test in research and it does not substitute reading specialized literature.

Keywords

STATA, paired samples, normal distribution, t-test, STATA

Full Text

В предыдущих выпусках Практикума мы представляли методы, применяемые для сравнения количественных данных двух и более независимых выборок, подчеркивая, что независимость наблюдений друг от друга является одним из условий применения этих методов. В настоящей статье рассмотрим методы сравнения двух парных групп данных с помощью пакета статистических программ STATA [4]. Пользователям SPSS рекомендуем обратиться к нашей более ранней публикации [1]. Под парными данными мы понимаем значения связанных, то есть не являющихся независимыми, выборок. Парность изучаемых выборок определяется дизайном исследования. Примерами парных выборок могут служить ситуации, когда изучаемый признак измеряется у одних и тех же участников исследования в два разных момента времени, например до и после лечебного вмешательства, - исследования типа «до - после». Также парными данными будут являться, к примеру, результаты измерения одного и того же показателя у одной и той же группы пациентов: определение уровня холестерина в крови в нескольких лабораториях или измерение артериального давления двумя исследователями. Парными также считаются данные, полученные для двух групп в результате исследования типа «случай - контроль» с использованием метода подобранных пар (matched case-control design). В данном случае «контроли» не могут считаться полностью независимыми от «случаев», так как их намеренно подбирали, исходя из характеристик «случаев», например пола, возраста, района проживания. Парный t-критерий Стьюдента используется для того, чтобы определить, существует ли значимая разница между средними значениями одного и того же признака в парных группах. Оба измерения проводятся для каждой единицы выборки, а критерий основан на парных разностях между этими двумя значениями. Критерий также принимает во внимание вариацию в значениях внутри каждой выборки, в результате чего рассчитывается одно значение, известное как значение t Стьюдента. Зная значение t, мы можем оценить вероятность того, что различие в наших двух выборках не будет отличаться от разницы в выборках, взятых из одной и той же генеральной совокупности, на основании значения достигнутого уровня значимости (величина p). Если разница значимая (в большинстве случаев определяемая как p < 0,05), то делается вывод о том, что с выбранным уровнем доверительной вероятности (обычно 95 %) наши две выборки происходят из разных генеральных совокупностей, а значит, между ними существуют статистически значимые различия. В качестве примера рассмотрим изменение артериального давления у группы, состоящей из 33 пациентов, до и после начала применения гипотензивного препарата X. Значения данных переменных представлены переменными ad_t0 ad_t1 соответственно. Если мы примем первое значение какого-то признака у данного индивида за y1, а второе за y2, то разность между двумя наблюдениями для каждого пациента составит d = y1 - y2 Для того чтобы рассчитать разность между парными наблюдениями, создадим новую переменную diff0_1 в STATA, воспользовавшись командой: . generate diff0_1 = ad_t0 - ad_t1 Общие принципы работы пакета статистических программ STATA рассматривались в одном из предыдущих выпусков Практикума [3]. Затем рассчитываем среднее значение разности между двумя наблюдениями и стандартную ошибку для разности. Среднее значение разности между первым и вторым наблюдениями рассчитывается как _ £d . Среднее значение разницы представляет собой оценочное значение средней разности для генеральной совокупности Pd = Pi -Рз. Для расчета стандартного отклонения для разности из каждого значения разностей между парами наблюдений отнимаем среднее у, сумму квадратов полученных значений делим на количество пар наблюдений n и извлекаем квадратный корень из полученного числа. SD .в п где SD - стандартное отклонение разности в наблюдениях, n - размер выборки разностей (в данном случае, число пациентов). То же самое несложно рассчитать в STATA, используя команду . summarize ad_t0 ad_t1 diff0_1. В результате мы получаем описательную статистику для значений переменных ad_t1, ad_t2 и разности наблюдений (табл. 1): Среднее значение разностей будет равняться 1,86, стандартное отклонение 10,46. В силу того, что мы рассматриваем разности, для определения стандартной ошибки средней арифметической мы можем использовать ту же логику, какую использовали для одиночной выборки: SE5 = Нулевой гипотезой для парного критерия Стью-дента будет являться утверждение об отсутствии различий между средними в парных выборках, то есть разность (diff0_1) равна нулю. Соответственно альтернативной гипотезой будет являться предположение о том, что средняя разница между парными наблюдениями значимо при выбранном уровне значимости отличается от нуля: Н0: Pd = ° Hi: fld * 0 В нашем примере, нулевая и альтернативная гипотеза будут звучать следующим образом: H0 - между средними значениями артериального давления при измерении до и после применения препарата различий нет. H1 - между средними значениями артериального давления при измерении до и после применения препарата различия есть. Иными словами, данный тест предназначен для того, чтобы дать ответ на вопрос «Является ли наблюдаемая разница между парными наблюдениями достаточно большой, чтобы отклонить нулевую гипотезу об отсутствии различий?». Основным условием применения парного t-критерия Стьюдента является нормальное распределение разностей между индивидуальными значениями парных выборок. Необходимо обратить особое внимание на тот факт, что данный критерий может применяться при тестировании наблюдений, которые сами происходят из выборок, не соответствующих нормальному распределению, если значения разниц в наблюдениях нормально распределены. Для проверки этого условия мы можем использовать графический метод, то есть визуально оценить распределение разниц и сравнить с нормальным распределением. Для этого можно построить гистограмму (рис. 1) и / или квантильную диаграмму (рис. 2). . histogram diff0_1, bin(11) normal Судя по гистограмме, распределение разностей в нашем примере может подчиняться закону нормального распределения, однако график не очень убедителен. Квантильная диаграмма, в свою очередь, достаточно убедительно демонстрирует, что переменная diff0_1 подчиняется закону нормального распределения, по крайней мере в середине распределения. . qnorm diff0_1 где у - средняя разница между парами наблюдений, А - предполагаемая разница (0 при тестировании на равенство средних), SD - стандартное отклонение разниц, n - размер выборки. Количество степеней свободы в данном тесте n - 1. Подставляя значения, в нашем примере мы получаем: 1,86 - О . В STATA парный t-критерий Стьюдента можно рассчитать двумя способами (табл. 3 и 4). . ttest ad_t0 = ad_t1 Рис. 2. Квантильная диаграмма для оценки распределения переменной diff0_1 Также мы можем провести формальный тест на соответствие распределения нормальному (табл. 2). Воспользуемся командой . swilk diff0_1 Нулевая гипотеза для критерия Шапиро - Уилка, с помощью которого мы будем проверять данные на соответствие нормальному распределению, состоит в том, что наблюдения принадлежат совокупности с нормальным распределением. Значение p = 0,99, поэтому мы не можем отклонить нулевую гипотезу о том, что наши наблюдения распределены нормально, значит, условие нормальности разностей выполняется. Более детально о проверке нормальности распределения количественных данных можно прочитать в [2]. Альтернативным тестом для сравнения парных данных, для проведения которого нормальное распределение разностей не требуется, является критерий Вилкоксона, который мы рассмотрим в одном из последующих выпусков, однако этот тест обладает меньшей мощностью, чем парный t-критерий Стьюдента. Статистика t для парного критерия Стьюдента рассчитывается как Значение критерия Стьюдента t = 1,02 совпадает с ранее рассчитанным по формуле значением. Для оценки уровня значимости двустороннего теста мы смотрим на значение Ha: meantdiff) != 0 Pr(ITI > |t|) = 0.3147 Уровень значимости для двустороннего теста p = 0,31. Таким образом, мы не можем отвергнуть нулевую гипотезу об отсутствии различий между средними значениями артериального давления до лечения и через неделю после начала приема препарата. Тот же результат мы можем получить с помощью критерия Стьюдента для одной выборки для ранее рассчитанной переменной diff0_1: Ha: mean < 8 Ha: mean != 0 Ha: mean > 0 Pr(T < t) = 0.8427 Pr(|T| > |t|) = 0.3147 Pr(T > t) = 0.1573 . ttest diff0_1=0 Представляя результаты применения парного критерия Стьюдента, рекомендуется указывать значение критерия, количество степеней свободы и достигнутый уровень значимости. Рассмотренный выше пример можно представить следующим образом: средние значения артериального давления до лечения 147,8 мм рт. ст. (SD = 8,8) и через неделю после начала приема препарата X 146,0 мм рт. ст. (SD = 4,2) статистически не различались (t32 = 1,02, p = 0,31). Подробнее об особенностях представления результатов статистической обработки данных можно прочитать в [3].

About the authors

A V Subbotina

University of Troms0

Tromso, Norway

A M Grjibovski

Norwegian Institute of Public Health

Email: grjibovski@gmail.com
Oslo, Norway

References

Гржибовский А. М. Одномерный анализ повторных измерений // Экология человека. 2008. № 4. С. 51-60.
Субботина А. В., Гржибовский А. М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. № 2. С. 51-57.
Унгуряну Т. Н., Гржибовский А. М. Краткие рекомендации по описанию, статистическому анализу и представлению данных в научных публикациях // Экология человека. 2011. № 5. С. 55-60.
Унгуряну Т. Н., Гржибовский А. М. Программное обеотечение для статистической обработки данных STATA: введение // Экология человека. 2014. № 1. С. 60-63.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register