ANALYSIS OF VARIANCE FOR REPEATED MEASUREMENTS USING STATA



Cite item

Full Text

Abstract

In this paper we present basic principles of analysis of quantitative data in three or more paired samples. Examples of normality testing, both manual calculations of repeated measurements analysis of variance (RM-ANOVA) and calculations using STATA software are described. We also discuss assumptions for using RM-ANOVA as well as the main principles of presentation of the results in scientific publications. The article gives only basic information on the use of RM-ANOVA in biomedical research and it does not substitute reading specialized literature.

Full Text

В предыдущей статье Практикума рассматривалось сравнение двух парных групп с помощью парного t-критерия Стьюдента. Данный тип анализа может применяться в ситуациях, когда одно и то же измерение было проведено, например, в два момента времени для одной и той же группы индивидов. Если же необходимо сравнить средние значения количественного признака для трех и более парных групп, то применяется либо парный критерий Стьюдента с изменением критического уровня значимости в соответствии с числом проводимых наблюдений (поправка Бонферрони), либо дисперсионный анализ для повторных наблюдений (Repeated measures ANOVA или GLM-4) [1]. В настоящей статье рассмотрим тот же пример (см. данные в .dta формате на сайте журнала), который использовался для расчета парного критерия Стьюдента [2], однако на этот раз сравним средние значения артериального давления для группы пациентов в три момента измерения. Напомним, что обычный дисперсионный анализ основан на соблюдении условия независимости наблюдений. В случае повторных наблюдений существует связь между значениями измерений для каждого участника исследования. Таким образом, значения интересующего нас параметра у одного испытуемого будут ближе друг к другу, чем значения измерений признака у нескольких испытуемых, и соответственно дисперсия значений при повторных измерениях будет меньше. Дисперсионный анализ для повторных измерений выделяет два источника вариабельности: уровни измерений и субъекты. Такое подразделение источников вариабельности снижает значение средней квадратичной ошибки (Mean square error) вследствие того, что теперь мы учитываем два источника вариабельности - субъекты и измерения, в отличие от обычного дисперсионного анализа, в котором учитывается только вариабельность между субъектами. Благодаря этому повышается чувствительность или статистическая мощность анализа. Вместо сравнения эффектов лечения в группе различных субъектов эффекты лечения оцениваются среди повторных измерений у одних и тех же субъектов. Каждый субъект, таким образом, служит собственным контролем. Следовательно, данный тип дизайна исследования более чувствителен к разнице в значениях, то есть для того, чтобы отклонить ложную нулевую гипотезу, требуется меньшее количество участников исследования, чем при использовании дисперсионного анализа для независимых выборок при одних и тех же различиях между средними значениями зависимой переменной. Нулевая гипотеза для дисперсионного анализа повторных наблюдений утверждает, что средние значения измерений не отличаются друг от друга, то есть разница средних значений для каждого повторного наблюдения равняется нулю. Соответственно альтернативная В статье рассматриваются основные принципы сравнения количественных данных в трех и более парных группах. Приводится пример однофакторного дисперсионного анализа повторных наблюдений с расчетом при помощи пакета статистических программ STATA. Разбираются условия применения дисперсионного анализа парных наблюдений и основные правила представления результатов в публикациях. Статья дает общие представления о применении дисперсионного анализа парных наблюдений с использованием пакета STATA и не заменяет изучения специализированной литературы. Ключевые слова: парные выборки, повторные измерения, нормальное распределение, дисперсионный анализ, STATA 61 Практикум Экология человека 2014.11 гипотеза заключается в том, что между средними значениями различия есть. Для правомерности применения дисперсионного анализа повторных наблюдений необходимо соблюдение ряда условий. Условия применения дисперсионного анализа для повторных наблюдений те же, что и для обычного дисперсионного анализа, за исключением условия независимости выборок. Кроме того, появляется условие взаимосвязи между повторными наблюдениями (условие сферичности). Таким образом, должны соблюдаться следующие условия: 1. Условие нормального распределения - зависимая переменная подчиняется закону нормального распределения. Данное условие может быть проверено графически с помощью гистограммы и/или квантильной диаграммы с использованием описательной статистики (асимметрия и эксцесс), а также с использованием критериев Шапиро - Уилка или Колмогорова - Смирнова. 2. Наблюдения являются независимыми (не выборки, а отдельные наблюдения). 3. Условие сферичности (частных случай сложной симметрии). Условие сферичности обозначает, что дисперсии разностей между всеми возможными уровнями пар значений приблизительно равны. Это условие также можно проверить с помощью статистических критериев с использованием пакета статистических программ STATA. Проверим соблюдение условия сферичности для нашего примера. Для наглядности проверки создадим новые переменные для значений разности показателей артериального давления в каждый из трех моментов времени. Создаем три новые переменные: diff0_1, diff1_2 и diff0_2: • generate diff0_1 = ad_t0 - ad_t1 • generate diff1_2 = ad_t1 - ad_t2 • generate diff0_2 = ad_t0 - ad_t2 Первая переменная показывает разность между значениями артериального давления, измеренного через одну неделю после начала лечения, и артериального давления до начала лечения, вторая - между значениями артериального давления, измеренного через две недели после начала лечения и через одну неделю после начала лечения, а третья - разность между значениями артериального давления через две недели после начала лечения и до начала лечения. Теперь рассчитаем результаты описательной статистики для трех новых переменных с помощью команды: • summarize diffü_1 diff1_2 diff0_2, detail Рассчитанные данные описательной статистики для попарных разностей показателей артериального давления между тремя уровнями измерений представлены на рис. 1. Для оценки соблюдения условия сферичности нас больше всего интересует дисперсия (Variance). Условие сферичности соблюдается в том случае, когда diff0_l Percentiles Smallest 1% -22.09 -22.09 5% -16.96 -16.96 10% -10.15 -12.46 Obs 33 25% -5.49 -10.15 Sum of Wgt. 33 50% 2.13 Mean 1.860303 Largest Std. Dev. 10.46136 75% 8.53 12.87 90% 12.87 15.85 Variance 109.4401 95% 19.94 19.94 Skewness -.0453733 99% 25.98 25.98 diff1_2 Kurtosis 2.926629 Percentiles Smallest 1% -15.01 -15.01 5% -10.13 -10.13 10% -6.68 -8.48 Obs 33 25% -2.19 -6.68 Sum of Wgt. 33 50% .84 Mean 1.616364 Largest Std. Dev. 7.043414 75% 6.04 11.74 90% 11.74 12.43 Variance 49.60969 95% 14.42 14.42 Skewness -.0487968 99% 15.63 15.63 diff0_2 Ku rtosis 2.813864 Percentiles Smallest 1% -6.46 -6.46 5% -2.54 -2.54 10% -1.12 -2.17 Obs 33 25% 1.68 -1.12 Sum of Wgt. 33 50% 3.28 Mean 3.476667 Largest Std. Dev. 3.911046 75% 5.73 8.25 90% 8.25 9.81 Variance 15.29628 95% 10.09 10.09 Skewness -.2463284 99% 10.97 10.97 Ku rtosis 2.949186 Рис. 1. Описательная статистика для переменных diff0_1, diffi 2 и diff0 2 дисперсии разностей приблизительно равны. В нашем примере значения дисперсии для трех переменных достаточно сильно отличаются друг от друга и равны 109, 49 и 15 соответственно. Однако для того чтобы принять или отклонить нулевую гипотезу о наличии сферичности, необходимо применить статистический критерий и рассчитать уровень значимости (р). Для проведения дисперсионного анализа повторных наблюдений в STATA необходимо изменить формат данных на вертикальный. В STATA данные могут содержаться в двух форматах - горизонтальном (wide) и вертикальном (long). Для начала удалим вновь созданные переменные: • drop diff0_1 diff1_2 diff0_2 Перекодируем формат наших данных с помощью команды: • reshape long ad_t, i(id) j(time) В случаи правильного применения команды в рабочем окне появляется представленная на рис. 2 таблица. 62 Экология человека 2014.11 Практикум Рис. 2. Отчет STATA об изменении формата данных Для проведения дисперсионного анализа повторных наблюдений необходимо использовать следующую команду: • anova ad_t id time, repeated(time) Опция repeated() специфицирует переменную, указывающую на уровни измерения переменной (в нашем примере после преобразования данных переменная time принимает значения 0, 1 и 2, обозначая три измерения артериального давления - до начала терапии, через одну неделю и через две недели после начала использования препарата). На рис. 3 представлена таблица результатов дисперсионного анализа. Во втором столбце приведено значение вариабельности артериального давления (Partial SS time) и остаточная вариабельность, которая не объясняется моделью (Residual). Путем деления на число степеней свободы (df) рассчитывается систематическая дисперсия (MS time) и остаточная дисперсия (MS residual). Отношение F получается в результате деления этих двух значений: Number of obs = 99 Root M5E = 5.39052 R-squared = 0.5367 Adj R-squared = 0.2905 Source Partial SS df MS F Prob > F Model 2153.8982 34 63.3499472 2.18 0.0036 id 1954.13194 32 61.066623 2.10 0.0058 time 199.766269 2 99.8831343 3.44 0.0382 Residual 1859.69126 64 29.057676 Total 4013.58947 98 40.9549946 Рис. 3. Результаты дисперсионного анализа (F-test) для связанных выборок при условии соблюдения условия сферичности Уровень значимости для отношения F представлен в столбце Prob > F. В строке time показан достигну тый уровень значимости для ситуации, при которой соблюдается условие сферичности. Это же значение находим в следующей таблице (рис. 4) - Regular Prob > F. Однако для того чтобы решить, можем ли мы использовать данное значение уровня значимости, необходимо оценить, выполняется ли для наших данных условие сферичности. Сферичность можно оценить с помощью значения Epsilon, которое может принимать значение от 1/ (n-1), где n - количество уровней, до 1, то есть в данном случае Epsilon может принимать значение от 0,5 (Lower bound) до 1. Как видно из таблицы, значение Epsilon равно 0,527, что гораздо ближе к 0,5, чем к 1, что говорит о значительном отклонении от сферичности. Таким образом, делаем вывод, что в нашем примере рассчитанное выше значение не подходит, так как условие сферичности не соблюдается. В столбцах таблицы Prob > F H-F, G-G и Box на рис. 4 находим скорректированные на отсутствие сферичности уровни значимости. При значении Epsilon < 0,75 рекомендуется применять коррекцию по Greenhouse-Geisser, а при Epsilon > 0,75 - коррекцию по Huynh-Feldt. Поскольку для рассматриваемого примера Epsilon < 0,75, то результат дисперсионного анализа смотрим в столбце H-F. Согласно данному результату нулевую гипотезу о сходстве дисперсий (p = 0,07) нельзя отвергнуть. Это означает, что, по результатам проведенного дисперсионного анализа повторных наблюдений с поправкой Greenhouse-Geisser, статистически значимых различий в артериальном давлении до лечения, через неделю и через две недели после начала приема препарата выявлено не было. Если не обратить внимания на соблюдение условия сферичности, то можно прийти к противоположному выводу (р = 0,0382 в столбце Regular), что было бы ошибкой. При представлении результатов дисперсионного анализа парных наблюдений рекомендуется указывать значение отношения F и достигнутый уровень значимости. В данном случае F = 3,44, p = 0,07. Подробнее о представлении результатов дисперсионного анализа повторных наблюдений, а также других одномерных методов статистического анализа можно ознакомиться в [4]. Between-subjects error term: id Levels: 33 Lowest b.s.e. variable: id (32 df) Repeated variable: time Huynh-Feldt epsilon = 0.5301 Greenhouse-Geisser epsilon = 0.5274 Box's conservative epsilon = 0.5000 Prob > F Source df F Regular H-F G-G Box time 2 3.44 0.0382 0.0703 0.0705 0.0730 Residual 64 Рис. 4. Результаты дисперсионного анализа (F-test) для связанных выборок, скорректированные на отсутствие выполнения условия сферичности
×

About the authors

A V Subbotina

University of Tromsø

A M Grjibovski

Norwegian Institute of Public Health; Northern State Medical University

Email: andrej.grjibovski@gmail.com

References

  1. Гржибовский А.М. Одномерный анализ повторных измерений // Экология человека. 2008. № 4. С. 51-60.
  2. Субботина А.В., Гржибовский А.М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. № 2. С. 51-57.
  3. Субботина А.В., Гржибовский А.М. Сравнение количественных данных в двух парных выборках и использованием пакета статистических программ STATA // Экология человека. 2014. № 10. С. 61-64.
  4. Унгуряну Т.Н., Гржибовский А.М. Краткие рекомендации по описанию, статистическому анализу и представлению данных в научных публикациях // Экология человека. 2011. № 5. С. 55-60.
  5. Унгуряну Т.Н., Гржибовский А.М. Программное обеспечение для статистической обработки данных STATA: введение // Экология человека. 2014. № 1. С. 60-63.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2014 Ekologiya cheloveka (Human Ecology)



СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 78166 от 20.03.2020.


This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies