PROPENSITY SCORE MATCHING AS A MODERN STATISTICAL METHOD FOR BIAS CONTROL IN OBSERVATIONAL STUDIES WITH CONTINUOUS OUTCOME VARIABLE



Cite item

Abstract

The authors presents a propensity score matching (PSM) technique - an effective method to control the effect of confounding factors in observational studies. PSM has been shown to be as efficient as linear regression analysis, but can be performed using smaller samples. This article presents the basic principles of PSM and its practical application using STATA 13 software for the studies with continuous dependent variable.

Full Text

Одной из целей исследований в медицине является достоверная оценка наличия, направления и силы связи между факторами воздействия и наблюдаемыми исходами. Примерами изучаемых факторов могут служить назначение определенных схем терапии, факторы окружающей среды, организационные мероприятия в области общественного здравоохранения и др. Примерами исходов могут служить количественные характеристики объектов исследования (уровень общего холестерина, длительность госпитализации, расходы на лечение и т. п.), а также категориальные показатели (наличие или отсутствие заболевания, летального исхода, осложнения и т. п.). Следует учесть, что изучаемый исход подвержен влиянию как изучаемого в ходе исследования фактора, так и достаточного количества прочих факторов, которые могут быть связаны как с изучаемым воздействующим фактором, так и с исходом. Такие факторы называются конфаундерами [14]. Следствием действия конфаундеров является искажение результатов исследования, то есть возникновение различий между рассчитанным и фактическим значением меры и направления воздействия изучаемого фактора. Данная проблема может решаться с помощью проведения рандомизированных контролируемых исследований (РКИ), которые при корректной рандоми 51 Практикум Экология человека 2016.07 зации обеспечивают сбалансированное распределение конфаундеров между основной группой и группой контроля и поэтому являются «золотым стандартом» оценки воздействия изучаемого фактора на исход. При этом влияние фактора на исход оценивается путем прямого сравнения исходов в основной и контрольной группах [5]. Но так как РКИ имеют существенные ограничения в использовании, к числу которых относится невозможность организовать процедуру рандомизации, а также неэтичность исследований, направленных на изучение лечебного воздействия, наиболее часто встречающимся инструментом оценки связи между фактором и исходом в медицине и особенно в общественном здравоохранении остаются обсервационные исследования [1, 2, 5]. Проведение обсервационных исследований требует корректной оценки мер эффекта действия фактора, учитывающей влияние конфаундеров. Например, в случае изучения эффективности какого-либо дополнительного метода лечения, используемого в составе комплексной терапии, прямое сравнение исхода в группе пациентов, получавших данный метод лечения в составе комплексной терапии, с исходом в группе пациентов, его не получавших, будет некорректным, так как группы сравнения, вероятнее всего, будут существенно различаться по базисным схемам терапии. В обсервационных исследованиях всегда есть риск включить в анализ группы сравнения, имеющие существенные систематические отличия друг от друга, что при прямом сравнении исходов в наблюдаемых группах не позволит экстраполировать результаты исследования на генеральную совокупность. Таким образом, при анализе результатов обсервационных исследований необходимо использовать такой способ включения наблюдений в анализ, который мог бы обеспечить максимальную сопоставимость основной и референтной групп по имеющимся конфаундерам. Одним из таких способов является метод «Propensity score matching» (PSM), который был разработан P. R. Rosenbaum и D. B. Rubin еще в 1983 году [16]. Широкое внедрение метода PSM в исследовательский процесс в медицине, эконометрике, психологии и социологических исследованиях активно началось после 2000 г., и в настоящее время метод PSM использует все большее число исследователей по всему миру. В обсервационных исследованиях, в отличие от экспериментальных, исследователь не может равномерно распределить распространенность конфаунде-ров между группами.Такое распределение происходит самопроизвольно, причем как случайным образом, так и вследствие набора неких характеристик объекта, связанных как с изучамым фактором, так и с изучаемым исходом. Метод PSM позволяет рассчитать индекс соответствия (propensity score - PS) - вероятность попадания каждого объекта исследования в основную или контрольную группу наблюдения на основании набора его характеристик, то есть значение PS показывает вероятность для каждого объекта исследования попасть под действие изучаемого фактора (значения PS, как и подобает вероятности, находятся в пределах от 0 до 1). Подробные математическое выкладки для метода PSM описаны в специализированной литературе по статистике [9, 11, 13, 16]. Рассчитав значения условной вероятности попадания объекта исследования в основную группу, можно подобрать группу сравнения таким образом, чтобы данная вероятность была сбалансирована между группами сравнения. Таким образом будет скомпенсировано неравномерное распределение конфаундеров между основной группой и группой сравнения, то есть будет проведена процедура, сходная с процедурой рандомизации в РКИ, но только проводимая на этапе обработки, а не набора данных. Особенность метода PSM заключается в том, что он позволяет свести широкий набор характеристик каждого наблюдения к единому вариационному ряду значений PS [8, 11, 12]. Алгоритм PSM включает в себя следующие основные этапы: 1. Отбор переменных-ковариат, кодирующих кон-фаундеры, для последующего включения в анализ. 2. Расчет значений PS для каждого наблюдения. 3. Проверка баланса распределения значений PS и переменных-ковариат между группами сравнения. 4. Расчет мер эффекта воздействия фактора на основании одного из имеющихся методов подбора пар или «взвешивания». 5. Оценка эффективности устранения дисбаланса ковариат после применения выбранного метода подбора пар или «взвешивания». 6. В случае сохранения дисбаланса повторное проведение анализа с использованием других методов подбора пар или «взвешивания». Переменные, кодирующие фактор и исход, определяются целью исследования [1, 2, 5]. Переменная, кодирующая изучаемый фактор, должна быть дихотомической (есть фактор / нет фактора), переменная исхода должна быть количественной или качественной (в настоящей статье рассматриваются только случаи количественной переменной исхода). Следует отметить, что в зарубежных источниках переменная, кодирующая фактор, часто называется словом «treatment» - «лечение», независимо от того, к какой области науки относится исследования (медицина, общественное здравоохранение, эконометрика, психология или социология). Разумеется, спектр факторов, названных этим словом, гораздо шире, чем просто лечебное воздействие. Согласно самой концепции PSM, отбор конфаун-деров для включения в анализ должен быть основан на теоретических представлениях об их потенциальной связи как с изучаемым фактором, так и с исходом [7]. При этом в анализ не должны включаться переменные, которые являются звеном патогенетической цепи между изучаемым фактором и исходом. Следует отметить, что многие вопросы отбора конфаундеров в PSM не имеют однозначных ответов и остаются объектом обсуждения в литературе [7, 12]. 52 Экология человека 2016.07 Практикум Примерами конфаундеров могут служить социально-демографические характеристики участников исследования (возраст, пол, уровень доходов и т. п.), характеристика коморбидных состояний (сопутствующая патология, длительность анамнеза, частота госпитализаций и т. п.), локальные особенности (регион проживания, климатические особенности и т. п.), а также другие характеристики объектов исследования, удовлетворяющие вышеуказанным условиям. Расчет значений PS производится с помощью логистической регрессии, в которой в качестве переменной отклика указывается факт принадлежности к основной группе (находящейся под действием «лечения»), а кодирующие конфаундеры ковариаты являются независимыми переменными. Заметим, что рассчитанные значения условной вероятности попадания наблюдения в основную группу могут распределиться таким образом, что определенная часть наблюдений будет иметь набор характеристик, создающий очень высокую вероятность подвергаться действию фактора, а для другой части наблюдений, напротив, попадание под действие фактора будет очень маловероятным. Именно поэтому для оценки эффекта изучаемого фактора наиболее подходящими будут те наблюдения, которые попадают в зону перекреста областей значений PS («common support») [7, 15, 17]. Баланс распределения значений PS между основной и контрольной группами проводится путем разделения выборки наблюдений на страты таким образом, чтобы средние значения PS в пределах каждой страты в основной группе и группе сравнения статистически значимо не различались. После определения страт проводится проверка баланса всех ковариат в пределах каждого блока. Далее используется один из следующих основных методов анализа [7, 9, 12]: - Стратификация объектов исследования на основании значений PS. - Подбор к каждому наблюдению основной группы одной или нескольких пар («ближайших соседей») -наблюдений с наиболее близким значением PS. - Взвешивание Кернела, при котором каждому наблюдению основной группы присваивается весовой коэффициент, равный единице, а все наблюдения группы контроля ранжируются таким образом, чтобы более близкие к объектам основной группы наблюдения контрольной группы получали большие «веса» по сравнению с теми, которые являются более удаленными. Вышеперечисленные методы необходимы для балансировки конфаундеров между основной и контрольной группами. Основными мерами эффекта воздействия исследуемого фактора на исход являются следующие [17]: 1. Средний эффект воздействия фактора на объекты основной группы («average treatment effect for the treated» - ATT). 2. Средний эффект воздействия фактора («average treatment effect» - ATE). Следует отметить, что в случае анализа данных РКИ эти два показателя будут практически равны между собой, так как благодаря процедуре рандомизации основная группа не должна иметь систематических отличий от группы контроля и генеральной совокупности. Выбор между ATT или ATE должен быть основан на цели и задачах исследования. Например, оценка эффективности продолжительной программы коррекции массы тела среди лиц с ожирением не может считаться целесообразной в отношении генеральной совокупности всех лиц с ожирением (ATE) вследствие различных трудностей, ограничивающих полноценное завершение подобных программ пациентами из целевой аудитории, и в данном случае следует рассчитывать показатель ATT. Напротив, оценка эффективности информационной кампании по борьбе с курением (раздача соответствующих мотивирующих брошюр, социальная реклама и т. п.) может быть оценена с помощью показателя ATE, так как подобные мероприятия могут охватить всю генеральную совокупность практически без ограничений. Метод PSM является методом коррекции влияния конфаундеров, используемым наряду с регрессионным анализом, поэтому сравнение эффективности данных двух методов представляет существенный интерес и обсуждается в литературе [7, 12]. Ситается, что метод PSM более точен по сравнению с регрессионным анализом в том случае, когда в распоряжении исследователя имеется относительно небольшое число наблюдений на фоне большого числа конфаундеров, которые требуется включить в анализ. Выяснено также, что метод PSM обеспечивает менее смещенную оценку меры эффекта по сравнению с регрессионным анализом при наличии 7 и менее наблюдений на каждый конфаундер [10]. Как и в случае любого многоэтапного метода статистического анализа данных, для применения метода PSM необходимо специализированное статистическое программное обеспечение. В настоящей статье рассматривается профессиональный статистический программный пакет Stata 13.0 (Stata Corp, TX, USA) [4]. Демо-версию программы можно скачать с официального сайта разработчика - www.stata.com. Программа Stata позволяет задавать последовательность команд обработки данных и детализировать процесс анализа, который запускается путем ввода специализированных команд, имеющих определенный синтаксис [6]. Анализ также может проводиться с использованием выпадающего меню модуля «Statistics», но данный модуль имеет ограниченные функциональные возможности по сравнению с командным способом. Далее будет рассмотрен синтаксис команд STATA и представлен алгоритм обработки данных с использованием различных вариантов PSM [12], а также интерпретация полученных результатов. Для удобства восприятия в настоящей статье команды STATA будут записываться следующим образом: - Жирный шрифт - команды обработки данных (например, pscore). 53 Практикум Экология человека 2016.07 - Курсив - переменные, представленные в исходной базе данных (например, gender). - Обычный шрифт - переменные, создаваемые в процессе анализа (например, mypscore). Запуск команд производится клавишей «Enter». Заметим, что в программе Stata в качестве десятичного разделителя используется не запятая, а точка, что важно при вводе значений в базу данных (иначе подобные переменные будут восприниматься программой как текстовые), а запятая используется для разделения разрядов. Программа имеет минимальную возможность воспринимать кириллические символы, поэтому для выбора названий переменных, открытия и сохранения файлов рекомендуется латиница и использование таких мест хранения на диске, которые в наименовании пути к файлу не имеют русскоязычных названий папок. В противном случае программа будет выдавать сообщение об ошибке. Для начала работы с PSM необходимо дополнить базовую версию программы Stata специальными модулями, загрузив их из интернета. Для этого введем в поле «Command» программы STATA команду findit pscore. После нажатия клавиши «Enter» программа откроет новое окно, в котором выберем модуль st0026_2 и нажмем «click here to install» для установки модуля в имеющийся программный пакет. Заметим, что в дальнейшем, если программа показывает, что введенная команда не распознана (сообщение «unrecognized command»), необходимо с помощью команды findit аналогичным образом найти соответствующий модуль и установить его (потребуется в отношении команды psmatch2). Для наглядного примера выполнения PSM рассмотрим фрагмент базы данных, которые были собраны в ходе исследования, направленного на изучение метаболического синдрома и его детерминант в г. Туркестан (Казахстан) [3]. Одной из задач данного исследования была оценка связи между наличием у пациентов метаболического синдрома и уровнем гемоглобина. Для загрузки базы данных в программу необходимо загрузить ее с сайта журнала (файл STATAms.dta) и открыть через меню «File» - «Open». В базе данных представлены следующие переменные: - bmi (кодирует группу наблюдения): имеет значение «1» при отсутствии у пациента метаболического синдрома (основная группа) и значение «0» при его наличии (контрольная группа) кодирует «лечение» и имеет бинарный характер. Казалось бы, логичным было бы закодировать цифрой «1» наличие метаболического синдрома, но в случае PSM в качестве основной группы целесообразно использовать ту группу, в которой имеется меньшее число наблюдений, для расширения возможностей по подбору пар из группы сравнения к наблюдениям основной группы. В нашей базе данных 228 наблюдений, из которых 181 пациент имеет метаболический синдром, а оставшиеся 47 пациентов - нет; - hgb (кодирует исход): уровень гемоглобина, количественная переменная; - gender, age, smoke, educ - соответственно пол, возраст, табакокурение и уровень образования участника исследования. В нашем случае для уменьшения громоздкости примера были выбраны только эти ковариаты, из которых первая имеет дихотомический тип, вторая - количественный, третья и четвертая - порядковый. Разумеется, в исследованиях, как правило, учитывается значительно более широкий набор конфа-ундеров, но в нашем примере будут использованы только четыре из них для уменьшения громоздкости изложения наглядного материала. Далее рассмотрим пошаговый алгоритм анализа, конечной целью которого является расчет мер эффекта - значений ATT или ATE. 1. Установка случайного порядка наблюдений Случайный порядок наблюдений в базе данных важен для правильного расчета значений PS. Для установки случайного порядка наблюдений построчно введем в поле «Command» следующие команды, запуская каждую клавишей «Enter»: set seed 123456 gen x=uniform() sort x 2. Расчет значений PS Введем в поле «Command» следующую команду: pscore bmi gender age smoke educ, pscore(mypscore) blockid(myblock) logit comsup Заметим, что сразу после команды pscore в синтаксисе команды следует название переменной, кодирующей изучаемый фактор (в нашем случае - переменная, кодирующая группу наблюдения), после чего последовательно указываются названия ковариат. Команда создает новую переменную со значениями PS, имеющую название, которое мы указываем в скобках (в нашем случае выбрано название mypscore). Команда logit указывает на то, что мы используем логистическую регрессию для расчета значений PS (если ее удалить, то будет использована пробит-модель, что также допустимо). Опция comsup фиксирует зону «перекреста» значений PS между основной группой и группой сравнения («common support»). Если после опции logit впечатать опцию detail, то программа детализирует все промежуточные расчеты, что может быть полезным для понимания процесса стратификации PS. В результате выполнения команды pscore программа создаст в базе несколько новых переменных: значение PS для каждого наблюдения (переменная mypscore), номер блока, в который объединены значения PS (переменная myblock) и факт соответствия каждого наблюдения области «перекреста» (переменная comsup). Созданные переменные можно увидеть, если войти в меню «Data» - «Data Editor» - «Data Editor (Edit)» (рис. 1). 54 Экология человека 2016.07 Практикум Рис. 1. Переменные базы данных STATAms.dta. В процессе обработки данных программа последовательно представляет результаты расчетов, которые мы будем рассматривать, фиксируя внимание на ключевых моментах. В первую очередь программа представляет описательную статистику вариационного ряда значений PS в виде процентилей (рис. 2), причем учитываются только значения PS, ограниченные областью перекреста: медиана значений PS равна 0,14 (процентиль «50%»), среднее значение - 0,20 («Mean»). Следует отметить, что в нашем примере в зону перекреста попадают 226 случаев из имеющихся в базе данных 228 наблюдений («Obs»). Percentiles Sntallesc 1% .0439931 .0373434 5% .0506304 .0409733 10% .0625373 .0439931 Ob з 226 25% *0343338 .0439931 Sun Of НфС. 226 50% .1447108 Mean .2045035 Largesс Std. Dev. .1499916 75% .274 9465 .6261202 30% ,4434849 .6768656 Variance .0224975 95% .5360098 .7235613 Slcewnedd 1,292071 99% .6760656 .7352883 Kurtosis 4.075862 Рис. 2. Описательная статистика значений PS для области «перекреста». Для наглядного представления о распределении значений PS в основной группе и в группе сравнения сформируем гистограмму распределения (рис. 3) с помощью соответствующей команды: psgraph, treated(bmi) pscore(mypscore) Из представленной двойной гистограммы видно, что распределение значений PS в основной и референтной группах существенно различается, то есть имеются существенные различия между группами по распределению конфаундеров (пол, возраст, активность табакокурения и уровень образования). 3. Формирование страт (блоков) PS и проверка баланса (равновесия) значений PS и ковариат между основной группой и группой сравнения в пределах каждого блока PS Далее команда pscore разделяет выборку наблюдений на блоки и проверяет, насколько сбалансированными оказались блоки как по значениями PS, так и по каждой из ковариат. Балансировка PS Рис. 3. Распределение значений PS в группе пациентов без метаболического синдрома («Treated») и группе пациентов с метаболическим синдромом («Untreated»). проверяется путем сравнения средних значений PS в основной и контрольной группе в пределах каждого блока: если статистических различий нет, то такой блок считается сбалансированным. Если же значения PS в пределах блока между группами различаются, этот блок разделяется надвое и анализ повторяется, пока баланс PS не будет достигнут в каждом из блоков. Соответственно, если в начале анализа программа, как правило, формирует 4-5 блоков, то к концу процесса балансировки PS их количество может увеличиться. В нашем случае количество блоков осталось равным 4. На рис. 4 представлено количество наблюдений в каждом блоке с разделением на группы сравнения (графа «bmi»). Inferior of black of pscore bmi 0 1 Total * 0373434 125 17 142 .2 43 13 56 .4 9 14 23 .6 2 3 5 Total 179 47 226 Not.e: the common support option has been selected Рис. 4. Результаты разделения выборки на блоки 55 Практикум Экология человека 2016.07 Программа также проверяет все включенные в PSM ковариаты на предмет баланса между основной группой и группой сравнения в пределах каждого блока PS. Сравнение осуществляется таким же образом, как на предыдущем этапе, но сравниваемыми вариационными рядами являются уже не значения переменной mypscore, а средние значения ковариат gender, age, smoke и educ. Если в результате анализа выявлен дисбаланс какой-либо ковариаты в пределах одного или нескольких блоков, программа проинформирует об этом сообщением «The balancing property is not satisfied. Try a different specification of the propensity score». Также программа красным цветом выделит текст, в котором укажет, какие именно ковариаты и в каких блоках оказались несбалансированными. В нашем случае баланс всех ковариат достигнут во всех блоках: «The balancing property is satisfied». Что делать, если баланс всех ковариат во всех блоках не достигнут? Согласно опыту применения PSM, идеального баланса всех ковариат в каждом блоке, как правило, достигнуть не удается. Рекомендуется взвесить потенциальное влияние несбалансированного конфаундера на результаты исследования: если на основании теоретических данных оно относительно невелико, то небольшой дисбаланс таких ковариат допустим. В ином случае существует ряд способов достижения баланса: использование не логит-, а пробит-модели расчета PS (для этого потребуется убрать опцию logit из команды pscore); удаление из анализа переменных, связанных с уже включенными в анализ ковариатами; включение в анализ одной или нескольких дополнительных ковариат; преобразование несбалансированных ковариат. Далее рассмотрим методы, с помощью которых производится балансировка конфаундеров между основной и контрольной группами. 4. Подбор метода, позволяющего наиболее адекватно сбалансировать основную и контрольную группы по всем ковариатам 4.1. Метод стратификации (субклассификации) с использованием блоков PS Метод использует стратификацию на основании сформированных ранее блоков PS. Данный способ позволяет рассчитать только значение ATT: atts hgb bmi gender age smoke, pscore(mypscore) blockid(myblock) boot reps(100) Данная команда позволяет также уточнить значение стандартной ошибки ATT методом бутстрэппинга ( определение статистик вероятностных распределений, основанное на многократной генерации псевдовыборок на основе имеющейся выборки), причем количество повторов бутстрэппинга можно задавать вручную (в нашем примере заданы 100 повторов). Результаты расчетов представлены на рис. 5. Программа представляет количество включенных в анализ наблюдений основной группы (47), группы сравнения (179) и интересующую нас величину ATT со стандартной ошибкой (-7,4 ± 4,3). Таким образом, в результате анализа установлено, что уровень гемоглобина у пациентов без метаболического синдрома (основная группа) в среднем на (7,4 ± 4,3) г/л ниже, чем у пациентов с метаболическим синдромом. п. créaи. п. сопсг, ATT Scd. Err. t 47 17S “7.364 4 .263 ‘1 .71$ Рис. 5. Результаты расчета ATT с помощью метода стратификации (субклассификации) 4.2. Метод подбора пар 1: 1 с помощью поиска «ближайшего соседа», соответствующего заданному отрезку PS В данном случае каждому наблюдению основной группы подбирается «пара» из группы контроля, имеющая наиболее близкое значение PS, причем адекватный выбор значения отрезка PS позволит сделать так, чтобы наблюдения в парах были максимально похожими друг на друга по имеющемуся набору конфаундеров. Значение данного отрезка определяется логитом PS. Для расчета логита PS потребуется последовательно ввести следующие две команды: gen logitpscore = ln(mypscore/ (1-mypscore)) sum logitpscore В результате программа выведет короткую таблицу (не приводится), в которой будет указано стандартное отклонение («Std. Dev.») логита PS (в нашем примере - 0,934). Установлено, что значение отрезка, равное 0,2 от стандартного отклонения логита PS, является вполне достаточным для обеспечения близкого соотнесения наблюдений основной группы и группы контроля [8, 12]. Соответственно 0,2 стандартных отклонения логита PS будут равны 0,2 х 0,934 = 0,19. Применяемая для подбора пар команда psmatch2 использует рассчитанные ранее значения PS: psmatch2 bmi, pscore(mypscore) outcome(hgb) common caliper(0.19) neighbor (1) ate Результаты расчетов представлены на рис. 5. В верхней таблице на рис. 6 в графе «Difference» в соответствующих строках представлены значения мер эффекта: ATT (-5,98 ± 6,31) и ATE (-3,66). В нижней таблице представлено количество включенных в анализ наблюдений: из анализа были исключены 2 наблюдения группы сравнения, так как они не имели подходящей «пары». Заметим, что в настоящем примере базы данных нас интересует показатель ATT, а не ATE, так как получение представлений о том, как бы изменился уровень гемоглобина во всей генеральной совокупности, если бы у всех пациентов в популяции 56 Экология человека 2016.07 Практикум Variable Sample Treated Controls Difference S.E. T-stat hgb Unmatched ATT ATÜ ATE 123.506393 123,506383 132.234637 132.342541 129.489362 129.188827 -8.83615846 -5.98297872 -3,D4581006 -3.65663717 3-40766609 6,3112144 -2.59 -0,95 Note: 5.Е. does not take into account that the propensity score is estimated. psmatch2: psmatch2 Common Treatment support assignment Off suppo On suppor Total Untreated 2 179 181 Treated 0 47 47 Total 2 226 228 Рис. 6. Результаты расчета ATT и ATE при использовании метода подбора пар 1: 1 DnmAccb«d Mean treftlCt; Variable Matched Treated Control Ibi&a1 gender U .34043 .25414 16 8 M *34543 .23404 23 2 -гз.з age Ü 40-255 49-939 -92 8 H 40.255 40.064 1 £ »8.0 дпюке Ü .42553 .44751 -1 8 M .42553 .23404 16 0 ‘771,1 educ Ü 1.7872 2.1602 -37 5 M 1.7672 1.Є29В -4 3 ЭВ. 6 StentertüteJ % tea&ocfOKCoveriales Рис. 7. Результаты проверки смещения конфаундеров в основной группе и группе контроля до (U) и после (M) подбора пар с использованием метода поиска «ближайшего соседа» 1: 1 «исчез» метаболический синдром, в данном контексте не имеет практического смысла. Тем не менее в примерах мы будем использовать универсальный синтаксис команд, позволяющий рассчитать значения как ATT, так и ATE. Но прежде чем принимать во внимание полученный результат, необходимо удостовериться в том, что ковариаты были адекватно сбалансированы между основной и контрольной группами. Для этого введем следующую команду: pstest gender age smoke educ, treated(bmi) both graph На рис. 7 представлены результаты проверки балансировки ковариат после подбора пар. В таблице показано стандартизированное смещение средних значений всех 4 ковариат после проведения процедуры подбора пар (графа «%reduct |bias|», строки «M»): 23,2 % для ковариаты gender; 1,6 % для ковариаты age; 16,0 % для ковариаты smoke и -4,3 % для ковариаты educ. На представленном графике эта информация выглядит как приближение стандартизированной доли смещения для каждой ковариаты («Standardized % bias across covariates») к нулевому значению после процедуры подбора пар или «взвешивания». Таким образом, чем более сбалансированы ковариаты, тем ближе к нулевому значению будут располагаться соответствующие точки на графике (указаны знаком «*»). В данном случае для некото рых ковариат стандартизированное смещение средних значений оказалось большим, чем 10 %, что говорит 0 неудовлетворительном результате их балансировки. Для достижения адекватной балансировки попробуем изменить «настройки» метода подбора пар. Например, можно уменьшить величину отрезка PS (сделать его значительно меньшим, чем 0,19) или увеличить количество наблюдений из группы сравнения, которые подбираются к каждому наблюдению основной группы (например, вместо подбора пар 1 : 1 использовать подбор пар 1: 2). Используем второй вариант: psmatch2 bmi, pscore(mypscore) outcome(hgb) common caliper(0.19) neighbor (2) ate Результаты расчета ATE и ATT представлены на рис. 8. Результаты проверки балансировки ковариат представлены на рис. 9. В данном случае балансировку ковариат можно считать удовлетворительной, так как после подбора пар 1: 2 для каждой ковариаты доля стандартизированного смещения составила менее 10 %. Таким образом, в результате анализа установлено, что уровень гемоглобина у пациентов без метаболического синдрома (основная группа) в среднем на (7,2 ± 5,2) г/л ниже, чем у пациентов с метаболическим синдромом. Заметим, что рассчитанное значение стандартной ошибки в данном случае не может 57 Практикум Экология человека 2016.07 Variable Sample Treated Controls Difference S.E. T-stat hgb Unmatched 123.506383 132.342541 -8.83615846 3 40766609 -2 .59 ATT 123.506383 130.680851 -7.17446809 5 16863376 -1. 39 ATU 132.234637 128.881564 -3,35307263 ATE -4.14778761 Note: S.E. does not take into account that the propensity score is estimated. psmatch2: psmatcb2 Common Treatment support assignment Off suppo On suppor Total Untreated 2 179 181 Treated 0 47 47 Total 2 226 228 Рис. 8. Результаты расчета ATT и ATE при использовании метода подбора пар 1: 2 V&riAble Unmatched MAtCbffd Keen Treated Control tbias ixeduct |Ьіаз| gender U ,34043 ,23414 id S И *34043 * ЗОВ51 7 0 63^0 age и 40.2» 49.939 -82 8 H 40.255 40.267 -0 3 99.7 ЗШОІСЄ и - 42533 ,44751 -1 S и .42553 .45745 -2 >7 *45.2 educ сг 1.7672 2.1602 -37 5 м 1.7672 1.7447 4 3 B8. 6 • Unmalched X«alefed SlandsrïàzBd % Ьда bctd&s cavariaies Рис. 9. Результаты проверки смещения конфаундеров в основной группе и группе контроля до (U) и после (M) подбора пар с использованием метода поиска «ближайшего соседа» 1: 2 считаться очень точным, так как не учитывает факта предварительного расчета значений PS (сообщение программы «Note: S.E. does not take into account that the propensity score is estimated»). 4.3. Метод взвешивания Кернела Несмотря на то, что адекватная балансировка ковариат была достигнута на предыдущем шаге анализа, выполним еще один способ балансировки, при котором каждому наблюдению контрольной группы придается определенный «вес» в зависимости от того, насколько близко оно расположено к наблюдению основной группы по значению PS: psmatch2 bmi, kernel outcome(hgb) pscore(mypscore) ate Результаты расчета ATT и ATE и результаты проверки баланса ковариат представлены на рис. 10 и рис. 11 соответственно. В данном случае балансировка ковариат оказалась существенно более адекватной, чем при использовании метода подбора пар 1: 2, а значит, и степень Variable Sample Treated Controls Difference S.E . T-stat hgb Unmatched ATT ATU ATE 123.506383 123.506383 132 * 342541 132.342541 133.373298 129 * 042062 -8.83615846 -9.86691547 -3 * 30047976 -4 * 65408712 3.40766609 4.26156106 -2.59 -2.32 Note: S.E« does not take into account that the propensity score is estimated. psmatch2: psmatch2: Common Treatment support assignment On suppoE Total Untreated 181 181 Treated 47 47 Total 228 228 Рис. 10. Результаты расчета ATT и ATE при использовании метода взвешивания Кернела 58 Экология человека 2016.07 Практикум Unmatched Mean tieduct Variable Matched Treated Control tbias Ibiaa1 gender 0 .34D43 .25414 18 8 M .34043 .34786 -l 6 91.4 «9« u 40-255 49.$39 -B2 8 M 4D.255 4G .736 -4 1 95. D з mo Ice и . 42553 .44731 -1 8 M .42553 .41079 1 2 32-9 educ и 1.7672 2.1602 -37 5 M 1.7672 1.7805 0 7 98,2 *»еft UrtmüHchOd >vMBtched Standardized Чь bias across covarlalea Рис. 11. Результаты проверки смещения конфаундеров в основной группе и группе контроля до (U) и после (M) подбора пар с использованием метода взвешивания Кернела hgb CoeE. Std. Err. t. P>|t| [95% Conf. Interval] bmi -7 . 47C7A7 3,132537 -2.39 0.018 -13.65202 -1.305393 gender 23.01437 3.104720 7 . 41 O.ÜOÛ 16.89635 29.13338 age .363251 * 1124951 3,23 0,001 , 141566 h 5849559 smoke ,0774332 1,199362 0*06 0,949 -2.206152 2, 441029 educ 4725919 1*203901 -0,39 0*695 -2.845128 1.899945 cons 109.3387 5.900077 18.53 0.000 97.71141 120.9661 Рис. 12. Результаты множественного линейного регрессионного анализа искажения результатов стала меньше. Согласно результатам расчетов по методу «взвешивания» Кернела, уровень гемоглобина у пациентов без метаболического синдрома в среднем на (9,9 ± 4,3) г/л ниже, чем у пациентов с метаболическим синдромом. Итак, применительно к имеющейся базе данных мы использовали несколько методов PSM для расчета отличия уровня гемоглобина у пациентов без метаболического синдрома по сравнению с имеющими метаболический синдром пациентами. Сравним полученные результаты с результатами множественного линейного регрессионного анализа, обычно используемого для анализа подобных данных: regress hgb bmi gender age smoke educ На рис. 12 представлены результаты множественной линейной регрессии, из которых нас интересует коэффициент для переменной bmi (графа «Coef.»), равный -7,5, то есть, согласно данному методу, у пациентов без метаболического синдрома уровень гемоглобина в среднем на 7,5 г/л ниже, чем у пациентов с метаболическим синдромом. В таблице представлены результаты использования всех способов PSM и множественной линейной регрессии. Различия между средними значениями гемоглобина в основной и контрольной группах с использованием различных методов анализа Метод ATT, г/л Множественная линейная регрессия -7,5 Метод стратификации (субклассификации) -7,4 Метод подбора пар 1: 2 -7,2 Метод взвешивания Кернела -9,9 В нашем случае возникает вопрос, какой из результатов использования методов PSM выбрать в качестве наиболее корректного? На этот вопрос нет однозначного ответа, так как каждый из методов PSM имеет свои особенности. Метод стратификации (субклассификации) является в историческом плане самой первой вариацией PSM и может считаться достаточно «грубым» способом балансировки ковариат. Напротив, методы, реализуемые с помощью команды psmatch2, были созданы позже и являются методологически более совершенными. В приведенном примере метод «взвешивания» Кернела позволил наиболее адекватно сбалансировать действие кон-фаундеров по сравнению с методом подбора пар и поэтому в случае нашего исследования его выбор можно считать наиболее целесообразным .
×

About the authors

A M Grjibovski

Norwegian Institute of Public Health; International Kazakh-Turkish University

Email: Andrej.Grjibovski@gmail.com
Turkestan, Kazakhstan

S V Ivanov

North-Western State Medical University

St. Petersburg, Russia

M A Gorbatova

Northern State Medical University

Arkhangelsk, Russia

A A Dyussupov

State Medical University

Semey, Kazakhstan

References

  1. Гржибовский А.М., Иванов С.В. Когортные исследования в здравоохранении // Наука и Здравоохранение. 2015. № 3. С. 5-16.
  2. Гржибовский А.М., Иванов С.В. Поперечные (одномоментные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 2. С. 5-18.
  3. Садыкова К.Ж., Шалхарова Ж.С., Нускабаева Г.О., Садыкова А.Д., Жунисова М.Б., Маденбай К.М., Гржибовский А.М. Распространенность анемии, ее социально-демографические детерминанты и возможная связь с метаболическим синдромом в г. Туркестан, Южный Казахстан // Экология человека. 2015. № 8. С. 58-64.
  4. Унгуряну Т.Н., Гржибовский А.М. Программное обеспечение для статистической обработки данных STATA: введение // Экология человека. 2014. № 1. C. 60-63.
  5. Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы доказательной медицины. М.: Медиа Сфера, 1998. 352 с.
  6. Acock A.C. Gentle Introduction to Stata. USA, Texas: Stata Press, 2006. 289 p.
  7. Austin P.C. An introduction to propensity score methods for reducing the effects of confounding in observational studies // Multivariate Behavioral Research. 2011. Vol. 46. P. 399-424.
  8. Austin P.C. Optimal caliper widths for propensity-score matching when estimating differences in means and differences in proportions in observational studies // Pharmaceutical statistics. 2011. Vol. 10 (2). P 150-161.
  9. Becker S.O., Ichino A. Estimation of average treatment effects based on propensity scores // The Stata Journal. 2002. Vol. 2 (4). P 358-377.
  10. Cepeda M.S., Boston R., Farrar J.T., Strom B.L. Comparison of logistic regression versus propensity score when the number of events is low and there are multiple confounders // American Journal of Epidemiology. 2003. Vol. 158 (3). P. 280-287.
  11. DAgostino R.B. Propensity score methods for bias reduction in the comparison of a treatment to a nonrandomized control group // Statistics in Medicine. 1998. Vol. 17 (19). P. 2265-2281.
  12. Garrido M.M., Kelley A.S., Paris J., Roza K., Meier D.E., Morrison R.S., Aldridge M.D. Methods for constructing and assessing propensity scores // Health Services Research. 2014. Vol. 49 (5). P 1701-1720.
  13. Guo Sh. Y., Mark W. Fraser. Propensity Score Analysis: Statistical Methods and Applications, 2nd ed. USA. SAGE Publications, 2015. 448 p.
  14. Hernan M.A., Hernandez-Diaz S., Robins J.M. A structural approach to selection bias // Epidemiology. 2004. Vol. 15 (5). P. 615-625.
  15. Patorno E., Grotta A., Bellocco R., Schneeweiss S. Propensity score methodology for confounding control in health care utilization databases // Epidemiology Biostatistics and Public Health. 2013. Vol. 10 (3). P. e8940.
  16. Rosenbaum P.R., Rubin D.B. The central role of the propensity score in observational studies for causal effects // Biometrika. 1983. Vol. 70 (1). P 41-55.
  17. Sturmer T., Joshi M., Glynn R.J., Avorn J., Rothman K.J., Schneeweiss S. A review of the application of propensity score methods yielded increasing use, advantages in specific settings, but not substantially different estimates compared with conventional multivariable methods // Journal of Clinical Epidemiology. 2006. Vol. 59 (5). P 437-447.

Copyright (c) 2016 Human Ecology



This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies