POTENTIAL APPLICATIONS OF DIRECTED ACYCLIC GRAPHS IN THE PLANNING AND INTERPRETATION OF BIOMEDICAL RESEARCH RESULTS



Cite item

Full Text

Abstract

The article presents an algorithm for constructing and applying Directed Acyclic Graphs (DAGs) to support the planning and interpretation of epidemiological and biomedical research. DAGs represent a graphical tool for modeling complex relationships between variables, which is particularly relevant in biomedical research, where the accurate assessment of causal relationships requires accounting for potential confounders. The importance of DAGs is emphasized in the context of conceptualizing scientific hypotheses and understanding the nature of associations between variables based on literature review and evidence from previous studies.

The application of DAGs improves both the planning of research and data analysis by providing a more rigorous approach to selecting variables for inclusion in mathematical models. DAGs help identify the minimal and sufficient set of variables for adjustment, taking into account their roles (confounders, mediators, colliders) in relation to the exposure (probable risk factor) and the outcome (disease or condition), thereby reducing the risk of bias.

The article highlights the practical use of DAGs with freely available software and provides examples of their application in biomedical research. Finally, the authors offer recommendations for the integration of DAGs into the practice of biomedical research, which may contribute to the wider use of modern multivariable analysis methods, improved interpretability, and enhanced reproducibility of scientific findings.

Full Text

ВВЕДЕНИЕ

Оценка причинно-следственной связи между воздействием (фактор риска) и исходом (заболевание или состояние) – одна из ключевых задач эпидемиологических исследований. При этом задачей исследователя является оценка независимого влияния воздействия на исход с исключением влияния на изучаемую связь других факторов, которые носят название конфаундеров или смешивающих факторов. Наиболее надёжным методом определения причинно-следственной связи является проведение рандомизированного контролируемого испытания, поскольку процедура рандомизации теоретически обеспечивает равномерное распределение участников с различными характеристиками между группами, что устраняет влияние потенциальных конфаундеров на изучаемую связь. Однако В то же время рандомизация возможна только при проведении экспериментальных исследований, а их использование, в свою очередь, ограничено высокой стоимостью, трудоемкостью, невозможностью изучения влияния вредных воздействий. В связи с этим исследователи чаще прибегают к анализу связей на основе данных наблюдательных (обсервационных) исследований, таких как когортные или исследования по типу «случай-контроль». Поперечный дизайн исследования, несмотря на свои ограничения, может быть использован для оценки ассоциаций между воздействием и исходом и формирования гипотез, которые в дальнейшем могут быть проверены с использованием более подходящих для установления причинно-следственной связи дизайнов, описанных выше [1]. При изучении причинно-следственной связи в наблюдательных исследованиях требуется глубокое понимание роли различных факторов в отношении воздействия и исхода для минимизации влияния этих факторов на изучаемую связь, и более корректной её оценки и интерпретации. Например, проживание в сельской местности (изучаемое воздействие) при первоначальном грубом или нескорректированном анализе может быть связано с риском смерти от острых состояний (изучаемый исход), связанных с нарушением кровообращения, но при учёте вмешивающихся факторов (более высокий средний возраст жителей села, большая вероятность несвоевременного оказания медицинской помощи), сила связи уменьшается до незначимых уровней.

Направленные ациклические графы (Directed Acyclic Graphs – DAGs) – это графический инструмент, который используется в наблюдательных эпидемиологических исследованиях для анализа связи (причинно-следственной) между изучаемым воздействием и исходом  с учётом возможного влияния на силу и направленность этой связи других потенциально вмешивающихся факторов [2-4].

DAGs представляют собой простой способ визуализации связи между воздействием и исходом на основании анализа имеющихся литературных данных, а также знаний, гипотез и допущений исследователя [2-4]. Использование DAGs позволяет структурировать информацию, полученную по результатам ранее проведенных исследований, чётко сформулировать исследовательский вопрос, наглядно представить связи между различными факторами и определить минимальный набор потенциально вмешивающихся факторов, которые необходимо учитывать для корректной оценки влияния воздействия на исход. Всё это повышает воспроизводимость исследования, делая его более понятным для широкого круга исследователей, улучшает интерпретируемость и сопоставимость его результатов с результатами других исследований.

Несмотря на преимущества DAGs для визуализации, корректной оценки и интерпретации изучаемых связей, их использование в российских биомедицинских исследованиях остается ограниченным. Вероятно, это связано с недостаточной осведомленностью исследователей о возможностях данного метода и отсутствием рекомендаций на русском языке по построению, интерпретации и представлению DAGs в публикациях. В настоящей статье представлены пошаговые инструкции по использованию DAGs в биомедицинских исследованиях, с использованием как русскоязычной, так и англоязычной терминологии, которая поможет отечественным авторам работать с англоязычным программным обеспечением и лучше понимать иностранные научные публикации.

 

Терминология DAGs

DAGs — это непараметрическое графическое представление набора факторов (переменных) в заданном контексте исследования. В терминологии DAGs изучаемые факторы (переменные) называются узлами (nodes), которые соединяются между собой дугами/стрелками (arcs/arrows) (рис.1). Стрелка между двумя узлами обозначает наличие и направление предполагаемой (причинно-следственной) связи, но не указывает её знак (положительный или отрицательный), величину (сильная или слабая), характер (линейная или нелинейная) или точное математическое выражение, что делает DAGs непараметрической моделью.

 

Рис.1. Пример построения DAG.

Fig. 1. An example of constructing a DAG.

 

Узлы, от которых исходят стрелки, называются предками (ancestors), а узлы, к которым направлены стрелки – потомками (descendants). Для улучшения читаемости и интерпретируемости графа рекомендуется соблюдать направленность стрелок в одном направлении (как правило, слева направо), а также избегать перекрещивания стрелок. Важно не перегружать граф избыточными узлами, не влияющими на анализируемую (причинно-следственную) связь между воздействием и исходом.

Говоря о наличии связи между воздействием и исходом, мы предполагаем, что изменение воздействия приведёт к изменению вероятности исхода — вероятностное обоснование (probabilistic reasoning). В контексте контрфактического обоснования (counterfactual reasoning) мы предполагаем, что если воздействие изменится, то изменится и исход.

Последовательность соединённых стрелками узлов, ведущая от воздействия к исходу, обозначается термином “путь” (path). Ни один из факторов (переменных) не может быть причиной самого себя, то есть не существует пути, который проходит дважды через один узел. Поэтому в DAGs нет замкнутых циклов, что отражает прямой порядок причинности: причина → следствие [5]. Разные пути могут проходить через один узел, а узел к котором сходится несколько стрелок называется суперузлом (super node) [6].

Пути бывают открытыми и закрытыми. Путь между двумя переменными считается открытым, если между ними имеется значимая связь, т.е., если знание причины позволяет оценить вероятность наступления эффекта, и наоборот. Путь считается закрытым, если значимой связи нет.  Пути, которые отображают реальное влияние одной переменной на другую называются причинно-следственными. Пути, которые создают ложные связи между переменными называются ошибочными (смещёнными) путями (biasing path). На рисунке 1 причинно-следственные пути обозначены зелёными стрелками, а ошибочный путь – красными. Для точной оценки изучаемой связи важно закрыть ошибочные пути путём учёта и коррекции влияния вмешивающихся факторов, связанных с воздействием и исходом посредством этих ошибочных путей.

 

Построение DAGs

Построение DAGs возможно с использованием различных программных инструментов, включая инструмент DAGitty, пакеты ggdag и dagitty для R, библиотек networkX и pgmpy для Python [7]. В данной статье будет представлен пошаговый алгоритм построения DAGs с использованием DAGitty, программного обеспечения, распространяемого бесплатно,  для построения и анализа DAGs, доступного на официальном сайте www.dagitty.net, как для работы в браузере, так и в виде программы, которую можно скачать и установить на персональном компьютере. Программа DAGitty разработана и поддерживается Институтом вычислительных и информационных наук Радбаудского университета (the Institute for Computing and Information Sciences at Radboud University) и кафедрой биомедицинских наук университетской клиники Радбауд (the Medical BioSciences department at Radboudumc) в Неймегене, Нидерланды [7]. Язык программного обеспечения – английский.

Построение DAGs рекомендуется на этапе планирования исследования, до начала сбора данных, для определения критериев включения и невключения участников при их отборе, а также перечня потенциально вмешивающихся факторов (переменных), информацию о которых предстоит собрать. При невозможности построения DAGs на этапе планирования, например, когда исследователь работает с ранее собранными данными (вторичный анализ данных), построение DAGs следует выполнить перед проведением статистического анализа.

Для построения DAGs на официальном сайте www.dagitty.net в меню браузера (в верхней части экрана) нужно выбрать вкладку “Model” (Модель), а затем выбрать из выпадающего списка “New model” (Новая модель) (рис.2А) после чего появится специальная область на экране для построения графа. При клике в любой части этой области откроется окно, в которое нужно ввести название фактора (переменной) (рис.2В). Такую процедуру необходимо будет повторить для всех факторов (переменных), которые должны быть включены в анализ. При необходимости название переменных можно изменить. Для этого нужно кликнуть на переменную, которую необходимо переименовать, и выбрать “rename” (Переименовать) в меню “Variable” (Переменная) в левом верхнем углу экрана (рис.2С).

Построение DAGs начинается с определения воздействия и исхода. Для этого нужно выбрать переменную, затем в меню “Variable” (Переменная) установить галочку рядом с “Exposure” (Воздействие) или “Outcome” (Исход), в зависимости от того, какую роль будет выполнять выбранная переменная в вашем анализе (рис.2С). После определения переменных как воздействия или исхода, они будут обозначаться специальными значками: зелёный для воздействия и синий для исхода, позволяющими отличать эти ключевые переменные от других переменных в графе.

 

Перевод интерфейса программы: А) New model (новая модель), Load from daggity.net (загрузить из daggity.net), Export as PNG (экспортировать/скачать в формате PNG), Export as JPEG (экспортировать/скачать в формате JPEG), Publish on daggity.net (публиковать в daggity.net), Export LaTeX code (экспортировать/скачатьv LaTeX код); В) name of the new variable (название новой переменной), OK (да/принять), Сancel (отмена); С) Variable (Переменная), exposure (воздействие), outcome (исход), adjusted (скорректировано), selected (выбрано), unobserved (ненаблюдается/нет данных).

 

Рис.2. Начало (инициация) построения DAGs, определение воздействия и исхода.

Fig. 2. The beginning (initiation) of DAG construction, defining exposure and outcome.

 

Каждый граф должен включать одно воздействие и один исход. Если целью является оценка влияния нескольких воздействий на один исход, для каждого воздействия строится отдельный граф, поскольку на связь между каждым конкретным воздействием и исходом влияют уникальные факторы, которые важно выявить и учесть при анализе. Связи, представляющие интерес для исследователя, должны быть чётко отражены в цели исследования.

После того как воздействие и исход определены, необходимо обозначить связь между ними стрелкой, направленной от воздействия к исходу. Чтобы создать стрелку, нужно кликнуть на переменную “воздействие”, а затем на переменную “исход”. Если действие повторить, стрелка исчезнет. Зелёная стрелка указывает на причинный путь (т.е. причинно-следственную связь), а красная — на ошибочную связь. Цвет стрелки определяется автоматически программой и отражает корректность направленной связи. Если стрелка направлена от исхода к воздействию или становится двунаправленной, она окрасится в красный, указывая на ошибку (рис.2D). Это связано с тем, что DAGs должны быть ацикличными, и такое направление связи противоречит принципу причинности.

Далее необходимо добавить в граф факторы (переменные), потенциально связанные с воздействием и/или исходом, и указать стрелками направленность связи. В граф следует включить все переменные, которые по данным литературы или, исходя из гипотезы и допущений исследователя, важны для оценки связи, вне зависимости от того, располагает исследователь сведениями о данных факторах или нет. При построении DAGs проверяется наличие связи между любыми двумя переменными. Отсутствие стрелки между переменными означает, что между ними нет связи (ассоциации).

Минимальный необходимый и достаточный для корректной оценки изучаемой (причинно-следственной) связи набор переменных определяется при построении DAGs визуально или алгоритмически. Точность полученной оценки зависит от того, насколько корректно DAGs отражает фактические механизмы связей между переменными, что требует критического анализа. В зависимости от цели исследования и заданных условий, программа DAGitty может предложить несколько допустимых наборов переменных для коррекции. Для каждого из рекомендованных наборов можно поочерёдно выбирать переменные и устанавливать напротив них галочку “Adjusted” (Скорректировано) в меню “Variable” (Переменная), чтобы обозначить коррекцию. Это позволяет визуально оценить, как изменяются причинные пути в графе после коррекции. При правильной коррекции красные стрелки, обозначающие ошибочный путь, станут чёрными (ошибочный путь закрыт). Следовательно, итоговая модель не будет содержать красных стрелок.

Полученный с помощью DAGitty граф можно скачать в формате рисунка, выбрав в меню DAGitty “Model” (Модель), а затем выбрать из выпадающего списка “Export as PNG/JPEG” (Экспортировать в формате PNG/JPEG).

При построении DAGs автоматически формируется код модели (Model code), текстовое описание структуры графа, которое можно скопировать, сохранить, переслать коллегам. Такой формат упрощает воспроизведение и редактирование графа: не потребуется строить его заново — достаточно вставить сохранённый код в окно “Model code” (Код модели) в правой части рабочей области DAGitty и нажать “Update DAG” (Обновить DAG).

 

Роли переменных по отношению к воздействию и исходу

Особое значение отводится определению роли факторов (переменных) по отношению к воздействию и исходу для выявления факторов, коррекция на которые необходима, и факторов, коррекция на которые может привести к искажению изучаемой связи. На рисунке 2 показаны основные компоненты DAGs и роли факторов (переменных), определяемые в контексте изучения (причинно-следственной) связи между воздействием и исходом. В терминологии DAGs факторы, влияющие на связь между воздействием и исходом, классифицируются как конфаундеры (сonfounders) (рис.3A), медиаторы / модификаторы эффекта (mediators / effect modifiers) (рис.3B) и коллайдеры (colliders) (рис.3C).

 

Рис.3. Роли факторов (переменных) в контексте изучения причинно-следственной связи между воздействием и исходом.

Fig. 3. Roles of factors (variables) in the context of studying the causal relationship between exposure and outcome.

 

 

DAGs позволяют выделить конфаундеры, медиаторы (модификаторы эффекта) и коллайдеры, помогая понять, какие переменные следует учитывать при анализе данных.

Конфаундер — это переменная, которая связана как с воздействием, так и с исходом, при этом не являясь промежуточным звеном в причинно-следственной связи между ними, создавая ложную или искажая истинную связь между изучаемыми переменными [8]. Иными словами, между группой, подверженных изучаемому воздействию, и группой, не подверженных этому воздействию, существуют различия в частоте встречаемости третьего фактора (конфаундера), который влияет на вероятность возникновения исхода. Например, изучение порядкового номера беременности как фактора риска возникновения синдрома Дауна у новорожденного может привести к выявлению наличия ложной причинно-следственной связи, если не учесть возраст матери, как потенциальный конфаундер. Логично предположить, что с увеличением паритета возраст женщины увеличивается, т.е. средний возраст женщин с большим количеством беременностей будет выше, чем у первородящих.

В терминологии DAGs путь конфаундинга или обратный путь (backdoor path) – это путь от воздействия к исходу, проходящий через конфаундер. Если влияние конфаундера не учтено (не проведена коррекция), этот путь является открытым и создает ложную связь между изучаемыми переменными. Коррекция на конфаундер делает данный путь закрытым.

Учесть влияние конфаундера можно как на этапе планирования исследования (ограничение, рандомизация), так и на этапе статистической обработки с использованием таких методов, как стратификация/стандартизация и многомерный регрессионный анализ [9].

Ограничение подразумевает, включение в исследование или проведение анализа с использованием данных только тех участников, которые соответствуют определённым характеристикам (критериям включения). Например, только некурящих (чтобы устранить эффект курения).

Стратификация — это метод, при котором выборка делится на подгруппы (страты) на основе значения конфаундера (например, возраст, пол или уровень дохода). Эффект воздействия оценивается в каждой из этих подгрупп отдельно.

Стандартизация используется для коррекции влияния конфаундера на оценку эффекта воздействия, при этом учитывается распределение конфаундера в стандартной или эталонной популяции. Целью проведения стандартизации является получение показателей, пригодных для сравнения в двух совокупностях, неоднородных по своему составу, т.е. отличающихся по какому-либо количественному или категориальному признаку. Чаще всего стандартизацию используют для устранения влияния различий в возрастной структуре сравниваемых популяций, например, для сравнения частоты и смертности от возраст-ассоциированных заболеваний, таких как злокачественные новообразования, болезни системы кровообращения.

Для того, чтобы провести коррекцию на конфаундеры с помощью многомерной регрессии необходимо определить перечень переменных минимально необходимый и достаточный для получения наиболее точной оценки при помощи DAGs.

Альтернативным DAGs подходом выявления конфаундеров, который часто используется исследователями, является подход, основанный на данных (data-driven approach). При использовании подхода, основанного на данных, переменные для включения в многомерную регрессионную модель выбираются на основе их статистической значимости в одномерных моделях, которые оценивают связь между воздействием и исходом [10-11]. Переменные не включаются в многомерную модель и не считаются конфаундерами, если они не демонстрируют значимой связи в одномерных моделях. При этом в качестве критического уровня значимости в одномерной модели может использоваться значение альфа ошибки выше привычного 0,05, например, равное 0,1-0,2 [10]. Конфаундеры можно выявить при помощи оценки изменения величины эффекта воздействия на исход (the change-in-estimate procedure) при добавлении в модель потенциального конфаундера. Если величина эффекта изменяется на 10-20% или более после добавления оцениваемого фактора, добавленная переменная считается конфаундером [10, 12]. Хотя подход, основанный на данных, предоставляет ценную информацию о связи между переменными, он не позволяет с точностью определить, что добавленная в модель переменная является именно конфаундром, а не медиатором или коллайдером, так как наличие любого из этих факторов может повлиять на изучаемую связь, а их включение в регрессионную модель может повлиять на оценку эффекта. Следовательно, выбор переменных с использованием данного подхода может привести к ошибочному исключению или включению переменных в модель. В отличие от подхода, основанного на данных, использование DAGs позволяет определить роли ковариат (переменных) в регрессионной модели, включая идентификацию конфаундеров, медиаторов и коллайдеров [13]. В некоторых статьях используются гибридные подходы к выбору переменных, сочетающие DAG с традиционными статистическими методами.

Рассмотрим влияние конфаундера на конкретном примере. Анализируя данные электронных медицинских карт 64 000 детей, исследователи выявили связь между частотой приёма антибиотиков в течение первых 2 лет жизни и развитием ожирения в более позднем возрасте, причем этот эффект был наиболее выражен для антибиотиков широкого спектра действия [14]. Позднее авторы другого исследования показали, что описанная ранее связь между приёмом антибиотиков и ожирением объясняется частотой инфекций (конфаундер), которые являются показанием к применению антибиотиков и могут влиять на риск развития ожирения [15]. Для учёта влияния конфаундера авторы разделили когорту детей (N=260 556) на страты в зависимости от частоты инфекционных заболеваний и применения антибиотиков в первые 12 месяцев жизни: 1) дети, не болевшие инфекциями, 2) дети, перенесшие инфекции, но не получавшие антибиотиков, 3) дети, перенесшие инфекции и получавшие антибиотики. Инфекции, перенесённые в младенчестве без применения антибиотиков, были связаны с повышенным риском развития ожирения в сравнении с детьми, не болевшими инфекциями (ОШ 1,25; 95% ДИ 1,20–1,29). Наблюдаемая связь имела доза-зависимый эффект, при увеличении количества эпизодов инфекционных заболеваний, увеличивался риск развития ожирения. При этом вероятность развития ожирения у детей, перенёсших инфекции и получавших антибиотики и перенесших инфекции, но не получавших антибиотики не различалась (ОШ 1,01; ДИ 0,98–1,04).

DAGs, построенный по заданным в вышеупомянутом примере условиям представлен на рисунке 4А. В верхней правой части рабочей области интерфейса DAGitty находится вкладка “Causal effect identification” (Оценка причинно-следственной связи), где указывается минимально достаточный набор переменных (Minimal sufficient adjustment sets) для коррекции при оценки общего эффекта (влияния) (total effect) воздействия на исход (рис. 4В). В приведённом примере для корректной оценки связи между приёмом антибиотиков и развитием ожирения необходима коррекция на частоту инфекций. Иногда переменную-конфаундер сложно измерить объективно, например, если невозможно оценить количество перенесённых инфекций, коррекция может быть проведена на количество визитов к врачу (прокси-конфаундер), что косвенно может отражать частоту инфекций (рис. 4C). Построив DAGs с учётом прокси-конфаундера мы видим, что коррекция может быть проведена на конфаундер или прокси-конфаундер (рис. 4D). Коррекция на оба фактора будет избыточной. На рисунке 4E проведена коррекция на прокси-конфаундер. При этом красные стрелки стали чёрными, что значит, что ошибочные (смещённые) пути, проходящие через конфаундер, закрыты. Во вкладке “Causal effect identification” (Оценка причинно-следственной связи) программа сообщает нам, что коррекция проведена верно (рис. 4F).

 

 

Рис. 4. Пример DAGs, отражающего явление конфаундинга.

Fig. 4. An example of DAGs reflecting the confounding.

 

Медиатор— это переменная, которая является промежуточным звеном в цепочке событий между воздействием и исходом (на пути от воздействия к исходу). Например, при оценке влияния образования (воздействие) на здоровье медиатором может быть уровень дохода, индекс массы тела – при изучении связи между диетой и риском развития сахарного диабета 2 типа.

Обычно задачей эпидемиологических исследований является оценка общего эффекта (влияния) воздействия на исход (total effect). Непреднамеренная коррекция за медиатор, например, включение медиатора в регрессионную модель, может привести к занижению общей оценки эффекта воздействия [11, 16]. В то же время задачей исследования может являться оценка непосредственного влияния воздействия на исход, которая определяется понятием прямой эффект (direct effect).

Рассмотрим конкретный пример: при оценке связи между приёмом тромболитиков (воздействие) и летальным исходом у пациентов, перенесших инфаркт миокарда, медиатором может являться возникновение побочных эффектов в виде массивного кровотечения, вследствие которого наступил летальный исход, или незначительного кровотечения, которое само по себе не являлось причиной исхода, но стало причиной прекращения приёма препарата, что в свою очередь привело к летальному исходу. Граф, построенный по заданным условиям, представлен на рисунке 5 А.

При выборе варианта эффекта: общий эффект (total effect) или прямой эффект (direct effect), с использованием вкладки “Causal effect identification” (Оценка причинно-следственной связи) в верхней правой части рабочей области DAGgitty, программа сообщает о необходимости проведения коррекции. В нашем примере для оценки общего эффекта воздействия на исход не требуется проведения коррекции на медиаторы (рис. 5B).  Однако если для исследователя представляет интерес оценка прямого эффекта препарата, не связанная с возникновением кровотечения, потребуется учёт влияния (коррекция) медиаторов (рис. 5С и 5D). При этом, программа предлагает два варианта коррекции: в первом учитываются переменные “массивное кровотечение” и “незначительное кровотечение”, во втором - “массивное кровотечение” и “прекращение лечения”. Коррекция с учётом всех трёх переменных будет избыточной, что может неоправданно занижать мощность исследования.

 

Рис. 5. Оценка общего и прямого эффекта воздействия на исход.

Fig. 5. Estimation of the total and direct effect of exposure on outcome.

В случае, если интерес представляет оценка именного прямого эффекта – это следует чётко указать в цели исследования, описать возможные медиаторы в методах и провести соответствующую коррекцию при выполнении анализа.

Коллайдер (Collider) это переменная, которая одновременно зависит от двух других переменных, но сама не влияет на эти переменные. В контексте эпидемиологических исследований, часто коллайдером является фактор, на который одновременно влияют как изучаемое воздействие, так и изучаемый исход, но при этом сам коллайдер не влияет, ни на воздействие, ни на исход.

При отсутствии коррекции на коллайдер, путь, проходящий через него, остаётся закрытым. Коррекция на коллайдер, в частности, включение коллайдера в регрессионную модель, приводит к открытию данного пути и созданию ложной связи между изучаемыми переменными, которые изначально были независимыми. Такой эффект известен как ошибка коллайдера (collider bias) [2]. Ошибка коллайдера может возникнуть также в результате ошибки отбора участников исследования (selection bias). Типичный пример — ошибка Берксона (Berkson’s bias), при которой отбор по переменной-коллайдеру (например, госпитализация) индуцирует искусственную связь между независимыми факторами.

Рассмотрим другой пример. При оценке связи между курением (воздействие) и тяжестью COVID-19 (исход), хронические болезни лёгких являются медиатором, коррекция на который, как мы уже знаем, может привести к недооценке общего эффекта воздействия на исход (рис. 6A). Однако в приведённом примере, коррекция на хронические болезни лёгких может также привести к ошибке коллайдера. Помимо курения, на развитие хронических болезней лёгких могут влиять и другие факторы (например, профессиональные вредности, наследственные заболевания, фиброз в результате перенесённой ранее инфекции и т.д.), которые также могут повышать риск тяжёлого течения COVID-19. В такой ситуации коррекция на хронические болезни лёгких приводит к ошибке коллайдера, создавая ложную связь между курением и другими причинами хронических заболеваний лёгких. Это искажает истинную ассоциацию между курением и тяжестью COVID-19 (рис. 6C). В исследовании, изучавшем факторы риска тяжелого течения коронавирусной инфекции, в одномерном анализе без учёта других факторов, курение связано с повышенным риском тяжёлого течения COVID-19: ОШ 1,14 (95% ДИ 1,05–1,23) [17]. Однако после включения хронических болезней лёгких в регрессионную модель (после коррекции), направление связи изменилось: ОШ 0,89 (95% ДИ 0,82–0,97), что может быть результатом ошибки коллайдера. Такой результат следует интерпретировать не как независимый эффект курения на тяжесть инфекции, а как совместный эффект (joint effect): курение само по себе может повышать риск тяжёлого COVID-19, но не в такой степени, как другие причины хронических болезней лёгких. Визуализация DAGs помогает избежать такой ошибки: программа не предлагает корректировать модель на коллайдер (рис. 6B), а при попытке включения коллайдера в модель сообщает об ошибке (рис. 6D).

 

Рис. 6. Пример DAGs, отражающего ошибку коллайдера.

Fig. 6. An example of DAGs reflecting a collider bias.

 

Рассмотрим более сложный пример построения DAGs (рис. 7 A). Представленный граф иллюстрирует структуру связей между изучаемыми факторами, при оценке влияния ожирения (воздействие) на тяжесть COVID-19 (исход). DAGs построен на основании совокупности эпидемиологических и клинических исследований, посвящённых факторам риска тяжёлого течения COVID-19 [18-20].

В структуру графа включены все факторы, которые, согласно публикациям и представлениям исследователя связаны с воздействием и/или исходом. Факторы (переменные), сведения о которых отсутствуют, окрашены в серый цвет.

Пол, возраст, уровень образования, злоупотребление алкоголем, курение могут быть связаны ассоциированы, как с ожирением, так и с тяжестью COVID-19, то есть являются конфаундерами [20].

Ожирение ассоциировано с хроническим низкоуровневым системным воспалением, повышенным риском цитокинового шторма и гиперкоагуляцией, что способствует более тяжёлому и осложнённому течению COVID-19 [18]. Также наличие ожирения связано с атерогенной дислипидемией, гипертонией и сахарным диабетом 2 типа — состояниями, которые увеличивают риск тяжёлого течения заболевания [21]. Гипертония и диабет рассматриваются как медиаторы, то есть переменные, лежащие на причинном пути от воздействия (ожирения) к исходу (тяжесть COVID-19). Поскольку целью исследования является оценка общего эффекта ожирения (total effect), включение этих медиаторов в модель в качестве ковариат может привести к смещению из-за избыточной коррекции (overadjustment) и, соответственно, к недооценке общего эффекта.

Обращение за медицинской помощью может зависеть как от наличия у пациента определённых состояний или заболеваний (в том числе, ожирения), так и от исхода (тяжести заболевания), следовательно, — это коллайдер. Включение данной переменной в регрессионную модель может привести к ошибке коллайдера (collider bias) [22].

Для оценки общего эффекта программа предлагает коррекцию на три из пяти выявленных конфаундеров: возраст, злоупотребление алкоголем, курение (рис. 7 В). Поскольку: пол и уровень образования являются прокси-конфаундерами по отношению к курению и употреблению алкоголя, коррекция на них является избыточной. Рисунок 7 С отражает граф после коррекции на возраст, злоупотребление алкоголем, курение. Мы видим, что все ошибочные (смещённые) пути, обозначенные красными стрелками на рисунке 7 А, закрыты (рис. 7С). Следовательно, коррекция проведена верно (рис. 7.D).

 

Рис.7. Пример построения DAGs для определения переменных, которые необходимо учитывать, при оценке влияния ожирения на тяжесть COVID-19.

Fig. 7. Example of DAGs used to identify variables for adjustment when assessing the impact of obesity on COVID-19 severity.

 

Таким образом, при проведении эпидемиологических исследований коррекцию на этапе статистической обработки, например, при проведениирегрессионного анализа, необходимо проводить с учётом роли переменных (ковариат) по отношению к воздействию и исходу. В зависимости от типа переменной коррекция может, как устранить возможное искажение (конфаундер), так и привести к недооценке (медиатор) или искажению изучаемой связи (коллайдер). При построении DAG в граф следует включить все переменные, которые по данным литературы или, исходя из гипотезы и допущений исследователя, связаны с изучаемыми воздействием и/или исходом и важны для оценки связи, включая те, для которых отсутствуют прямые измерения. Точность определения набора переменных, необходимых для коррекции, и точность оценки искомой связи будет зависеть от того, насколько точно DAG отражает реально существующие связи между переменными. Следует также учитывать ограничения дизайна исследования, например, в поперечных исследованиях связей/ассоциаций не всегда ясны причинно-следственные отношения между анализируемыми факторами (сложно однозначно определить направление стрелок) в связи с отсутствием данных о последовательности изучаемых событий (факт воздействия и наступления исхода) во времени.

Минимальный и достаточный набор переменных для коррекции определяется, как набор переменных, который, обеспечит точную оценку связи, закрыв все пути, которые не являются причинно-следственными, и, оставив все причинно-следственные пути открытыми [7]. Если одна или несколько переменных недоступны, следует учесть максимально возможное число переменных, необходимых для коррекции по результатам построения DAGs [23]. Отсутствие данных о переменных, на которые требуется коррекция, следует указать, как ограничение исследования, т.к. это может, например, свидетельствовать о потенциальном резидуальном (остаточном) конфаундинге. 

Для обеспечения прозрачности процесса отбора переменных для анализа, сравнимости и интерпретируемости результатов, DAGs, использованный для отбора переменных при построении регрессионной модели для оценки влияния изучаемого воздействия (воздействий) на исход, рекомендуется размещать в основном тексте статьи при описании методологии исследования в разделе «Методы исследования» или в дополнительных материалах. В описание графа, особенно для сложных DAGs, следует добавлять текст с объяснением предположений и допущений исследователя, литературными ссылками, объясняющими наличие связи между переменными.

 

Таким образом, можно выделить основные рекомендации по составлению, интерпретации и использованию DAGs в эпидемиологических исследованиях:

 

  1. Построение DAGs целесообразно в исследованиях, которые в качестве гипотезы используют  предположение о наличии причинно-следственной связи между воздействием и исходом.
  2. Построение DAGs проводится до начала сбора данных или перед проведением статистического анализа (при вторичном анализе ранее собранных данных).
  3. Воздействие, исход, изучаемая связь должны быть чётко определены и отражены в цели исследования.
  4. В DAGs должны быть представлены все основные переменные, потенциально связанные с изучаемыми воздействием и/или исходом, включая те, для которых отсутствуют прямые измерения.
  5. Выбор переменных, включённых в DAGs, и связей между ними базируется на результатах анализа результатов ранее проведенных исследований.
  6. DAGs должны быть визуально ясны и читаемы, построение DAGs возможно с использованием бесплатно распространяемого программного обеспечения.
  7. DAGs, используемые при отборе переменных для анализа, могут быть размещены в основном тексте статьи в разделе «Методы исследования» или в дополнительных материалах; в описании графа должны присутствовать объяснения наличия связи между переменными с со ссылками на ранее проведенные исследования, использованными при подготовке DAGs.

  8. Если одна или несколько переменных, необходимых для корректной оценки связи, недоступны, при проведении анализа следует учесть максимально возможное число переменных, необходимых для коррекции по данным построенных DAGs.
  9. Отсутствие в исследовании данных по переменным, на которые на основании DAGs требуется коррекция, следует указать, как ограничение исследования.

Авторы выражают надежду, что представленная информация окажется полезной для исследователей и станет стимулом к более широкому применению современных подходов к анализу (причинно-следственных) связей. Использование DAGs для обоснованного выбора переменных для включения в многомерные математические модели будет способствовать повышению точности, надёжности и воспроизводимости результатов в биомедицинской науке.

 

Дополнительная информация

 

Источник финансирования. Авторы декларируют отсутствие внешнего финансирования при написании статьи.

Funding source. No funding.

Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией статьи.

Competing interests. The authors declare that they have no competing interests.

 

Вклад авторов.  Все авторы подтверждают соответствие своего авторства международным критериям ICMJE. Все авторы внесли существенный вклад в подготовку статьи, прочли и одобрили финальную версию перед публикацией. 

Author contribution.  All authors confirm that their authorship meets the international ICMJE criteria. All authors contributed substantially to the drafting of the text, critical review, editing, and approval of the final version. 

 

×

About the authors

Ekaterina Krieger

Email: kate-krieger@mail.ru

Vitaly A. Postoev

Northern State Medical University, Ministry of Health of the Russian Federation

Email: ispha@nsmu.ru
ORCID iD: 0000-0003-4982-4169

Cand. Sci. (Med), Ph.D., Acting Head of the Department of Methodology of Scientific Research, Head of the Arkhangelsk International School of Public Health Northern State Medical University

Russian Federation, 163069, Arkhangelsk, Troitsky Ave., 51

Alexander V. Kudryavtsev

Northern State Medical University

Email: ispha09@gmail.com
ORCID iD: 0000-0001-8902-8947
SPIN-code: 9296-2930

MD, Dr. Sci. (Medicine)

Russian Federation, 51 Troitskiy Avenue, 163000 Arkhangelsk

Tatiana N. Unguryanu

Northern State Medical University

Email: unguryanu_tn@mail.ru
ORCID iD: 0000-0001-8936-7324

MD, Ph.D., DSci., professor of the Department of hygiene and medical ecology of the Northern State Medical University, Arkhangelsk, 163000, Russian Federation.

e-mail: unguryanu_tn@mail.ru

Russian Federation

Andrey M. Grzybovsky

Nothern State Medical University

Author for correspondence.
Email: andrej.grjibovski@gmail.com

Head of the Department for Scientific and Innovative Work

Russian Federation, Arkhangelsk

References

  1. Mitkin N.A., Drachev S.N., Krieger E.A., et al. Sample size calculation for cross-sectional studies. Ekologiya cheloveka (Human Ecology). 2023;30(7):509–522. doi: https://doi.org/10.17816/humeco569406
  2. Greenland S., Pearl J., Robins J.M. Causal diagrams for epidemiologic research. Epidemiology. 1999; 10: 37-48.
  3. Shrier I., Platt R.W. Reducing bias through directed acyclic graphs. BMC Med Res Methodol. 2008; 8 (1):70. doi: 10.1186/1471-2288-8-70
  4. VanderWeele T.J. Principles of confounder selection. Eur J Epidemiol. 2019; 34: 211-219. doi: 10.1007/s10654-019-00494-6
  5. Foraita R., Spallek J., Zeeb H. Directed Acyclic Graphs. In: Ahrens W, Pigeot I (eds). Handbook of Epidemiology. New York: Springer; 2014.
  6. Kornaropoulos E.M., Tollis I.G., DAG View: an approach for visualizing large graphs. In: Didimo W, Patrignani M (eds). Graph Drawing. GD 2012. Lecture Notes in Computer Science. Vol.7704. Berlin, Germany: Springer; 2013. doi: 10.1007/978-3-642-36763-2_44
  7. Textor J., Zander B.V.D., Gilthorpe M.S. et al. Robust causal inference using directed acyclic graphs: the R package ‘dagitty’. Int J Epidemiol. 2016; 45: 1887-1894. doi: 10.1093/ije/dyw341
  8. Porta M. et al. A dictionary of epidemiology. 6th ed. New York, NY: Oxford University Press, 2014.
  9. Szklo M., Nieto F.J. Epidemiology: Beyond the Basics. 4th ed. Sudbury: Jones & Bartlett Learning, LLC; 2018.
  10. Bursac Z., Gauss C.H., Williams D.K. et al. Purposeful selection of variables in logistic regression. Source code for biology and medicine. 2008; 3 (17). doi: 10.1186/1751-0473-3-17
  11. Textor J., Liśkiewicz M. Adjustment criteria in causal diagrams: an algorithmic perspective. Proceedings of the Twenty-Seventh Conference on Uncertainty in Artificial Intelligence; Barcelona, Spain: AUAI Press; 2011. doi.org/10.48550/arXiv.1202.3764
  12. Lee P.H. Is a cutoff of 10% appropriate for the change-in-estimate criterion of confounder identification? Journal of epidemiology. 2014; 24 (2): 161-167. doi: 10.2188/jea.je20130062
  13. Heinze G., Wallisch C., Dunkler D. A review and recommendations for the practicing statistician. Biometrical journal Biometrische Zeitschrift. 2018; 60 (3): 431-449. doi: 10.1002/bimj.201700067
  14. Bailey L.C., Forrest C.B., Zhang P. et al. Association of antibiotics in infancy with early childhood obesity. JAMA Pediatr. 2014; 168: 1063–1069. doi: 10.1001/jamapediatrics.2014.1539
  15. Li D.K., Chen H., Ferber J. et al. Infection and antibiotic use in infancy and risk of childhood obesity: a longitudinal birth cohort study. Lancet Diabetes Endocrinol. 2017; 5 (1):18-25. doi: 10.1016/S2213-8587(16)30281-9
  16. Dekkers O.M., Laugesen K., Groenwold R.H.H. Directed acyclic graphs in clinical research. European journal of endocrinology. 2024; 190 (4): 5-7.
  17. Williamson E.J., Walker A.J., Bhaskaran K. et al. Factors associated with COVID-19-related death using OpenSAFELY. Nature. 2020; 584 (7821): 430-436. doi: 10.1038/s41586-020-2521-4.
  18. Sattar N., McInnes I.B., McMurray J.J.V. Obesity Is a Risk Factor for Severe COVID-19 Infection: Multiple Potential Mechanisms. Circulation. 2020; 142 (1): 4-6. doi: 10.1161/CIRCULATIONAHA.120.047659.
  19. Williamson E.J., Walker A.J., Bhaskaran K. et al. Factors associated with COVID-19-related death using OpenSAFELY. Nature. 2020; 584: 430-436. doi: 10.1038/s41586-020-2521-4
  20. Hamer M., Kivimäki M., Gale C.R. et al. Lifestyle risk factors, inflammatory mechanisms, and COVID-19 hospitalization: A community-based cohort study of 387,109 adults in UK. Brain Behav Immun. 2020; 87: 184-187. doi: 10.1016/j.bbi.2020.05.059.
  21. Fang L., Karakiulakis G., Roth M. Are patients with hypertension and diabetes mellitus at increased risk for COVID-19 infection? Lancet Respir Med. 2020; 8 (4): e21. doi: 10.1016/S2213-2600(20)30116-8.
  22. Griffith G.J., Morris T.T., Tudball M.J. et al. Collider bias undermines our understanding of COVID-19 disease risk and severity. Nat Commun. 11(1):5749. doi: 10.1038/s41467-020-19478-2
  23. Lash M.P., Fink A.K. Applying Quantitative Bias Analysis to Epidemiologic Data. New York: Springer, 2011.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) Eco-Vector

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 78166 от 20.03.2020.