ASSESSMENT OF TEMPORAL TRENDS OF MALIGNANT NEOPLASMS INCIDENCE USING MULTIVARIABLE STATISTICAL ANALYSIS

Abstract


The article presents the results of the assessment of the trends of malignant neoplasms incidence in Russian regions using multivariable statistics. The study was performed using cluster analysis and panel data models for the data on cancer incidence for all 78 Russian regions for the period from 2005 to 2015. RStudio package was used for all calculations. Data on all independent variables were collected from the official state statistics. Cluster analysis and modeling methods taking into account the panel structure of data makes it possible to study associations between environmental indicators and the incidence of cancers or so-called oncoepidemiological process. The proposed method of multivariable analysis of medical and statistical indicators contributes to the field of data processing for medical and environmental monitoring.

Full Text

Злокачественные новообразования являются одной из самых актуальных мировых проблем здравоохранения. В большинстве стран наблюдается тенденция к неуклонному росту заболеваемости злокачественными новообразованиями, и Россия не является исключением [3 - 5, 11]. Выявление территорий с наиболее неблагоприятной онкоэпидемиологической обстановкой необходимо для рационального планирования методов активного выявления онкобольных, коечного фонда онкологических учреждений и различных противораковых программ [5, 7]. Уровень онкологических заболеваний в ряде работ рассматривается как основной биоиндикатор экологического риска и социально значимый показатель состояния здоровья популяции в целом [7, 17, 19]. Причины высокой распространенности злокачественных образований и их негативного прогноза активно изучаются учеными с использованием различных методов, в том числе и статистических. Цель исследования - установить закономерности динамики показателей заболеваемости онкологи 45 Медицинская экология Экология человека 2019.02 ческими новообразованиями в регионах России с использованием методов многомерной статистики. Методы Исследования проведены с помощью методов кластерного анализа и построения моделей с учетом панельной структуры данных. В работе рассмотрен временной период с 2005 по 2015 год. В качестве объекта исследования взяты данные по онкозаболеваемости и антропогенной нагрузке 78 регионов Российской Федерации (РФ). Выборка данных была сформирована с использованием открытых информационных источников [13, 15]. Все расчеты проведены с использованием программы RStudio - свободной среды разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой [14, 21]. Для построения моделей панельных данных применен пакет «plm», а для кластеризации - пакет «cluster» [21]. В качестве индикатора, характеризующего эпидемиологическую ситуацию по онкологии в регионах России, выбран показатель заболеваемости с впервые в жизни установленным диагнозом «злокачественное новообразование», учтенным онкологическими учреждениями на 100 000 человек населения (у). Использованы показатели, отражающие величину антропогенной нагрузки региона: x - количество выброшенных в атмосферу загрязняющих веществ, отходящих от стационарных источников (тонн на 100 км2); x2 - количество уловленных и обезвреженных загрязняющих веществ (тонн на 100 км2); x3 - использование свежей воды в 10 000 м3 на 1 000 человек; x4 - число собственных легковых автомобилей на 1 000 человек; x - доля городского населения, проживающего в регионе (%) [15]. Результаты В ходе исследования динамики заболеваемости злокачественными новообразованиями выявлено, что в среднем по России она имеет возрастающую тенденцию. В большинстве регионов возрастающий тренд изменения показателя в рассматриваемый период соответствует общей ситуации по заболеваемости онкологическими новообразованиями в стране, но имеются региональные отличия по уровню и темпам изменения заболеваемости. Кроме того, существуют регионы с особым поведением рассматриваемого показателя, что позволяет предположить региональную дифференциацию его динамики. В связи с этим возникает идея изучения онкологической обстановки в региональном разрезе или, как минимум, по совокупностям регионов, сформированным методами кластерного анализа. Результаты проверки показателей антропогенной нагрузки с помощью факторов роста дисперсии VIF [20] свидетельствуют об отсутствии проблемы мультиколлинеарности, действительно, VIFx1 = 2.36, VIFx2 = 2.13, VIFx3 = 1.01, VIFXi = = 1.12, VIFx5 = 1.34. Построенные сквозная линейная множественная регрессия и линейная регрессия в стандартизованном масштабе не представляются вполне адекватными по причине низкого коэффициента детерминации, который составил 0.34, и вызывающих сомнения направлений связи между зависимой переменной (y) и предикторами x1, x2, а также высокой - более 15 % относительной ошибки аппроксимации. В данной работе в качестве основного фактора, характеризующего экологическую ситуацию, фактора загрязнения окружающей среды, используется совокупность показателей (xp x2, x3, x4, ^5), описанных выше. А другой фактор, косвенно отражающий естественные особенности природной среды, можно связать с регионом России и определить значением пространственной переменной, соответствующей номеру региона. Таким образом, представляется возможным свести задачу к построению модели панельных данных зависимости заболеваемости онкологическими новообразованиями от показателей, характеризующих антропогенную нагрузку региона. Для поставленной задачи, когда в качестве пространственной переменной выступают регионы России, наиболее подходящей представляется модель панельных данных с детерминированными эффектами. Методом Best Subsets построена модель панельных данных с детерминированными эффектами зависимости показателя заболеваемости от экологических факторов для 78 регионов, которая получилась значимой, со значимыми коэффициентами при переменных x1, x3, x4, x5 , результаты моделирования представлены на рис. 1. Показатели «Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников», «Число собственных легковых автомобилей на 1 000 человек» и «Доля городского населения» положительно влияют на рост заболеваемости, а показатель «Использование свежей воды» - отрицательно. plm(formula - у ~ xl + хЗ + х4 + х5, data - pdatas, model - "within’*) -9Э.89428 -11.48149 -0.32584 11.16669 72.52659 Estimate Std. Error t-value Pr(>|t|) xl 0.0159658 0.0060788 2.6265 0.008797 ** x3 -0.2134564 0.0867697 -2.4600 0.014109 * x4 0.5346638 0.0159592 33.5019 < 2.2Є-16 *** X5 2.4643804 0.8284988 2.9745 0.003026 ** F-stat1st1c: 382.799 on 4 and 776 DF, p-value: < 2.22e-16 Рис. 1. Модель с детерминированными эффектами Средние относительные ошибки аппроксимации данной модели для большинства регионов находятся в допустимых пределах, не превосходя 9 %, за исключением Республики Дагестан и Тюменской области, для которых ошибки составляют 14.8 и 26.3 % соответственно. 46 Экология человека 2019.02 Медицинская экология С учетом имеющейся региональной дифференциации динамики заболеваемости предприняты попытки построения более качественных моделей путем применения кластерного анализа [18]. В качестве меры сходства временных рядов региональных значений показателя заболеваемости использовано евклидово расстояние [1]. Евклидово расстояние представляет сумму расстояний между точками временных рядов и вычисляется по формуле: d(x,y) = - УіУ , (1) С помощью дендрограммы кластеризации выбрано разбиение на четыре кластера (табл. 1), и проверена обоснованность этой кластеризации с помощью соответствующих критериев. Рассмотрим динамику показателя заболеваемости злокачественными новообразованиями в каждом кластере в отдельности. Динамика средних значений показателя заболеваемости онкологией по 34 регионам кластера № 1 характеризуется возрастающим трендом. Динамика средних значений рассматриваемого показателя для регионов кластера № 2, состоящего из 30 регионов, как и в кластере № 1, иллюстрирует наличие возрастающего тренда, но более высокого уровня значения показателя заболеваемости, это, пожалуй, самый неблагополучный кластер с точки зрения уровня заболеваемости онкологическими новообразованиями. В кластер № 3 вошли двенадцать субъектов РФ, среднее значений заболеваемости в нем характеризуется также возрастающим трендом, но с меньшим уровнем и темпом роста показателя в сравнении с вышеуказанными кластерами. Кластер № 4, состоящий из двух регионов, можно назвать самым благополучным с точки зрения уровня заболеваемости онкологическими новообразованиями, который в этих регионах не превышает 210 на 100 000 населения. Далее исследовалась зависимость показателя заболеваемости от экологических факторов по регионам каждого кластера в отдельности. Результаты моделирования для кластера № 1 представлены в табл. 2. Построена модель панельных данных с детерминированными эффектами, которая иллюстрирует положительное влияние числа собственных автомобилей и доли городского населения на рост значения показателя заболеваемости онкологическими новообразованиями. Средние относительные ошибки аппроксимации данной модели для всех регионов кластера находятся в допустимых пределах, не превосходя 8 %. Так, например, модель для Приморского края, по- Таблица 1 Состав кластеров для показателя заболеваемости Кластер № 1 Кластер № 2 Кластер № 3 Кластер № 4 Белгородская область Ставропольский край Брянская область Республика Мордовия Республика Калмыкия Республика Дагестан Владимирская область Республика Татарстан Ивановская область Нижегородская область Кабардино-Балкарская Республика Республика Тыва Воронежская область Удмуртская Республика Калужская область Оренбургская область Карачаево-Черкесская Республика - Московская область Пермский край Костромская область Пензенская область Республика Башкортостан - Смоленская область Кировская область Курская область Самарская область Республика Марий Эл г. Москва Саратовская область Липецкая область Курганская область Чувашская Республика - Республика Карелия Ульяновская область Орловская область Челябинская область Тюменская область - Республика Коми Свердловская область Рязанская область Алтайский край Республика Алтай - Архангельская область Республика Хакасия Тамбовская область Иркутская область Республика Бурятия - Вологодская область Красноярский край Тверская область Новосибирская область Забайкальский край - Калининградская область Кемеровская область Тульская область Омская область Республика Саха (Якутия) - Ленинградская область Камчатский край Ярославская область Томская область Чукотский автономный округ - Мурманская область Приморский край Новгородская область Сахалинская область - - Республика Адыгея Хабаровский край Псковская область - - - Астраханская область Амурская область г. Санкт-Петербург - - - Ростовская область Магаданская область Краснодарский край - - - Республика Северная Осетия - Алания Еврейская автономная область Волгоградская область - - - 47 Медицинская экология Экология человека 2019.02 Таблица 2 Результаты построения моделей панельных данных с детерминированными эффектами Но мер кла стера Предикто ры Коэффициент при предикторах р-значение для t-статистик р-значение для F-теста Коэф фициент детермина ции 1 Х4 0,569489 <2 • 10-16 <2,22 • 10-16 0,68936 Х5 2,442191 0,03721 2 Х3 -0,305483 0,039562 <2,22 • 10-16 0,74095 Х4 0,542952 <2,2 • 10-16 Х5 4,604112 0,006058 3 Х1 0,322472 0,003007 1,268 • 10-14 0,43846 Х3 -0,889626 0,003650 Х4 0,404778 2,638 • 10-14 4 х2 -1,25566 0,022823 3,5916 • 10-5 0,67927 Х5 8,23826 0,002613 строенная по общей модели панельных данных без учета кластеризации, имеет вид: y = 4.453209 + 0.0159658Xj - 0.2134564х3 + + 0.5346638х4 + 2.4643804х5 (2) А зависимость, полученная в результате моделирования по данным кластера № 1 для Приморского края, содержащая меньшее количество предикторов, имеет вид: y = -8.506695 + 0.569489х4 + 2.442191х5 (3) Средняя относительная ошибка аппроксимации моделей (2) и (3) для Приморья составляет 3.8 и 4.2 % соответственно. На рис. 2 изображены графики динамики заболеваемости в Приморском крае за период 2005-2015 гг. Как видно, графики, построенные согласно обеих моделей, визуально мало отличаются. Построим модель для регионов кластера № 2. Результаты моделирования представлены в табл. 2. Средние относительные ошибки аппроксимации данной модели для всех регионов кластера находятся в допустимых пределах, не превосходя 7 %. Так, например, модель для г. Санкт-Петербурга, построенная по общей модели панельных данных без учета кластеризации, имеет вид: y = 53.649814 + 0.0159658Xj - 0.2134564х3 + + 0.5346638х4 + 2.4643804х5. Средняя относительная ошибка аппроксимация для данной модели составляет 5.3 %. По модели панельных данных с детерминированными эффектами, построенной с использованием данных регионов кластера № 2, получен следующий вид регрессии для Санкт-Петербурга: y = -200.3474162 - 0.305483х3 + 0.542952х4 + + 4.604112х5. Средняя относительная ошибка аппроксимация для данного региона, находясь в допустимых пределах, составляет 5.0 %. Построим модели для регионов кластер № 3 (см. табл. 2). Средние относительные ошибки аппроксимации данной модели для одиннадцати регионов кластера находятся в допустимых пределах, не превосходя 9 %, за исключением Тюменской область, значение ошибки для которой (15.1 %) хотя и меньше, чем для модели без предварительной кластеризации (26.3 %), но выходит за допустимые пределы. Рассмотрим для сравнения определенный регион кластера № 3. Так, например, модель для Республики Алтай, построенная по общей модели панельных данных без учета кластеризации, имеет вид: y = 66.394371 + 0.0159658Xj - 0.2134564х3 + + 0.5346638х4 + 2.4643804х5. Рис. 2. Модельные и фактические значений показателей заболеваемости для Приморского края 48 Экология человека 2019.02 Медицинская экология Средняя относительная ошибка аппроксимация для данной модели составляет 6.8 %. По модели панельных данных с детерминированными эффектами, построенной с использованием данных регионов кластера № 3, получен следующий вид регрессии для Республики Алтай: y = 160.04848 + 0.322472x1 - 0.889626x3 + + 0.4044778x4. Средняя относительная ошибка аппроксимация для данного региона, находясь в допустимых пределах, составляет 4.9 %. Построим модель для регионов кластера № 4 (см. табл. 2). Средняя относительная ошибка аппроксимации для Республики Дагестан составляет 2,2 %, а для Республики Тыва - 3,6 %, что меньше, чем ошибки для данных регионов в общей модели, равные 14.8 и 6.4 % соответственно. Рассмотрим для сравнения определенный регион данного кластера, а именно Республику Дагестан, для которой в общей модели ошибка аппроксимации является недопустимой. Так, для Дагестана уравнение, составленное по общей модели панельных данных без учета кластеризации, имеет вид: y = -10.635502 + 0.0159658x1 - 0.2134564x3 + + 0.5346638x4 + 2.4643804x5 (4) По модели панельных данных с детерминированными эффектами, построенной с использованием данных регионов кластера № 4, получен следующий вид регрессии для Дагестана: y = -227.1864 - 1.25566x2 + 8.23826x5 (5) Графики модельных и фактических значений для Республики Дагестан, являющейся объектом кластера № 4, представлены на рис. 3, который иллюстрирует более качественную аппроксимацию данных моделью (5). В ходе исследований были рассмотрены модели линейной регрессии со всеми выбранными показателями в обычном и стандартизованном масштабе, построена модель панельных данных с детерминированными эффектами по 78 значениям простран -ственной переменной и 11 значениям временной переменной, которая согласно тесту Вальда, ошибки аппроксимации и адекватности знаков коэффициентов оказалась лучше сквозных регрессий. В общую модель панельных данных вошли показатели «Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников», «Доля городского населения» и «Число собственных легковых автомобилей на 1 000 человек» - с положительными знаками, «Потребление свежей воды» - с отрицательным знаком. Предложенная модель значима со всеми значимыми параметрами и коэффициентом детерминации 0.66. Кроме того, проведена кластеризация регионов по динамике временных рядов региональных значений показателя заболеваемости онкологическими новообразованиями. Для совокупности регионов каждого из полученных кластеров построены регрессионные модели с учетом панельной структуры данных. Так, для регионов кластера № 1 на рост заболеваемости оказывают положительное влияние показатели «Число собственных автомобилей» и «Доля городского населения». Для регионов кластера № 2 заболеваемость растет с увеличением показателей «Число собственных автомобилей» и «Доля городского населения» и снижается с увеличением показателя «Использование свежей воды». Для регионов кластера № 3 на динамику показателя заболеваемости положительно воздействуют показатели «Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников» и «Число собственных автомобилей» и оказывает отрицательное влияние Рис. 3. Модельные и фактические значения показателя заболеваемости для Республики Дагестан 49 Медицинская экология Экология человека 2019.02 показатель «Использование свежей воды». Для кластера № 4, который состоит из двух субъектов РФ, выявлены два предиктора - это «Уловлено и обезврежено загрязняющих веществ» с отрицательным знаком коэффициента и «Доля городского населения» с положительным знаком коэффициента. Все полученные модели, построенные для кластеров, также значимы со всеми значимыми параметрами. Обсуждение результатов Полученные результаты моделирования показали, что предварительная кластеризация по динамике исследуемого показателя может не только расклассифицировать рассматриваемые объекты по «степени неблагополучия» по заболеваемости злокачественными новообразованиями, но и представляться способом улучшения качества моделей. Как известно, методы эконометрического моделирования позволяют изучить влияния экологических факторов на состояние здоровья человека. В этой связи необходимо отметить ряд работ [2, 6, 8-10, 12, 16, 22], авторами которых в своих исследованиях различной направленности также были применены методы математической статистики и многомерного анализа. В этих работах были показаны возможности советующих информационных систем, методы оценки эпидемиологического риска от влияния окружающей среды, многофакторное моделирование влияния окружающей среды на здоровье человека в отдельных регионах России, методологические подходы для оценки тренда в медицине, обоснованность панельных исследований в медицине и здравоохранении. Проведенные нами исследования позволили получить модели динамики показателя онкозаболеваемости в зависимости от изменения антропогенной нагрузки региона для данных по всем рассматриваемым регионам, а также по кластерам регионов, сформированным по динамике показателя заболеваемости. Это дает более полную характеристику изучаемого явления. Таким образом, использование методов кластерного анализа и моделирования с учетом панельной структуры данных позволяет описать влияние на онкоэпи-демиологический процесс социально-гигиенических, экологических и других показателей. Предложенный способ многомерного анализа медико-статистических показателей дополняет информационно-аналитическое поле обработки данных медико-экологического мониторинга. Авторы подтверждают отсутствие конфликта интересов. Емцева Елена Дмитриевна - ORCID 0000-0002-97605481; SPIN 4767-7293 Кику Павел Федорович - ORCID 0000-0003-3536-8617; SPIN 1238-5081 Мазелис Андрей Львович - ORCID 0000-0002-0629-0569; SPIN 5206-2208

About the authors

E D Emtseva

State University of Economics and Service

Email: emtseva@mail.ru
Vladivostok, Russia

P F Kiku

'School of Biomedicine Far East Federal University

Vladivostok, Russia

A L Mazelis

State University of Economics and Service

Vladivostok, Russia

References

  1. Алимова И. С., Соловьев В. Д., Батыршин И. З. Сравнительный анализ мер сходства, основанных на преобразовании скользящих аппроксимаций, в задачах классификации временных рядов // Труды ИСП РАН, 2016. Т. 28, вып. 6. С. 207-222.
  2. Бузинов Р. В., Кику П. Ф., Унгуряну Т. Н., Ярыгина М. В., Гудков А. Б. От Поморья до Приморья: социально-гигиенические и экологические проблемы здоровья населения: монография. Архангельск: Изд-во Северного государственного медицинского университета, 2016. 397 с.
  3. Голивец Т. П., Коваленко Б. С. Анализ мировых и российских тенденций онкологической заболеваемости в XXI веке // Научный результат. Серия: Медицина и фармация. 2015. Т. 1, № 4 (6). С. 79-86.
  4. Каприн А. Д., Старинский В. В., Петрова Г. В. Злокачественные новообразования в России в 2015 г. (заболеваемость и смертность). М.: МНИОИ им. П. А. Герцена - филиал ФГБУ «НМИРЦ» МЗ, 2016. 250 с.
  5. Каприн А. Д., Старинский В. В., Петрова Г. В. Состояние онкологической помощи населению России в 2014 г. М.: МНИОИ им. П. А. Герцена - филиал ФГБУ «НМИРЦ» МЗ, 2015. 236 с.
  6. Карпин В. А., Кострюкова Н. К., Гудков А. Б. Радиационное воздействие на человека радона и его дочерних продуктов распада // Гигиена и санитария. 2005. № 4. С. 13-17.
  7. Кику П. Ф., Веремчук Л. В., Жерновой М. В. Роль экологических и социально-гигиенических факторов в распространении онкологических заболеваний. Владивосток: Изд. дом Дальневост. федерал. ун-та, 2012. 192 с.
  8. Кику П. Ф., Горборукова Т. В. Возможность использования советующих информационных систем в экологических исследованиях // Экология человека. 2014. № 4. С. 11-15.
  9. Кику П. Ф., Морева В. Г., Юдин С. В., Ярыгина М. В. Оценка эпидемиологического риска заболеваемости раком почки и мочевого пузыря в биоклиматических зонах Приморского края // Общественное здоровье и здравоохранение. 2015. № 3. С. 40-46.
  10. Кострюкова Н. К., Карпин В. А., Гудков А. Б. Смертность населения, проживающего в местах локальных разломов земной коры // Проблемы социальной гигиены, здравоохранения и истории медицины. 2005. № 4. С. 17-19.
  11. Мерабишвили В. М. Онкологическая статистика (традиционные методы, новые информационные технологии). Ч. 1. СПб.: ООО «ИПК «КОСТА», 2015. 223 с.
  12. Мироновская А. В., Бузинов Р. В., Гудков А. Б. Прогнозная оценка неотложной сердечно-сосудистой патологии у населения северной урбанизированной территории // Здравоохранение Российской Федерации. 2011. № 5. С. 66-67.
  13. Официальный сайт Министерства здравоохранения Российской Федерации. URL: http://www.rosminzdrav.ru (дата обращения: 03.12.2017).
  14. Официальный сайт проекта R. [Электронный ресурс]: Режим доступа: https://cran.r-project.org/ (дата обращения: 03.12.2017)
  15. Официальный сайт Федеральной службы государственной статистики. URL: http://www.gks.ru. (дата обращения: 03.12.2017)
  16. Холматова К. К., Гржибовский А. М. Панельные исследования и исследования тренда в медицине и общественном здравоохранении // Экология человека. 2016. № 10. С. 57-63.
  17. Crump K. S., Guess H. A. Drinking water and cancer: Review of recent finding and assesment of risks: Report prepared by Science Research systems, Ruston, Louisiana, for the Council on Evironmental Quality. Washington: D. C., 2008. 108 p.
  18. Duran B. S., Odell P. L. Cluster Analysis. A Survey. Springer, 1974. 146 p.
  19. Haggstrom Christel. Metabolic factors and risk of prostate, kidney and bladder cancer. University dissertation from Umea: Umea Universitet, 2013. 57 p.
  20. Hanke J. E., Wichern D. W., Reitsch A. G. Business Forecasting. Pearson Education. 2013. 512 p.
  21. Kabacoff R. I. R in Action: Data Analysis and Graphics with R. Manning Publications, 201 1. 447 p.
  22. Unguryanu T., Novikov S., Buzinov R., Gudkov A., Grjibovski A. Respiratory diseases in a town with heavy pulp and paper industry // Epidemiologia and prevenzione. 2010. Vol. 34, iss. 5-6. Р. 138.

Statistics

Views

Abstract - 139

Cited-By


PlumX

Dimensions

Refbacks

  • There are currently no refbacks.

Copyright (c) 2019 Human Ecology

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies