CLUSTER ANALYSIS APPLICATION FOR THE PREDICTABLE DEMOGRAPHIC OBJECTS CLASSIFICATION IN REGION

Abstract

The main issues of predictable demographic objects classification based on the cluster analysis with the help of application package STATISTICS 6.0 take place.

Full Text

Современный период развития здравоохранения характеризуется негативными тенденциями в медико-демографической ситуации, что проявляется в снижении численности населения, рождаемости, а также увеличении смертности и заболеваемости в большинстве районов и областей. Таким образом, ставится необходимость решения данной проблемы. В основу поставленной задачи легло описание динамики медико-демографических процессов, для чего была использована процедура регрессионного анализа. Как известно, данный метод лучше всего подходит для работы с демографическими показателями, такими как численность населения, заболеваемость, рождаемость, смертность. Процедура регрессионного анализа помимо выявления динамики процессов позволила выполнить прогнозирование рассматриваемых показателей. В результате исследования с помощью предложенной методики было получено формализованное описание динамики процессов в отдельных районах, городе и Воронежской области в целом, а также было выявлено, что динамика практически всех изученных медико-демографических показателей представляется уравнениями типа . Следует отметить, что именно квадратичная регрессия обеспечивает наиболее точную экстраполяцию. При решении вопроса о последующем анализе и представлении полученных результатов была поставлена задача о классификации объектов по их динамическим характеристикам. Данная проблема возникает особенно явно в нашем исследовании, когда рассматривались 34 территориальные единицы и немалое число медико-демографических показателей. Следует заметить, что зачастую территориальные образования группируются по уровню медико-демографических показателей соответственно их величинам в конкретных временных точках, либо представляется расчет усредненных показателей по временным интервалам или предлагаются специальные индексы, представляющие нормированные величины этих усредненных показателей. В обоих случаях описание территорий по медико-демографическим показателям проводится без точных характеристик динамики изменений анализируемых показателей, а характер происходящих или прогнозируемых изменений описывается качественными терминами «увеличение», «уменьшение» и т.п. Таким образом, в одну классификационную группу могут быть отнесены, например, районы с одинаковой на данный момент численностью населения, но имеющие положительный или отрицательный прирост населения, или различную скорость прироста. В нашем исследовании в качестве динамических характеристик было предложено использовать коэффициенты уравнения квадратичной регрессии а1, а2 и а3, которые определяют положение экстремума функции, скорость и направление ее возрастания или убывания. Из-за различной размерности показателей коэффициенты нормировались по формуле. В качестве динамических характеристик помимо коэффициентов регрессии логично было бы предложить использовать также математическое ожидание и среднее квадратическое отклонение рассматриваемого показателя для конкретного территориального образования, но это уже отдельный вопрос. В качестве метода классификации территориальных образований как динамических объектов был выбран кластерный анализ, который позволяет на основе множества показателей, характеризующих объекты, сгруппировать их в классы (кластеры). Классификация происходит таким образом, чтобы объекты, входящие в один кластер, были более однородными, сходными, по сравнению с объектами, входящими в другие кластеры. Результатом данной методики является разбиение имеющихся объектов на некоторое количество кластеров, при этом каждая группа включает в свой состав один или более объектов. Методы кластерного анализа подразделяются на агломеративные и итеративные дивизивные. В агломеративных или объединительных методах последовательное объединение наиболее близких объектов в кластеры может быть проиллюстрировано графически в виде дендрограммы или дерева объединения. Следует отметить, что агломеративный алгоритм связан, в первую очередь, с выбором способа определения расстояния между объектами в многомерном пространстве. Предварительный сравнительный анализ различных агломеративных методов применительно к математическим моделям медико-демографических показателей показал, что наиболее эффективное и демонстративное выделение кластеров обеспечивает метод полной связи (метод наиболее удаленных соседей) с выбором степенного расстояния, рассчитываемого по формуле (х,у) = (?i |хi - уi|р)1/r при параметрах p=1, r=3. Выбор параметров r и p позволяет выполнять масштабирование для наиболее демонстративной графической классификации.Выбор метода полной связи обусловлен также его большей критичностью, поскольку в этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах. Однако, агломеративные методы кластеризации, несмотря на их демонстративность, обеспечиваемую визуализацией найденного правила классификации объектов в виде дендрограмм, не дают количественных представлений о параметрах сформированных кластеров (координаты ядра) и о степени сгруппированности (расстояния от ядра) объектов, включенных в кластеры. В отличие от агломеративных методов, итеративные дивизивные методы производят разделение группы объектов на кластеры, оперируя непосредственно с совокупностью параметров объектов. В ходе работы был применен метод К-средних, в котором число предполагаемых кластеров задается исследователем исходя из собственных соображений, которые могут быть связаны с количеством объектов или с другими ограничениями. В соответствии с заданным числом кластеров с использованием программы STATISTICA 6.0 проводилось разбиение всей группы на кластеры, вычисление положения центров тяжести кластеров, расстояния между кластерами и расстояния каждого объекта от ядра кластера. Приведем пример классификации территориальных образований по параметрам динамических объектов для численности населения и рождаемости. Выполним вышеописанную процедуру в двух вариантах: агломеративным методом и методом К-средних. Классификация территориальных образований Воронежской области по численности населения агломеративным методом кластерного анализа показана на дендрограмме (рис.1.). Описание: 21 Рис.1. Результаты кластерного анализа территориальных образований Воронежской области по динамике численности населения (агломеративный метод). Обозначения: по оси ординат - нормированное расстояние связей; по оси абсцисс - территориальные образования: районы области C_1 - Аннинский, C_2 - Бобровский, C_3 - Богучарский, C_4 -Борисоглебский, C_5 - Бутурлиновский, C_6 - Верхнемамонский, C_7 -Верхнехавский, C_8 - Воробьевский, C_9 - Грибановский, C_10 - Калачеевский, C_11 - Каменский, C_12 - Кантемировский, C_13 - Каширский, C_14 - Лискинский, C_15 - Нижнедевицкий, C_16 - Новоусманский, C_17 - Новохоперский, C_18 - Ольховатский, C_19 - Острогожский, C_20 - Павловский, C_21 - Панинский, C_22 - Петропавловский, C_23 - Поворинский, C_24 - Подгоренский, C_25 - Рамонский, C_26 - Репьевский, C_27 - Россошанский, C_28 - Семилукский, C_29 - Таловский, C_30 - Терновский, C_31 - Хохольский, С_32 - Эртильский; C_33 - вся область, C_34 - г.Воронеж Нетрудно заметить, что город и область группируются в отдельные кластеры, объяснением чего является тот факт, что численность населения в этих территориальных единицах не сопоставима с численностью в районах области. Также можно выделить наличие устойчивых групп - это районы со схожей динамикой численности населения. Следует также отметить, что если исключить из рассматриваемых территориальных образований город и область, общая картина классификации в целом останется прежней (рис. 2.). Описание: 22 Рис.2. Результаты кластерного анализа территориальных образований Воронежской области по динамике численности населения (агломеративный метод). Обозначения: по оси ординат - нормированное расстояние связей; по оси абсцисс - территориальные образования: районы области C_1 - Аннинский, C_2 - Бобровский, C_3 - Богучарский, C_4 -Борисоглебский, C_5 - Бутурлиновский, C_6 - Верхнемамонский, C_7 -Верхнехавский, C_8 - Воробьевский, C_9 - Грибановский, C_10 - Калачеевский, C_11 - Каменский, C_12 - Кантемировский, C_13 - Каширский, C_14 - Лискинский, C_15 - Нижнедевицкий, C_16 - Новоусманский, C_17 - Новохоперский, C_18 - Ольховатский, C_19 - Острогожский, C_20 - Павловский, C_21 - Панинский, C_22 - Петропавловский, C_23 - Поворинский, C_24 - Подгоренский, C_25 - Рамонский, C_26 - Репьевский, C_27 - Россошанский, C_28 - Семилукский, C_29 - Таловский, C_30 - Терновский, C_31 - Хохольский, С_32 - Эртильский Более отчетливое деление территориальных образований на группы по динамике численности населения с количественной характеристикой расстояния от центра обеспечил кластерный анализ по методу К-средних (таблица 1). При заданном количестве кластеров п=4 районы области разделяются на две самостоятельные группы: кластер №3, включающий 26 районов и кластер №4 - 6 районов. Показатели г. Воронежа и области в целом не вошли ни в одну из названных групп и выделены, соответственно, в самостоятельные кластеры (№1 и №2), что также показывала и дендрограмма. Таблица 1. Результаты кластерного анализа территориальных образований Воронежской области методом К-средних по динамике численности населения. Территориальные образования Стандартизованные коэффициенты №кластера Расстояние от центра кластера Код Наименование а1 а2 а3 1 2 3 4 5 6 7 C_34 Город -5,022 0,958 -4,997 1 0,00 C_33 Вся область -2,361 5,544 -2,393 2 0,00 C_1 Аннинский 0,201 -0,197 0,210 3 0,03 C_2 Бобровский 0,152 -0,186 0,210 3 0,02 C_3 Богучарский 0,015 -0,156 -0,006 3 0,14 C_6 Верхнемамонский 0,275 -0,213 0,213 3 0,07 C_7 Верхнехавский 0,200 -0,197 0,210 3 0,03 C_8 Воробьевский 0,228 -0,203 0,211 3 0,04 C_9 Грибановский 0,219 -0,201 0,210 3 0,04 C_10 Калачеевский 0,118 -0,201 -0,006 3 0,11 C_11 Каменский 0,178 0,192 0,208 3 0,21 C_12 Кантемировский 0,136 -0,182 0,210 3 0,03 C_13 Каширский 0,190 -0,194 0,210 3 0,02 C_14 Лискинский 0,281 -0,214 0,211 3 0,07 C_15 Нижнедевицкий 0,210 -0,199 0,210 3 0,03 C_17 Новохоперский 0,097 -0,174 -0,006 3 0,11 C_18 Ольховатский 0,212 -0,199 0,210 3 0,03 C_20 Павловский 0,199 -0,196 0,210 3 0,03 C_21 Панинский 0,282 -0,215 0,211 3 0,07 C_22 Петропавловский 0,177 -0,191 0,210 3 0,02 C_23 Поворинский 0,124 -0,180 0,210 3 0,03 C_24 Подгоренский 0,172 -0,190 0,210 3 0,02 C_26 Репьевский 0,236 -0,204 0,211 3 0,05 C_27 Россошанский 0,101 -0,175 -0,006 3 0,11 C_29 Таловский 0,236 -0,204 0,211 3 0,05 C_30 Терновский 0,168 -0,189 0,210 3 0,02 C_31 Хохольский -0,163 -0,188 0,210 3 0,19 C_32 Эртильский 0,160 -0,188 0,210 3 0,02 C_4 Борисоглебский 0,694 -0,306 0,645 4 0,18 C_5 Бутурлиновский 0,374 -0,235 0,428 4 0,05 C_16 Новоусманский 0,434 -0,248 0,428 4 0,02 C_19 Острогожский 0,365 -0,233 0,428 4 0,05 C_25 Рамонский 0,386 -0,238 0,428 4 0,04 C_28 Семилукский 0,397 -0,240 0,428 4 0,03 В связи с тем, что численность населения является абсолютным показателем, приведем пример классификации относительного показателя рождаемости. Результаты агломеративного метода кластерного анализа по динамике рождаемости приведены на рисунке 2. Описание: 23 Рис.2. Результаты кластерного анализа территориальных образований Воронежской области по динамике рождаемости (агломеративный метод). Обозначения: по оси ординат - нормированное расстояние связей; по оси абсцисс - территориальные образования: районы области C_1 - Аннинский, C_2 - Бобровский, C_3 - Богучарский, C_4 -Борисоглебский, C_5 - Бутурлиновский, C_6 - Верхнемамонский, C_7 -Верхнехавский, C_8 - Воробьевский, C_9 - Грибановский, C_10 - Калачеевский, C_11 - Каменский, C_12 - Кантемировский, C_13 - Каширский, C_14 - Лискинский, C_15 - Нижнедевицкий, C_16 - Новоусманский, C_17 - Новохоперский, C_18 - Ольховатский, C_19 - Острогожский, C_20 - Павловский, C_21 - Панинский, C_22 - Петропавловский, C_23 - Поворинский, C_24 - Подгоренский, C_25 - Рамонский, C_26 - Репьевский, C_27 - Россошанский, C_28 - Семилукский, C_29 - Таловский, C_30 - Терновский, C_31 - Хохольский, С_32 - Эртильский; C_33 - вся область, C_34 - г.Воронеж Количественную характеристику классификационных групп районов области по признаку динамики рождаемости представляют результаты кластерного анализа методом К-средних (таблица 2). Таблица 2. Результаты кластерного анализа территориальных образований Воронежской области методом К-средних по динамике рождаемости населения. Территориальные образования Стандартизованные коэффициенты №кластера Расстояние от центра кластера Код Наименование а1 а2 а3 C_1 Аннинский -0,157 0,025 -0,509 1 0,21 C_2 Бобровский 0,560 -0,648 -0,509 1 0,36 C_7 Верхнехавский -0,291 0,150 -0,487 1 0,31 C_9 Грибановский -0,193 0,059 -0,509 1 0,24 C_10 Калачеевский 0,210 -0,317 -0,487 1 0,09 C_11 Каменский -0,450 0,302 -0,487 1 0,44 C_12 Кантемировский -0,097 -0,028 -0,509 1 0,16 C_13 Каширский 0,668 -0,748 -0,509 1 0,45 C_14 Лискинский 0,313 -0,418 -0,487 1 0,17 C_15 Нижнедевицкий 0,692 -0,770 -0,509 1 0,47 C_16 Новоусманский -0,227 0,090 -0,509 1 0,26 C_17 Новохоперский -0,041 -0,084 -0,509 1 0,12 C_18 Ольховатский -0,227 0,094 -0,509 1 0,27 C_24 Подгоренский 0,337 -0,436 -0,509 1 0,19 C_31 Хохольский 0,597 0,439 -0,487 1 0,45 C_33 Вся область 0,538 -0,627 -0,509 1 0,34 C_3 Богучарский 1,618 -1,640 1,935 2 0,08 C_6 Верхнемамонский 2,006 -2,008 1,935 2 0,39 C_23 Поворинский 1,598 -1,622 1,935 2 0,07 C_27 Россошанский 0,908 -0,975 1,935 2 0,48 C_28 Семилукский 1,597 -1,623 1,935 2 0,07 C_34 Город 1,343 -1,385 1,935 2 0,13 C_32 Эртильский 1,636 2,471 1,935 3 0,00 C_5 Бутурлиновский -1,166 0,974 -0,487 4 0,08 C_4 Борисоглебский -0,900 0,722 -0,509 4 0,13 C_8 Воробьевский -1,352 1,150 -0,509 4 0,23 C_19 Острогожский -1,173 0,981 -0,509 4 0,08 C_20 Павловский -0,862 0,688 -0,487 4 0,16 C_21 Панинский -0,814 0,644 -0,487 4 0,20 C_22 Петропавловский -1,002 0,822 -0,487 4 0,05 C_25 Рамонский -1,488 1,275 -0,513 4 0,33 C_26 Репьевский -0,733 0,569 -0,509 4 0,26 C_29 Таловский -0,754 0,588 -0,509 4 0,25 C_30 Терновский -1,497 1,287 -0,513 4 0,34 Из рисунка 2 и таблицы 2 видно, что в первый кластер выделяются такие районы, как Аннинский, Бобровский, Верхнехавский и др., динамика рождаемости которых схожа с динамикой области. В другой кластер выделяются Богучарский, Верхнемамонский, Поворинский, Россошанский и Семилукский районы, динамика рождаемости которых аналогична динамике города. Из рисунка и таблицы нетрудно видеть, что отдельным самостоятельным кластером является Эртильский район. Это говорит о том, что ни с одним из приведенных территориальных образований не выявлено общей динамики. В четвертый кластер входят Бутурлиновский, Борисоглебский и др. районы. Результаты кластерного анализа позволили классифицировать территориальные образования по динамическим характеристикам показателей численности, рождаемости и др. и перейти от индивидуальных результатов к описанию общих свойств, характеризующих каждую группу объектов. Решение этой задачи в свою очередь предоставляет возможность выявления общих проблем и причин, а также отыскания схожих методов в борьбе с негативными тенденциями в сложившейся медико-демографической ситуации.
×

References

  1. Руководство по статистике в медицине и биологии. В 2-х томах/под ред. проф. Ю. М. Комарова. Том 2. Прикладная статистика здоровья / В. А. Медик, Б. Б. Фишман, М.С. Токмачев - М.:Медицина, 2001. - 352с.
  2. Боровиков В. П. Прогноирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере/ В. П. Боровиков, Г.И. Ивченко - М.: Финансы и статистика, 1999. - 384с.
  3. Шиган Е. Н. Методы прогнозирования и моделирования в социально-гигиенических исследованиях/ Шиган Е. Н. - М.: Медицина, 1986. - 208с.
  4. Есауленко И. Э. Разработка регрессионных моделей для прогнозирования динамики медико-демографических показателей/И. Э. Есауленко, В. А. Голуб, В. Т. Петров, С.Н. Семенов, Н. А. Гладских, Е. Б. Смолькин, В. Н. Спесивцев//Системный анализ и управление в биомедицинских системах. - 2005. - Том 4. №1. - С. 104-107.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies