Парадоксът на Симпсън — как групирането обръща статистическите резултати

Парадоксът на Симпсън: как групирането на данни може да обърне статистически изводи — примери, рискове и значение за социални науки и медицинска статистика.

Автор: Leandro Alegsa

11-12-2025 10:45

Парадоксът на Симпсън е парадокс от статистиката. Наречен е на Едуард Симпсън, британски статистик, който го описва за първи път през 1951 г. Статистикът Карл Пиърсън описва много подобен ефект през 1899 г. - Описанието на Удни Юл е от 1903 г. Понякога той се нарича ефект на Юл-Симпсън. Когато се разглеждат статистическите резултати на групи, тези резултати могат да се променят в зависимост от това дали групите се разглеждат една по една, или се обединяват в по-голяма група. Този случай често се среща в социалните науки и медицинската статистика. Той може да обърка хората, ако данните за честотата се използват за обяснение на причинно-следствена връзка. Други наименования на парадокса включват парадокс на обръщането и парадокс на сливането.

Как възниква парадоксът

Смисълът на парадокса е, че относителните честоти (проценти, вероятности) за две сравнявани характеристики могат да се движат в различни посоки, когато наблюдаваме отделни подгрупи и когато наблюдаваме комбинираните данни. Причината не е в "магическо" свойство на статистиката, а в присъствието на една или повече скрити (или нерегистрирани) променливи — т.нар. конфундери или "lurking variables". Тези променливи влияят едновременно върху разпределението между групите и върху крайния резултат, и така променят тежестта (везните) при обобщаването на данните.

Илюстрации и реални примери

Университетите и приемът: В класически пример от Калифорния (Berkeley) статистиката показва, че мъжете имат по-висок процент прием от жените общо, но когато се разгледа отделно по факултети, повечето факултети приемат жените с по-висок или равен процент. Разликата идва от това, че жените са кандидатствали масово в силно конкурентни факултети с по-нисък общ приемен процент.
Медицински лечения: Има известни случаи (например спор около лечението на бъбречни камъни), в които един метод дава по-добър резултат както при малки, така и при големи камъни, но при обединяване на данните другият метод изглежда по-добър — заради различното разпределение на тежките случаи между двата метода.
Спортни статистики и социални изследвания: различното разпределение на игрите, опонентите или демографските групи често води до интуитивно противоречие между агрегирани статистики и статистики по подгрупи.

Кога трябва да внимаваме

Парадоксът на Симпсън е предупреждение, че агрегирани данни могат да скрият важна структура. Особено рисковано е да се правят причинно-следствени изводи само върху база агрегирани честоти. Трябва да внимаваме, когато:

Има очевидни подгрупи (възрастови, пол, стадий на болест, департаменти и т.н.).
Разпределението между тези подгрупи не е равно за сравняваните категории.
Очакваме наличие на скрити променливи, които влияят и на причината, и на резултата.

Как да се избегнат грешни изводи

Практически подходи за разгадаване и предотвратяване на погрешни заключения:

Стратификация: разглеждайте и представяйте данните за релевантните подгрупи отделно.
Анализ с контрол на конфундерите: използвайте регресионни модели, Mantel–Haenszel корекции, propensity scores и други методи за статистическо контролиране.
Кауза́лни модели: прилагайте диаграми на причинните връзки (DAGs) и подходи от каузалния анализ (напр. по Джуд Пърл), за да формулирате кои променливи трябва да се контролират, за да получите правилна причинно-следствена оценка.
Рандомизация: когато е възможно, рандомизираните контролирани изпитвания намаляват риска от скрити конфундери.
Прозрачна визуализация: показвайте както агрегирани, така и разбити по подгрупи резултати — графики и таблици помагат да се видят несъответствията.

Значение

Парадоксът на Симпсън не е рядък статистически куриоз — той е важен практически урок: данните трябва да се анализират внимателно, да се търсят възможни скрити променливи и да се използват подходящи методи за контрол. Неправилната интерпретация може да доведе до грешни решения в политика, медицина и бизнес.

За по-задълбочено разбиране е полезно да се изучат примери от литературата по каузален анализ и статистическо моделиране, както и конкретни исторически случаи (Berkeley admission, лечения за бъбречни камъни и др.).

Пример: Лечение на камъни в бъбреците

Това е реален пример от медицинско проучване, в което се сравнява успеваемостта на две лечения на камъни в бъбреците.

В таблицата са показани процентите на успеваемост и броят на леченията при лечение на малки и големи камъни в бъбреците, като лечение А включва всички отворени процедури, а лечение Б - перкутанна нефролитотомия:

	Лечение А		Лечение В
	успех	отказ	успех	отказ
Малки камъни	Група 1		Група 2
брой пациенти	81	6	234	36
	93%	7%	87%	13%
Големи камъни	Група 3		Група 4
брой пациенти	192	71	55	25
	73%	27%	69%	31%
И двата сайта	Група 1+3		Група 2+4
брой пациенти	273	77	289	61
	78%	22%	83%	17%

Парадоксалното заключение е, че лечението А е по-ефективно, когато се използва при малки камъни, както и при големи камъни, но лечението Б е по-ефективно, когато се разглеждат едновременно и двата размера. В този пример не е известно, че размерът на камъка в бъбреците влияе върху резултата. В статистиката това се нарича скрита променлива (или прикрита променлива).

Кое лечение се счита за по-добро, се определя от неравенството между две съотношения (успехи/общо). Обръщането на неравенството между съотношенията, което създава парадокса на Симпсън, се случва, защото два ефекта се проявяват заедно:

Размерите на групите, които се комбинират, когато се пренебрегне променливата "дебнене", са много различни. Лекарите са склонни да дават на тежките случаи (големи камъни) по-доброто лечение (А), а на по-леките случаи (малки камъни) - по-лошото лечение (Б). Поради това общите стойности са доминирани от групи три и две, а не от двете много по-малки групи едно и четири.
Променливата "lurking" оказва голямо влияние върху съотношенията, т.е. процентът на успеваемост се влияе по-силно от тежестта на случая, отколкото от избора на лечение. Следователно групата пациенти с големи камъни, използващи лечение А (трета група), се справя по-зле от групата с малки камъни, дори ако последните са използвали по-лошото лечение В (втора група).

обискирам