Парадоксът на Симпсън — как групирането обръща статистическите резултати
Парадоксът на Симпсън: как групирането на данни може да обърне статистически изводи — примери, рискове и значение за социални науки и медицинска статистика.
Парадоксът на Симпсън е парадокс от статистиката. Наречен е на Едуард Симпсън, британски статистик, който го описва за първи път през 1951 г. Статистикът Карл Пиърсън описва много подобен ефект през 1899 г. - Описанието на Удни Юл е от 1903 г. Понякога той се нарича ефект на Юл-Симпсън. Когато се разглеждат статистическите резултати на групи, тези резултати могат да се променят в зависимост от това дали групите се разглеждат една по една, или се обединяват в по-голяма група. Този случай често се среща в социалните науки и медицинската статистика. Той може да обърка хората, ако данните за честотата се използват за обяснение на причинно-следствена връзка. Други наименования на парадокса включват парадокс на обръщането и парадокс на сливането.
Как възниква парадоксът
Смисълът на парадокса е, че относителните честоти (проценти, вероятности) за две сравнявани характеристики могат да се движат в различни посоки, когато наблюдаваме отделни подгрупи и когато наблюдаваме комбинираните данни. Причината не е в "магическо" свойство на статистиката, а в присъствието на една или повече скрити (или нерегистрирани) променливи — т.нар. конфундери или "lurking variables". Тези променливи влияят едновременно върху разпределението между групите и върху крайния резултат, и така променят тежестта (везните) при обобщаването на данните.
Илюстрации и реални примери
- Университетите и приемът: В класически пример от Калифорния (Berkeley) статистиката показва, че мъжете имат по-висок процент прием от жените общо, но когато се разгледа отделно по факултети, повечето факултети приемат жените с по-висок или равен процент. Разликата идва от това, че жените са кандидатствали масово в силно конкурентни факултети с по-нисък общ приемен процент.
- Медицински лечения: Има известни случаи (например спор около лечението на бъбречни камъни), в които един метод дава по-добър резултат както при малки, така и при големи камъни, но при обединяване на данните другият метод изглежда по-добър — заради различното разпределение на тежките случаи между двата метода.
- Спортни статистики и социални изследвания: различното разпределение на игрите, опонентите или демографските групи често води до интуитивно противоречие между агрегирани статистики и статистики по подгрупи.
Кога трябва да внимаваме
Парадоксът на Симпсън е предупреждение, че агрегирани данни могат да скрият важна структура. Особено рисковано е да се правят причинно-следствени изводи само върху база агрегирани честоти. Трябва да внимаваме, когато:
- Има очевидни подгрупи (възрастови, пол, стадий на болест, департаменти и т.н.).
- Разпределението между тези подгрупи не е равно за сравняваните категории.
- Очакваме наличие на скрити променливи, които влияят и на причината, и на резултата.
Как да се избегнат грешни изводи
Практически подходи за разгадаване и предотвратяване на погрешни заключения:
- Стратификация: разглеждайте и представяйте данните за релевантните подгрупи отделно.
- Анализ с контрол на конфундерите: използвайте регресионни модели, Mantel–Haenszel корекции, propensity scores и други методи за статистическо контролиране.
- Кауза́лни модели: прилагайте диаграми на причинните връзки (DAGs) и подходи от каузалния анализ (напр. по Джуд Пърл), за да формулирате кои променливи трябва да се контролират, за да получите правилна причинно-следствена оценка.
- Рандомизация: когато е възможно, рандомизираните контролирани изпитвания намаляват риска от скрити конфундери.
- Прозрачна визуализация: показвайте както агрегирани, така и разбити по подгрупи резултати — графики и таблици помагат да се видят несъответствията.
Значение
Парадоксът на Симпсън не е рядък статистически куриоз — той е важен практически урок: данните трябва да се анализират внимателно, да се търсят възможни скрити променливи и да се използват подходящи методи за контрол. Неправилната интерпретация може да доведе до грешни решения в политика, медицина и бизнес.
За по-задълбочено разбиране е полезно да се изучат примери от литературата по каузален анализ и статистическо моделиране, както и конкретни исторически случаи (Berkeley admission, лечения за бъбречни камъни и др.).
Пример: Лечение на камъни в бъбреците
Това е реален пример от медицинско проучване, в което се сравнява успеваемостта на две лечения на камъни в бъбреците.
В таблицата са показани процентите на успеваемост и броят на леченията при лечение на малки и големи камъни в бъбреците, като лечение А включва всички отворени процедури, а лечение Б - перкутанна нефролитотомия:
| Лечение А | Лечение В | |||
| успех | отказ | успех | отказ | |
| Малки камъни | Група 1 | Група 2 | ||
| брой пациенти | 81 | 6 | 234 | 36 |
| 93% | 7% | 87% | 13% | |
| Големи камъни | Група 3 | Група 4 | ||
| брой пациенти | 192 | 71 | 55 | 25 |
| 73% | 27% | 69% | 31% | |
| И двата сайта | Група 1+3 | Група 2+4 | ||
| брой пациенти | 273 | 77 | 289 | 61 |
| 78% | 22% | 83% | 17% | |
Парадоксалното заключение е, че лечението А е по-ефективно, когато се използва при малки камъни, както и при големи камъни, но лечението Б е по-ефективно, когато се разглеждат едновременно и двата размера. В този пример не е известно, че размерът на камъка в бъбреците влияе върху резултата. В статистиката това се нарича скрита променлива (или прикрита променлива).
Кое лечение се счита за по-добро, се определя от неравенството между две съотношения (успехи/общо). Обръщането на неравенството между съотношенията, което създава парадокса на Симпсън, се случва, защото два ефекта се проявяват заедно:
- Размерите на групите, които се комбинират, когато се пренебрегне променливата "дебнене", са много различни. Лекарите са склонни да дават на тежките случаи (големи камъни) по-доброто лечение (А), а на по-леките случаи (малки камъни) - по-лошото лечение (Б). Поради това общите стойности са доминирани от групи три и две, а не от двете много по-малки групи едно и четири.
- Променливата "lurking" оказва голямо влияние върху съотношенията, т.е. процентът на успеваемост се влияе по-силно от тежестта на случая, отколкото от избора на лечение. Следователно групата пациенти с големи камъни, използващи лечение А (трета група), се справя по-зле от групата с малки камъни, дори ако последните са използвали по-лошото лечение В (втора група).
обискирам