Централна гранична теорема (CLT): определение, формула и приложения
Централна гранична теорема (CLT) — ясно определение, ключова формула и практични приложения; разбираемо обяснение на нормалното разпределение, примери и условия (Линдеберг, Ляпунов).
В теорията на вероятностите и статистиката централните гранични теореми, наричани съкратено CLT, са теореми за граничното поведение на агрегирани вероятностни разпределения. Те казват, че при голям брой независими случайни величини тяхната сума ще следва стабилно разпределение. Ако дисперсията на случайните величини е крайна, тогава ще се получи Гаусово разпределение. Това е една от причините, поради които това разпределение е известно и като нормално разпределение.
Най-известната и най-важната от тях е известна като централна гранична теорема. Тя се отнася за голям брой случайни величини с едно и също разпределение, всяка от които има идентична крайна дисперсия и очаквана стойност.
По-конкретно, ако са n идентични и независимо разпределени случайни величини със средна стойност
и стандартно отклонение
, то разпределението на тяхната средна стойност в извадката,
, тъй като n става голямо, е приблизително нормално със средна стойност
и стандартно отклонение
. Освен това разпределението на тяхната сума,
, тъй като n става голямо, също е приблизително нормално, със средна стойност
и стандартно отклонение
.
Съществуват различни обобщения на тази теорема. Някои от тези обобщения вече не изискват идентично разпределение на всички случайни величини. В тези обобщения друго предварително условие гарантира, че нито една случайна променлива няма по-голямо влияние върху резултата от останалите. Примери за това са условията на Линдеберг и Ляпунов.
Името на теоремата се основава на статията на Джордж Поля, написана през 1920 г., "За централната гранична теорема в теорията на вероятностите и проблема за момента".
Формално формулиране (стандартна версия)
Нека X1, X2, ... са независими и идентично разпределени (i.i.d.) случайни величини с средна стойност μ и дисперсия σ^2 < ∞. Обозначим Sn = X1 + ... + Xn. Тогава
(Sn − nμ) / (σ √n) се приближава в закон към стандартното нормално разпределение N(0,1) когато n → ∞.
Еквивалентно, за средната стойност в извадката X̄n = Sn / n имаме, че X̄n е приблизително нормално разпределена с очакване μ и стандартно отклонение σ / √n за големи n.
Условия и общи варианти
- Идентични и независими (i.i.d.) — класическата и най-проста формулировка изисква независимост и еднакво разпределение с крайни първи два момента.
- Линдеберг-Фелер — обобщение за независими, но не задължително идентично разпределени величини. Линдеберг условието гарантира, че няма индивид, който да доминира сумата.
- Условие на Ляпунов — по-лесно за проверка условие (с използване на момент от порядък 2+δ), което също осигурява CLT за нееднакви разпределения.
- Триъгълни масиви и martingale-CLT — има версии за зависимости от ограничен тип (напр. мартигали) или за случаи, когато членовете се променят с n.
- Мултивариантна CLT — векторна версия, която гласи, че нормализираните векторни суми също конвергират към многомерно нормално разпределение.
Скорост на сближаване и точност
CLT дава асимптотично приближение, но не казва колко бързо настъпва това приближение. Berry–Esseen теоремата дава граница на разликата между функцията на разпределение на нормализираната сума и N(0,1) от порядъка C·ρ/√n, където ρ зависи от третия централен момент на X i и C е константа. Това позволява практическа оценка на това колко голям трябва да е n, за да е нормалното приближение добро.
Идея на доказателствата
- Един от най-често използваните методи е чрез характеристични функции (Фурие трансформации на разпределенията): характеристичната функция на сумата е произведение от характеристичните функции на отделните членове, и при подходяща нормализация това произведение клони към характеристичната функция на нормалното разпределение exp(−t^2/2).
- Други подходи използват моментите или методите на кумулантите; за по-общи версии (като Линдеберг) се използват по-тънки оценки на малките вероятности.
Примери и приложения
- Двоен хвърляне (биново разпределение): Биномиално разпределение Bin(n, p) има средна np и дисперсия np(1−p). Специален случай на CLT (де Моавър–Лаплас) дава, че за голям n Bin(n,p) ≈ N(np, np(1−p)). Това е основата на много приблизителни тестове и интервали за пропорции.
- Оценки и интервали на доверие: CLT е причината, поради която средната стойност на извадката има приблизително нормално разпределение за големи n, което позволява изграждането на доверителни интервали и хипотези за средни стойности.
- Монте Карло методи: при симулации средното от много независими симулации се приближава до нормално, позволявайки оценка на грешката на симулациите.
- Качество на производството и контрол: агрегирани измервания и средни стойности често се моделират нормално, дори когато отделните измервания не са нормални.
Ограничения и изключения
CLT изисква крайна дисперсия. При разпределения с тежки опашки (например Коши), за които дисперсията е безкрайна, нормално приближение не важи; вместо това сумите могат да конвергират към алфа-стабилни разпределения (Levy α-stable). Поради това при практическо приложение е важно да се прецени дали данните имат много тежки опашки.
Кратка историческа бележка
Идеята, че сума от много случайни влияния води към "камшоцоподобна" (колокоподобна) форма, се появява още в работите на де Муавр и Лаплас (за биномиалното разпределение). Съвременната, обща форма и названието "централна гранична теорема" са били оформени и изучени от множество математици; в статията на Джордж Поля от 1920 г. се обсъжда централната гранична теорема и нейното отношение към моментите, което допринася за утвърждаване на термина.
Практическа бележка
В приложението на CLT в практиката винаги е добре да се проверят: дали извадката е достатъчно голяма, дали отделните наблюдения са (приблизително) независими и дали данните не показват екстремни тежки опашки. Когато n е умерено малко, често се предпочитат точни или бутстреп методи, или се използват поправки (напр. t-разпределение за неизвестна дисперсия при нормално население).
Свързани страници
Въпроси и отговори
В: Какво представлява централната гранична теорема?
О: Централната гранична теорема (ЦГТ) е теорема за граничното поведение на агрегирани вероятностни разпределения. Тя гласи, че при голям брой независими случайни величини тяхната сума ще следва стабилно разпределение. Ако дисперсията на случайните променливи е крайна, тогава ще се получи Гаусово разпределение.
Въпрос: Кой е написал статията, на която се основава тази теорема?
О: През 1920 г. Джордж Пَля написва статията "За централната гранична теорема в теорията на вероятностите и проблема за момента", която служи за основа на тази теорема.
Въпрос: Какъв тип разпределение се получава, когато всички случайни величини имат крайна дисперсия?
О: Когато всички случайни променливи имат крайна дисперсия, в резултат на прилагането на CLT ще се получи Гаусово или нормално разпределение.
В: Има ли някакви обобщения на CLT?
О: Да, има различни обобщения на CLT, които вече не изискват идентично разпределение на всички случайни променливи. Тези обобщения включват условията на Линдеберг и Ляпунов, които гарантират, че нито една случайна променлива няма по-голямо влияние върху резултата от другите.
Въпрос: Как работят тези обобщения?
О: Тези обобщения гарантират, че нито една случайна променлива не оказва по-голямо влияние върху резултата от другите, като въвеждат допълнителни предварителни условия, като например условията на Линдеберг и Ляпунов.
Въпрос: Какво казва CLT за средната стойност на извадката и сумата на голям брой независими случайни величини с едно и също разпределение?
О: Според CLT, ако n идентични и независимо разпределени случайни величини със средна стойност ى {\displaystyle \mu } и стандартно отклонение َ {\displaystyle \sigma } , то средната им стойност в извадката (X1+...+Xn)/n ще бъде приблизително нормална със средна стойност ى {\displaystyle \mu } и стандартно отклонение َ/√n {\displaystyle {\tfrac {\sigma }{\sqrt {n}}}} . Освен това тяхната сума X1+...+Xn също ще бъде приблизително нормална със средна стойност nى {\displaystyle n\mu } и стандартно отклонение √nَ {\displaystyle {\sqrt {n}}\sigma } .
обискирам