Закон за големите числа в статистиката — обяснение и примери

Разберете Закона за големите числа: ясно обяснение, интуитивни примери с хвърляне на зар, графики и практични приложения в статистиката.

Автор: Leandro Alegsa

Законът за големите числа (ЗГЧ) е теорема от статистиката. Разгледайте някакъв процес, в който се случват случайни резултати. Например една случайна величина се наблюдава многократно. Тогава средната стойност на наблюдаваните стойности ще бъде стабилна в дългосрочен план. Това означава, че в дългосрочен план средната стойност на наблюдаваните стойности ще се приближава все повече до очакваната стойност.

При хвърляне на зарове числата 1, 2, 3, 4, 5 и 6 са възможните резултати. Всички те са еднакво вероятни. Средната стойност на популацията (или "очакваната стойност") на резултатите е:

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5.

Следващата графика показва резултатите от експеримент с хвърляния на зар. При този експеримент се вижда, че средната стойност на хвърлянията на заровете първоначално варира в широки граници. Както се предвижда от LLN, средната стойност се стабилизира около очакваната стойност от 3,5, когато броят на наблюденията стане голям.

A demonstration of the Law of Large Numbers using die rolls

Какво точно гласи Законът за големите числа

В неформален смисъл ЗГЧ твърди: ако повтаряме независими опити от един и същи тип (напр. хвърляне на зар, хвърляне на монета, измерване на физическа величина) и изчисляваме средната стойност на резултатите, то с увеличаването на броя на опитите тази средна ще се доближава до истинската (очакваната) стойност на разпределението.

Има две основни формулировки, които често се споменават:

  • Слаб закон на големите числа (Weak Law) — казва, че средната стойност на n наблюдения (sample mean) се приближава към очакването по вероятност, т.е. за всяко ε > 0 вероятността средната да се отклонява от очакването с повече от ε отива към 0, когато n → ∞.
  • Силен закон на големите числа (Strong Law) — по-силен резултат: средната стойност се доближава към очакването почти сигурно (с вероятност 1). Това означава, че траекторията на средните почти винаги ще конвергира към очакваната стойност.

Формули в близък до учебник стил

Нека X1, X2, ..., Xn са независими и идентично разпределени (i.i.d.) случайни величини с очакване E[X1] = μ (крайно число). Обозначим sample mean със S_n = (X1 + X2 + ... + Xn) / n. Тогава:

  • (Слаб ЗГЧ) S_n → μ в вероятност, когато n → ∞.
  • (Силен ЗГЧ) S_n → μ почти сигурно, когато n → ∞.

Условия и изключения

  • За класическата версия обичайно се изисква независимост и еднакво разпределение и крайно очакване. Има и по-общи версии, които позволяват слаба зависимост или различни разпределения при допълнителни условия.
  • ЗГЧ не дава скоростта на сближаване — само гарантира, че сближаването ще настъпи. За информация за скоростта се използва централната гранична теорема (ЦГТ), която гласи, че отклонението на сумата около средната е от порядъка на sqrt(n).
  • Ако случайните величини нямат крайно очакване (пример: Коши разпределение), ЗГЧ може да не важи.

Интуиция и пример със зар

Интуитивно, когато броят на наблюденията е малък, случайни колебания могат да дадат средна, различна от очакването. С нарастване на n тези случайни отклонения се "усредняват" и влиянието на отделни екстремни стойности намалява, затова средната стойност се приближава до μ.

В примера със заровете очакваната стойност е 3.5. Ако хвърлите зара 10 пъти, средната може да е 4.2 или 2.8 — това е нормално. Ако хвърлите зара 10 000 пъти, средната ще бъде много близко до 3.5 — това е ефектът, описан от ЗГЧ.

Практически приложения

  • В застраховането и финансите: рискът на портфейл от много независими експозиции обикновено може да се предвиди по-точнее, защото средните загуби стабилизират.
  • В социологически проучвания и изборни анкети: със засилване на размера на извадката оценките (процентите) стават по-стабилни и по-близки до истинските пропорции в популацията.
  • Всимулации и експерименти: повтаряне на експеримент много пъти дава по-точна оценка на очакваната стойност на интересна величина.

Чести грешки при тълкуване

  • Гемблерска заблуда (gambler's fallacy): ЗГЧ не означава, че след серия от "неуспешни" резултати следва задължително да се появи "успех" — индивидуалните събития остават независими, докато средната на много събития се стабилизира.
  • ЗГЧ говори за средните или относителните честоти при голям брой повторения, а не за единични случаи.
  • Не всяко разпределение гарантира ЗГЧ — трябва да са изпълнени съответните условия (напр. крайно очакване).

Кратка идея за доказателство

  • За слабия закон често се използва неравенството на Чебишев: Var(S_n) = Var(X1)/n, което показва, че вероятността S_n да се отклони от μ с повече от ε намалява като 1/n и следователно отива към 0.
  • За силния закон има по-технични аргументи (напр. използване на неравенството на Борел–Кантели и редица условия за сближаване почти сигурно). Тези доказателства показват, че с вероятност 1 само крайно много "лоши" отклонения могат да настъпят.

Обобщение

Законът за големите числа е основен резултат, който осигурява връзката между емпиричните (наблюдаваните) средни и теоретичните очаквания при многократно повтаряне на случайни опити. Той е основа за статистическата индукция, оценките на параметри и много практически приложения, но трябва да се прилага внимателно, като се имат предвид условията за валидност и разликата между "средна стойност" и "отделен резултат".

История

Якоб Бернули пръв описва LLN. Той казва, че тя е толкова проста, че и най-глупавият човек инстинктивно знае, че е вярна. Въпреки това му отнема повече от 20 години, за да разработи добро математическо доказателство. След като го открива, той публикува доказателството в Ars Conjectandi (Изкуството да се предполага) през 1713 г. Нарекъл го е "Златната теорема". През 1835 г. С. Д.Поасон я описва допълнително под името "La loi des grands nombres" (Законът за големите числа). Впоследствие той е известен и под двете имена, но най-често се използва "Законът за големите числа".

Други математици също допринасят за подобряването на закона. Някои от тях са Чебишев, Марков, Борел, Кантели и Колмогоров. След тези изследвания сега съществуват две различни форми на закона: Едната се нарича "слаб" закон, а другата - "силен" закон. Тези форми не описват различни закони. Те имат различни начини за описване на сближаването на наблюдаваната или измерената вероятност с действителната вероятност. Силната форма на закона предполага слабата.

Въпроси и отговори

В: Какво представлява законът за големите числа?


О: Законът за големите числа е статистическа теорема, която гласи, че ако даден случаен процес се наблюдава многократно, то средната стойност на наблюдаваните стойности ще бъде стабилна в дългосрочен план.

В: Какво означава законът за големите числа?


О: Законът за големите числа означава, че с увеличаването на броя на наблюденията средната стойност на наблюдаваните стойности ще се приближава все повече до очакваната стойност.

В: Какво е очаквана стойност?


О: Очакваната стойност е средната стойност на популацията на резултатите от един случаен процес.

В: Каква е очакваната стойност на хвърлянето на зар?


О: Очакваната стойност на хвърлянето на зар е сумата на възможните резултати, разделена на броя на резултатите: (1+2+3+4+5+6)/6=3,5.

В: Какво показва графиката в текста във връзка със закона за големите числа?


О: Графиката показва, че средната стойност на хвърлянето на зарове отначало варира бясно, но както предсказва законът за големите числа, средната стойност се стабилизира около очакваната стойност 3,5, когато броят на наблюденията стане голям.

Въпрос: Как се прилага законът за големите числа при хвърлянето на зарове?


О: Законът за големите числа се прилага при хвърлянето на зарове, защото с увеличаването на броя на хвърлянията средната стойност на хвърлянията все повече се доближава до очакваната стойност 3,5.

В: Защо законът за големите числа е важен в статистиката?


О: Законът за големите числа е важен за статистиката, защото осигурява теоретична основа за идеята, че данните имат тенденция да се усредняват при голям брой наблюдения. Той е в основата на много статистически методи, като доверителни интервали и проверка на хипотези.


обискирам
AlegsaOnline.com - 2020 / 2025 - License CC3