Статистически грешки и остатъци: какво са, разлики и примери

Научете ясно разликите между статистически грешки и остатъци с прости примери, формули и практични съвети за анализ и моделиране на данни.

Автор: Leandro Alegsa

Статистическите грешки и остатъците се появяват, защото измерването никога не е абсолютно точно. В практиката винаги има разлика между това, което наблюдаваме, и „истинската“ (но неизвестна) стойност. Разбирането на разликата между статистическа грешка и остатък е важно както за описателната статистика, така и за оценяването на модели (напр. линейна регресия).

Какво е статистическа грешка?

Статистическата грешка (често обозначавана с ε или с думата "истинска грешка") е разликата между наблюдаваната/измерената стойност и действителната, но ненаблюдавана стойност на популацията. Тази грешка е теоретична, защото истинската стойност на популацията обикновено не е известна. Когато има само една случайна променлива, статистическата грешка за даден наблюдаван елемент е разликата между наблюдаваната стойност и средната стойност на популацията.

Пример: прави се експеримент за измерване на височината на 21-годишни мъже от определен район. Ако средната стойност на популацията (истинската средна височина) е 1,75 m, тогава за мъж с височина 1,80 m статистическата грешка е 0,05 m, а за мъж с височина 1,70 m — -0,05 m.

Какво е остатък (residual)?

Остатъкът е наблюдаема оценка на ненаблюдаемата статистическа грешка. Когато оценяваме параметри по данни (напр. използваме средната стойност на извадката за оценка на средната стойност на популацията), остатъкът за дадено наблюдение е разликата между наблюдаваната стойност и оценката, получена от данните.

В най-простия случай, ако имаме извадка от n индивида и използваме средната стойност на извадката X̄ като оценка на популационната средна μ, тогава:

  • Статистическата грешка за наблюдение i е: ε_i = X_i − μ (μ е неизвестна).
  • Остатъкът за наблюдение i е: e_i = X_i − X̄ (X̄ е наблюдаема и изчислима).

Разликата е, че ε_i е теоретична (зависи от неизвестната μ), а e_i е реално изчисляема стойност, която използваме, за да оценим ε_i.

Свойства и ключови разлики

  • Наблюдаемост: Остатъците e_i са наблюдаеми (изчисляват се от данните). Статистическите грешки ε_i не са наблюдаеми, защото включват неизвестните параметри на популацията.
  • Сума: Сумата от остатъците в рамките на една извадка, когато оценката включва константен член (напр. средна стойност или регресионна линия с пресечка), е равна на нула: Σ e_i = 0. Това води до зависимост между остатъците — те не са независими.
  • Очакване: Ако моделът/оценката е правилна, математическото очакване на статистическите грешки е 0: E(ε_i) = 0. Остатъците обикновено имат средно 0 по конструкция (особено при включен пресечен член).
  • Варианс и несигурност: Вариансът на остатъците подценява истинската дисперсия, ако не компенсираме степените на свобода. При оценяване на дисперсията на популацията използваме деление на (n−1) вместо n, за да получим несмазан оценител.
  • Зависимост: Докато ε_i са често приемани за независими (ако индивидите са избрани независимо), остатъците e_i са свързани (сумата им е 0), следователно не са независими.

Примери в регресия и оценяване

В линейната регресия с наблюдавани стойности y_i и предсказани стойности ŷ_i остатъкът e_i = y_i − ŷ_i. При метода на най-малките квадрати (OLS) остатъците имат допълнителни полезни свойства: Σ e_i = 0 и Σ x_i e_i = 0 (остатъците са ортогонални на използваните регресори, ако е включен константен член). Тези свойства служат при извеждане на стандартни грешки и статистически тестове.

Практическо значение: въпреки че остатъците са полезни за диагностика (напр. проверка за хомоскедастичност, нормалност, автокорелация), те не са пълна заместител на истинските грешки — те са оценка и могат да скрият отклонения, ако моделът е неправилен.

Допълнителни бележки

  • Измервателни грешки (noise) са част от ε_i и описват случайни колебания при самото измерване.
  • Систематични грешки (bias) не са случайни и не стават нулеви в очакване; те водят до отклонение на оценката от истината и не се отразяват само в случайни остатъци.
  • Оценка на дисперсията: За оценяване на дисперсията на популацията от извадка се използва несмазан оценител с деление на (n−1) — това компенсира факта, че използваме извадъчната средна като оценка на популационната.

В практическата работа често разграничаваме: грешките ε_i представляват „какво наистина се случва в популацията“, докато остатъците e_i са това, което можем да изчислим от нашите данни и да използваме за диагностика и оценяване.

В обобщение:

  • Статистическа грешка (ε) — разликата между наблюдаваната стойност и истинската (ненаблюдавана) стойност; теоретична, често предполагаема независимост и E(ε)=0.
  • Остатък (e) — разликата между наблюдаваната стойност и оценената (напр. извадъчната средна или предсказаната стойност); наблюдаем, сумата на остатъците обикновено е 0 и те са зависими помежду си.
  • Остатъците са полезни за оценяване и диагностика, но трябва да се използват внимателно, защото не винаги отразяват напълно свойствата на ненаблюдаемите статистически грешки.

Свързани страници

Въпроси и отговори

Въпрос: Какво се разбира под статистически грешки и остатъчни стойности?


О: Статистическите грешки и остатъците се отнасят до разликата между наблюдаваната или измерената стойност и реалната стойност, която е неизвестна.

В: Как може да се измери точността на измерване?


О: Може да се измери едно и също нещо отново и отново и да се съберат всички данни. Това ни позволява да направим статистика на данните, за да определим колко точно е измерването.

В: Какъв е примерът за статистическа грешка?


О: Пример за статистическа грешка е, ако се проведе експеримент за измерване на височината на 21-годишни мъже от определен район с очаквана средна стойност 1,75 м, но един мъж, избран на случаен принцип, е висок 1,80 м; тогава "(статистическата) грешка" ще бъде 0,05 м (5 см).

Въпрос: Какъв е примерът за остатъчна величина?


О: Пример за остатъчна величина би бил, ако е проведен експеримент за измерване на височината на 21-годишни мъже от определен район с очаквана средна стойност 1,75 м, но един случайно избран мъж е бил висок 1,70 м; тогава остатъчната величина (или грешката при напасване) би била -0,05 м (-5 см).

Въпрос: Остатъците независими променливи ли са?


О: Не, сумата на остатъците в рамките на една случайна извадка трябва да бъде нула, така че те не са независими променливи.

В: Статистическите грешки независими променливи ли са?


О: Да, сумата на статистическите грешки в рамките на една случайна извадка не трябва да бъде нула; следователно те са независими случайни променливи, ако индивидите са избрани от популацията независимо.

В: Възможно ли е да се направят точни измервания?


О: Не, не е възможно да се направят точни измервания, защото измерването никога не е точно.


обискирам
AlegsaOnline.com - 2020 / 2025 - License CC3