Статистическите грешки и остатъците се появяват, защото измерването никога не е абсолютно точно. В практиката винаги има разлика между това, което наблюдаваме, и „истинската“ (но неизвестна) стойност. Разбирането на разликата между статистическа грешка и остатък е важно както за описателната статистика, така и за оценяването на модели (напр. линейна регресия).
Какво е статистическа грешка?
Статистическата грешка (често обозначавана с ε или с думата "истинска грешка") е разликата между наблюдаваната/измерената стойност и действителната, но ненаблюдавана стойност на популацията. Тази грешка е теоретична, защото истинската стойност на популацията обикновено не е известна. Когато има само една случайна променлива, статистическата грешка за даден наблюдаван елемент е разликата между наблюдаваната стойност и средната стойност на популацията.
Пример: прави се експеримент за измерване на височината на 21-годишни мъже от определен район. Ако средната стойност на популацията (истинската средна височина) е 1,75 m, тогава за мъж с височина 1,80 m статистическата грешка е 0,05 m, а за мъж с височина 1,70 m — -0,05 m.
Какво е остатък (residual)?
Остатъкът е наблюдаема оценка на ненаблюдаемата статистическа грешка. Когато оценяваме параметри по данни (напр. използваме средната стойност на извадката за оценка на средната стойност на популацията), остатъкът за дадено наблюдение е разликата между наблюдаваната стойност и оценката, получена от данните.
В най-простия случай, ако имаме извадка от n индивида и използваме средната стойност на извадката X̄ като оценка на популационната средна μ, тогава:
- Статистическата грешка за наблюдение i е: ε_i = X_i − μ (μ е неизвестна).
- Остатъкът за наблюдение i е: e_i = X_i − X̄ (X̄ е наблюдаема и изчислима).
Разликата е, че ε_i е теоретична (зависи от неизвестната μ), а e_i е реално изчисляема стойност, която използваме, за да оценим ε_i.
Свойства и ключови разлики
- Наблюдаемост: Остатъците e_i са наблюдаеми (изчисляват се от данните). Статистическите грешки ε_i не са наблюдаеми, защото включват неизвестните параметри на популацията.
- Сума: Сумата от остатъците в рамките на една извадка, когато оценката включва константен член (напр. средна стойност или регресионна линия с пресечка), е равна на нула: Σ e_i = 0. Това води до зависимост между остатъците — те не са независими.
- Очакване: Ако моделът/оценката е правилна, математическото очакване на статистическите грешки е 0: E(ε_i) = 0. Остатъците обикновено имат средно 0 по конструкция (особено при включен пресечен член).
- Варианс и несигурност: Вариансът на остатъците подценява истинската дисперсия, ако не компенсираме степените на свобода. При оценяване на дисперсията на популацията използваме деление на (n−1) вместо n, за да получим несмазан оценител.
- Зависимост: Докато ε_i са често приемани за независими (ако индивидите са избрани независимо), остатъците e_i са свързани (сумата им е 0), следователно не са независими.
Примери в регресия и оценяване
В линейната регресия с наблюдавани стойности y_i и предсказани стойности ŷ_i остатъкът e_i = y_i − ŷ_i. При метода на най-малките квадрати (OLS) остатъците имат допълнителни полезни свойства: Σ e_i = 0 и Σ x_i e_i = 0 (остатъците са ортогонални на използваните регресори, ако е включен константен член). Тези свойства служат при извеждане на стандартни грешки и статистически тестове.
Практическо значение: въпреки че остатъците са полезни за диагностика (напр. проверка за хомоскедастичност, нормалност, автокорелация), те не са пълна заместител на истинските грешки — те са оценка и могат да скрият отклонения, ако моделът е неправилен.
Допълнителни бележки
- Измервателни грешки (noise) са част от ε_i и описват случайни колебания при самото измерване.
- Систематични грешки (bias) не са случайни и не стават нулеви в очакване; те водят до отклонение на оценката от истината и не се отразяват само в случайни остатъци.
- Оценка на дисперсията: За оценяване на дисперсията на популацията от извадка се използва несмазан оценител с деление на (n−1) — това компенсира факта, че използваме извадъчната средна като оценка на популационната.
В практическата работа често разграничаваме: грешките ε_i представляват „какво наистина се случва в популацията“, докато остатъците e_i са това, което можем да изчислим от нашите данни и да използваме за диагностика и оценяване.
В обобщение:
- Статистическа грешка (ε) — разликата между наблюдаваната стойност и истинската (ненаблюдавана) стойност; теоретична, често предполагаема независимост и E(ε)=0.
- Остатък (e) — разликата между наблюдаваната стойност и оценената (напр. извадъчната средна или предсказаната стойност); наблюдаем, сумата на остатъците обикновено е 0 и те са зависими помежду си.
- Остатъците са полезни за оценяване и диагностика, но трябва да се използват внимателно, защото не винаги отразяват напълно свойствата на ненаблюдаемите статистически грешки.