t-разпределението на Стюдънт е вероятностно разпределение, което е разработено от Уилям Сили Госет през 1908 г. Студентът е псевдонимът, който той използва, когато публикува статията, описваща разпределението.
Нормалното разпределение описва цялата популация, а t-разпределенията описват извадки, взети от цялата популация; съответно t-разпределението за всеки размер на извадката е различно и колкото по-голяма е извадката, толкова повече разпределението прилича на нормално разпределение.
t-разпределението играе важна роля в много широко използвани статистически анализи, включително t-теста на Стюдънт за оценка на статистическата значимост на разликата между две средни стойности на извадката, за построяване на доверителни интервали за разликата между две средни стойности на популацията и в линейния регресионен анализ. Т-разпределението на Стюдънт се използва и при бейсовския анализ на данни от нормално семейство.
Дефиниция
t-разпределението на Стюдънт (или просто t-разпределение) е симетрично, еднопиково разпределение с център 0, което зависи от параметър, наречен степен на свобода (обозначава се с ν или df). Една формула за плътността на вероятността при произволна стойност t е:
f(t; ν) = Γ((ν+1)/2) / (sqrt(νπ) · Γ(ν/2)) · (1 + t²/ν)^{-(ν+1)/2},
където Γ е гамма-функцията и ν > 0 е степента на свобода.
Кога възниква
t-разпределението обикновено се използва при оценяване на средна стойност на нормално разпределена популация, когато дисперсията на популацията е неизвестна и трябва да се използва оценка от извадката. При извадка с размер n, най-често степента на свобода за тестове и доверителни интервали за средна стойност е ν = n − 1.
Основни свойства
- Симетрия: разпределението е симетрично около 0.
- По-дебели опашки от нормалното: t-разпределението има по-голяма вероятност за крайни (отдалечени) стойности отколкото нормалното разпределение — това отразява допълнителната несигурност, когато σ е неизвестна.
- Зависимост от ν: за ниски ν опашките са много дебели; с нарастване на ν разпределението приближава нормалното. В предела ν → ∞ получаваме стандартното нормално разпределение.
- Моменти: средната стойност е 0 за ν > 1; дисперсията е ν/(ν − 2) за ν > 2 (за 1 < ν ≤ 2 дисперсията е безкрайна; за ν ≤ 1 и някои моменти не съществуват).
- Медиана и модус: при симетрия медианата и модусът са 0.
Приложения
- t-тест на Стюдънт: сравняване на средната стойност на извадка с дадена стойност (едновариантен t-тест) или сравняване на средни стойности между две групи (двувариантен t-тест), когато вариациите са неизвестни.
- Доверителни интервали за средна стойност: когато σ е неизвестна, доверителният интервал за популационната средна μ е:
x̄ ± t_{α/2, ν} · (s / sqrt(n)),
където x̄ е средната на извадката, s е стандартното отклонение на извадката, n — размерът на извадката, а t_{α/2, ν} е критичната стойност на t-разпределението с ν степени на свобода.
- Регресионен анализ: при линейна регресия се използва t-разпределението за тестване на значимостта на отделни коефициенти, когато грешките са нормално разпределени и дисперсията се оценява от данните.
- Байесовски анализ: t-разпределението се появява в постериорни разпределения и като модел за наблюдения с по-тежки опашки (robust regression), например когато използваме t-ошибка вместо нормална грешка.
Практически бележки и изчисления
- За малки извадки (напр. n < 30) е важно да се използва t-разпределението, а не нормалното, когато σ е неизвестна.
- Критичните стойности t_{α/2, ν} се намират в таблици на t-разпределението или чрез софтуерни пакети (R, Python — scipy.stats.t, статистически калкулатори).
- При много големи ν (например n ≥ 100) разликата между t и нормалното разпределение е минимална и често се използват нормални приближения.
Примери
1) Доверителен интервал при n = 15: ако x̄ = 10, s = 2 и α = 0.05, тогава ν = 14 и се използва t_{0.025,14} за построяване на 95% доверителен интервал.
2) t-тест за разлика между две средни: когато сравняваме средните на две независими групи и дисперсиите се приемат равни или неравни, има варианти на t-теста (с обща или с непропорционална оценка на дисперсиите — Welch's t-test).
Отношение към други разпределения
- В предела ν → ∞, t-разпределението се свива към стандартното нормално разпределение.
- t-разпределението може да се разглежда като отношение между стандартно нормална променлива и корен от скалирана χ²-променлива: ако Z ~ N(0,1) и U ~ χ²(ν) независимо, тогава T = Z / sqrt(U/ν) има t-разпределение с ν степени на свобода.
t-разпределението на Стюдънт е фундаментален инструмент в инференциалната статистика, особено когато работим с ограничени по размер извадки и непълна информация за дисперсията на популацията.