t-разпределение на Стюдънт: дефиниция, свойства и приложения
t-разпределение на Стюдънт: дефиниция, ключови свойства и практични приложения — t-тест, доверителни интервали и регресия. Научете кога и как да го използвате.
t-разпределението на Стюдънт е вероятностно разпределение, което е разработено от Уилям Сили Госет през 1908 г. Студентът е псевдонимът, който той използва, когато публикува статията, описваща разпределението.
Нормалното разпределение описва цялата популация, а t-разпределенията описват извадки, взети от цялата популация; съответно t-разпределението за всеки размер на извадката е различно и колкото по-голяма е извадката, толкова повече разпределението прилича на нормално разпределение.
t-разпределението играе важна роля в много широко използвани статистически анализи, включително t-теста на Стюдънт за оценка на статистическата значимост на разликата между две средни стойности на извадката, за построяване на доверителни интервали за разликата между две средни стойности на популацията и в линейния регресионен анализ. Т-разпределението на Стюдънт се използва и при бейсовския анализ на данни от нормално семейство.
Дефиниция
t-разпределението на Стюдънт (или просто t-разпределение) е симетрично, еднопиково разпределение с център 0, което зависи от параметър, наречен степен на свобода (обозначава се с ν или df). Една формула за плътността на вероятността при произволна стойност t е:
f(t; ν) = Γ((ν+1)/2) / (sqrt(νπ) · Γ(ν/2)) · (1 + t²/ν)^{-(ν+1)/2},
където Γ е гамма-функцията и ν > 0 е степента на свобода.
Кога възниква
t-разпределението обикновено се използва при оценяване на средна стойност на нормално разпределена популация, когато дисперсията на популацията е неизвестна и трябва да се използва оценка от извадката. При извадка с размер n, най-често степента на свобода за тестове и доверителни интервали за средна стойност е ν = n − 1.
Основни свойства
- Симетрия: разпределението е симетрично около 0.
- По-дебели опашки от нормалното: t-разпределението има по-голяма вероятност за крайни (отдалечени) стойности отколкото нормалното разпределение — това отразява допълнителната несигурност, когато σ е неизвестна.
- Зависимост от ν: за ниски ν опашките са много дебели; с нарастване на ν разпределението приближава нормалното. В предела ν → ∞ получаваме стандартното нормално разпределение.
- Моменти: средната стойност е 0 за ν > 1; дисперсията е ν/(ν − 2) за ν > 2 (за 1 < ν ≤ 2 дисперсията е безкрайна; за ν ≤ 1 и някои моменти не съществуват).
- Медиана и модус: при симетрия медианата и модусът са 0.
Приложения
- t-тест на Стюдънт: сравняване на средната стойност на извадка с дадена стойност (едновариантен t-тест) или сравняване на средни стойности между две групи (двувариантен t-тест), когато вариациите са неизвестни.
- Доверителни интервали за средна стойност: когато σ е неизвестна, доверителният интервал за популационната средна μ е:
x̄ ± t_{α/2, ν} · (s / sqrt(n)),
където x̄ е средната на извадката, s е стандартното отклонение на извадката, n — размерът на извадката, а t_{α/2, ν} е критичната стойност на t-разпределението с ν степени на свобода.
- Регресионен анализ: при линейна регресия се използва t-разпределението за тестване на значимостта на отделни коефициенти, когато грешките са нормално разпределени и дисперсията се оценява от данните.
- Байесовски анализ: t-разпределението се появява в постериорни разпределения и като модел за наблюдения с по-тежки опашки (robust regression), например когато използваме t-ошибка вместо нормална грешка.
Практически бележки и изчисления
- За малки извадки (напр. n < 30) е важно да се използва t-разпределението, а не нормалното, когато σ е неизвестна.
- Критичните стойности t_{α/2, ν} се намират в таблици на t-разпределението или чрез софтуерни пакети (R, Python — scipy.stats.t, статистически калкулатори).
- При много големи ν (например n ≥ 100) разликата между t и нормалното разпределение е минимална и често се използват нормални приближения.
Примери
1) Доверителен интервал при n = 15: ако x̄ = 10, s = 2 и α = 0.05, тогава ν = 14 и се използва t_{0.025,14} за построяване на 95% доверителен интервал.
2) t-тест за разлика между две средни: когато сравняваме средните на две независими групи и дисперсиите се приемат равни или неравни, има варианти на t-теста (с обща или с непропорционална оценка на дисперсиите — Welch's t-test).
Отношение към други разпределения
- В предела ν → ∞, t-разпределението се свива към стандартното нормално разпределение.
- t-разпределението може да се разглежда като отношение между стандартно нормална променлива и корен от скалирана χ²-променлива: ако Z ~ N(0,1) и U ~ χ²(ν) независимо, тогава T = Z / sqrt(U/ν) има t-разпределение с ν степени на свобода.
t-разпределението на Стюдънт е фундаментален инструмент в инференциалната статистика, особено когато работим с ограничени по размер извадки и непълна информация за дисперсията на популацията.
История
Госет работи в пивоварна и се интересува от проблемите на малките проби, например от химичните свойства на ечемика. В анализираните от него проблеми размерът на извадката може да бъде само три. Поради малкия размер на извадката не е възможно да се оцени стандартното отклонение. Освен това в много от случаите, с които се сблъсква Госет, вероятностното разпределение на извадките не е известно.
Една от версиите за произхода на псевдонима е, че работодателят на Гоше предпочитал служителите му да използват псевдоними (вместо истинското си име), когато публикуват научни статии, затова той използвал името "Студент", за да скрие самоличността си. Друга версия е, че пивоварната не е искала конкурентите ѝ да знаят, че използват t-теста за проверка на качеството на суровината.
Свойства
Ако вземем извадка от n наблюдения от нормално разпределение, тогава t-разпределението с ν = n-1 степени на свобода може да се определи като разпределение на местоположението на средната стойност на извадката спрямо истинската средна стойност
, разделено на стандартното отклонение на извадката
върху нормализиращия член
(т.е.
). По този начин t-разпределението може да се използва за оценка на вероятността истинската средна стойност да се намира в даден диапазон.
Т-разпределението е симетрично и с форма на камбана, подобно на нормалното разпределение, но има по-тежки опашки, което означава, че е по-склонно да дава стойности, които са далеч от средната стойност. Това го прави полезно за разбиране на статистическото поведение на някои видове съотношения на случайни величини, при които вариацията в знаменателя се усилва и може да доведе до отклоняващи се стойности, когато знаменателят на съотношението падне близо до нулата. t-разпределението на Стюдент е специален случай на обобщеното хиперболично разпределение.
Свързани страници
- F-разпределение
Въпроси и отговори
В: Какво представлява t-разпределението на Стюдънт?
О: t-разпределението на Стюдент е вероятностно разпределение, разработено от Уилям Сили Госет през 1908 г. То описва извадки, взети от пълна популация, и колкото по-голям е размерът на извадката, толкова повече прилича на нормално разпределение.
Въпрос: Кой е разработил t-разпределението на Стюдънт?
О: Уилям Сили Госет разработва t-разпределението на Стюдънт през 1908 г. Той използва псевдонима "Student", когато публикува статията, в която го описва.
В: Какви са някои от приложенията на t-разпределението на Стюдент?
О: t-разпределението на Стюдънт играе роля в много широко използвани статистически анализи, включително t-тест на Стюдънт за оценка на статистическата значимост на разликите между две средни стойности на извадката, конструиране на доверителни интервали за разликите между две средни стойности на популацията и линеен регресионен анализ. Той се появява и при Бейсовския анализ на данни от нормално семейство.
Въпрос: Как влияе размерът на извадката върху формата на t-разпределението?
О: Колкото по-голям е размерът на извадката, толкова повече тя наподобява нормалното разпределение. За всяка различна големина на извадката има свързано уникално t-разпределение, което я описва.
Въпрос: Има ли връзка между Т-разпределението на Стюдънт и нормалното разпределение?
О: Да - докато нормалните разпределения описват пълни популации, Т-разпределенията на студента описват извадки, взети от тези популации; като такива те имат общи прилики, но се различават в зависимост от съответните им размери. Както беше споменато по-горе, по-големите извадки са склонни да приличат повече на нормални разпределения, отколкото по-малките.
Въпрос: Има ли друго име за този вид разпределение?
О: Не - този тип разпределение е известно като "Т-разпределение на Стюдънт", наречено на името на неговия разработчик Уилям Сили Госет, който използва псевдонима си "Стюдънт", когато публикува статията си за него.
обискирам