В статистиката доверителният интервал е метод за оценка на неизвестен параметър, при който вместо една точкова оценка се дава интервал от допустими стойности за параметъра, съпроводен с вероятностна мярка за надеждността на този интервал. Тази вероятност се нарича доверително ниво и обикновено се изразява като процент (например 90%, 95% или 99%). Крайните точки на интервала се наричат доверителни граници. За дадена процедура за оценка и при една и съща извадка доверителният интервал е фиксиран, но ако повтаряме извадките многократно, интервалите ще варират; свойството на доверителния интервал е, че при огромен брой повторения приблизително дадена част (напр. 95%) от тези интервали ще съдържат истинската стойност на параметъра.

Как да се интерпретира доверителният интервал

Важно е да се отличи честото неразбиране: за един конкретен изчислен интервал не е коректно да се твърди, че „има 95% вероятност реалният параметър да лежи в този конкретен интервал“ в смисъла на случайно събитие—в класическата (фреквентистка) рамка параметърът е фиксиран, а интервалът е случаен. Коректната честотна интерпретация е: ако повторим процедурата за събиране на извадки и изграждане на доверителни интервали много пъти, приблизително 95% от тези интервали ще покрият истинската стойност. Ако предпочитате интуитивно тълкуване, понякога се използва и език от байесианския подход (кредибъл интервал), но това е различна концепция и изисква задаване на априорно разпределение.

Основни фактори, влияещи на ширината на доверителния интервал

  • Доверително ниво: колкото по-високо е нивото (напр. 99% вместо 95%), толкова по-широк става интервалът.
  • Размер на извадката n: ширината намалява приблизително с корен квадратен от n (∝ 1/√n).
  • Разсейване/вариативност на данните: по-голяма стандартна грешка увеличава ширината.
  • Използван статистически модел и допускания: при грешни допускания (например дали популацията е нормално разпределена) покритието може да се промени.

Често използвани методи за изчисляване

Изчисляването на доверителния интервал обикновено изисква предположения за модела на данните и е предимно параметричен подход, но има и непараметрични методи (bootstrap). Ето някои стандартни случаи и формули (за двустранни интервали):

  • Средна стойност при известна стандартна девиация σ:
    x̄ ± z_{α/2} * (σ / √n)
    където z_{α/2} е критична стойност от стандартното нормално разпределение (напр. за 95% z≈1.96).
  • Средна стойност при неизвестна σ:
    x̄ ± t_{n−1, α/2} * (s / √n)
    тук се използва t-разпределение с n−1 степен(и) на свобода, а s е стандартното отклонение на извадката.
  • Дял (пропорция) в биноминална ситуация (приблизително):
    p̂ ± z_{α/2} * √(p̂(1−p̂)/n)
    За малки n или екстремни p̂ по-надеждни са методи като Clopper–Pearson (точен), Wilson или Agresti–Coull.
  • За дисперсия/варианс на нормално разпределение:
    използват се χ²-критични стойности за границите на вариансния интервал.
  • Непараметрични/Bootstrap методи:
    перцентилен bootstrap, BCa и други дават надеждни интервали при нарушени допускания или сложни статистики.

Практически стъпки за изчисляване на доверителен интервал

  • Изберете подходящата оценка (напр. x̄, p̂) и изчислете нейната стандартна грешка.
  • Изберете доверителното ниво (1−α) и съответната критична стойност (z или t или друг критерий).
  • Изчислете границите: оценка ± (критична стойност) × (стандартна грешка).
  • Проверете допусканията (нормалност, независимост, достатъчно голям n) и при нужда използвайте алтернативни методи (напр. bootstrap).

Свързани понятия и предупреждения

  • Доверителният интервал е тясно свързан с теста на хипотези: ако нулевата хипотеза (например θ0) не е включена в (1−α) доверителния интервал, тя обикновено се отхвърля при ниво α.
  • Номиналното доверително ниво (напр. 95%) може да не съвпада с действителното покритие, ако допусканията са нарушени.
  • Има разлика между фреквентистки доверителен интервал и байесиански кредибъл интервал; двата подхода имат различни интерпретации и изисквания.
  • За практическа употреба често се препоръчва да се посочват и допусканията, методът на изчисление и размера на извадката за по-добра прозрачност.

В обобщение, доверителният интервал дава полезна информация за несигурността при оценяването на параметри, но трябва да се използва внимателно — като се имат предвид допусканията, размера на извадката и правилната интерпретация на резултатите.