В статистиката честотното разпределение е списък на стойностите, които дадена променлива приема в извадката. Обикновено това е списък, подреден по количество. То показва колко пъти се появява всяка стойност. Например, ако 100 души оценяват по петстепенна скала на Ликерт съгласието си с дадено твърдение (където 1 означава силно съгласие, а 5 — силно несъгласие), честотното разпределение на техните отговори може да изглежда така:

Отговор (оценка)Абсолютна честота (f)Относителна честота (f/n)Процент
1100.1010%
2200.2020%
3300.3030%
4250.2525%
5150.1515%
Общо1001.00100%

Тази проста таблица има два недостатъка. Когато променливата може да приема непрекъснати стойности вместо дискретни или когато броят на възможните стойности е твърде голям, конструирането на таблицата е трудно, ако не е невъзможно. В такива случаи се използва малко по-различна схема, базирана на обхвата на стойностите (класови интервали). Например, ако разглеждаме височината на учениците в един клас, таблицата на честотите може да изглежда по следния начин.

Интервал (см)Абсолютна честота (f)Кумулативна честота (F)
150–15422
155–15957
160–164815
165–1691025
170–174530

Видове честотно разпределение

  • Абсолютна (начална) честота — брой наблюдения, които попадат в дадена стойност или интервал (f).
  • Относителна честота — отношението f/n, където n е общият брой наблюдения; често се изразява в проценти.
  • Кумулативна честота — натрупаната честота до дадена стойност или горна граница на интервал (F).
  • Честотна плътност — използва се при класове с различна ширина: плътност = f / ширина на интервала.
  • Групирано (интервално) срещу негрупирано разпределение — негрупираното изброява всяка отделна стойност; групираното обединява стойностите в класове.

Графични представяния

  • Хистограма — предпочитан за непрекъснати данни с класове; височината на правоъгълника представя честотата (или плътността).
  • Стълбов диаграма (bar chart) — за дискретни и номинални данни; колоните са отделни категории.
  • Полигон на честотите (frequency polygon) — свързани точки на центровете на класовете; полезен за сравнение на разпределения.
  • Кръгова диаграма — за показване на относителни честоти при категориални данни.

Как да изберем брой класове и ширина

  • Често се използват емпирични правила за избор на броя класове k:
    • Формула на Sturges: k ≈ 1 + 3.322 log10(n)
    • За големи данни може да се използва правило с корекция или методи, базирани на интерквартилния размах (IQR).
  • Методът на Freedman–Diaconis за ширина на клетката: h = 2·IQR·n^(−1/3). Този метод е по-устойчив на екстремни стойности.
  • Важно е класовете да са еднакво широки при хистограма, освен ако не използвате честотна плътност.

Използване и тълкуване

  • Относителната честота може да се интерпретира като оценка на емпирична вероятност: P(събитие) ≈ f/n.
  • Кумулативната честота помага да се определи медианата, квартилите и делките на разпределението.
  • При групирани данни медианата може да се оценява чрез линейна интерполация в медианния клас:
    Медиана ≈ L + ((n/2 − F_prev) / f_class) × w, където L е долната граница на медианния клас, F_prev е кумулативната честота преди този клас, f_class е честотата в медианния клас, а w е ширината на класа.

Чести грешки и предупреждения

  • Не бъркайте бар диаграмите за дискретни данни с хистограми за непрекъснати данни — при хистограмата баровете се допират, при бар диаграмата има разстояния.
  • За класове с различна ширина винаги използвайте честотна плътност, иначе визуалното сравнение ще бъде подвеждащо.
  • Много тънки или много широки класове могат да скрият структурата на данните; тествайте няколко варианта при анализ.

Кога се използва честотното разпределение

  • За описателна статистика и първоначално проучване на данни.
  • Като основа за изчертаване на хистограми и за откриване на модове, асиметрия и отклонения.
  • При извеждане на емпирични вероятности и при оценяване на параметри за по-нататъшен статистически анализ.

Честотното разпределение е фундаментален инструмент за организиране и визуализиране на данни. Правилният избор между негрупирано и групирано представяне, както и внимателният избор на класове и визуализация, гарантират, че изводите от данните ще бъдат коректни и информативни.