Хистограмата е понятие от статистиката. Това е графично изображение, което ни дава информация за разпределението на съответните извадки. Обикновено това е изображение, направено от таблица с много категории. Таблицата показва колко проби има във всяка категория. Хистограмата визуализира честотите на числови данни чрез съседни правоъгълни бара — ширината на всеки бар определя интервал (bin), а височината или площта му отговаря на броя наблюдения в този интервал. При непрекъснати данни баровете са прилепнали един до друг, за да подчертаят непрекъснатия характер на променливата.

Думата хистограма произлиза от гръцките думи histos и gramma. Histos означава мрежа или мачта. Gramma означава рисунка, запис или писмо. Следователно хистограмата на нещо е, етимологично погледнато, рисунка на мрежата на това нещо. В практиката това означава графично обобщение на разпределението — къде са съсредоточени стойностите, има ли изкривяване, модалности или отклонения.

Как се строи хистограма

  • Съберете данните: имате набор от числови наблюдения.
  • Изберете диапазон и брой интервали (bins): определете минимална и максимална стойност и разделете интервала на няколко подинтервала. Популярни правила за избор на брой интервали са Sturges, правило √n или правилото на Freedman–Diaconis за оптимална ширина.
  • Изчислете честотите: пребройте колко наблюдения попадат във всеки интервал.
  • Постройте баровете: по хоризонталната ос са стойностите (или интервалите), по вертикалната — честотата или плътността. Барата е непрекъснат с тези на съседните интервали при количествени данни.
  • Етикетирайте осите и добавете легенда: винаги посочвайте дали вертикалната ос показва абсолютна честота, относителна честота (процент) или плътност (за много различни по ширина интервали).

Как се тълкува хистограма

  • Форма: симетрична, лява или дясна асиметрия (skewness) — оттам може да се съди за склонността на разпределението.
  • Централна тенденция: мястото, където са съсредоточени баровете, дава представа за медиана или средна стойност.
  • Разсейване: ширината на разпределението и наличието на дълги опашки показват вариабилността.
  • Модалност: един връх (унимодално), два върха (бимодално) или повече — мултимодалност може да индикира смес от различни подпопулации.
  • Отклонения и скрити особености: отделни високи бара или празни зони помагат да се открият аномалии и outliers.

Видове хистограми и нормализирани варианти

  • Хистограма по абсолютни честоти — вертикалната ос показва брой наблюдения.
  • Относителна хистограма — стойностите са преобразувани в проценти или пропорции.
  • Плътностна (нормализирана) хистограма: площта на баровете е пропорционална на вероятността; използва се, когато интервалите имат различна ширина или когато сравняваме с теоретична функция на плътността.
  • Кумулативна хистограма — показва натрупаните честоти до дадена точка.

Хистограма срещу диаграма с колони (bar chart)

  • Хистограмата се използва за количествени, числови данни; баровете са прилепнали, защото интервалите са съседни.
  • Диаграмата с колони (bar chart) е за категорийни данни; баровете са отделени и височините сравняват различни категории.

Практически съвети и често допускани грешки

  • Внимавайте с избора на брой и ширина на интервалите: твърде много интервали могат да направят графиката шумна, а твърде малко — да скрият важни особености.
  • Не бъркайте категориални данни с количествени: за номинални променливи използвайте барови диаграми, не хистограми.
  • Проверявайте дали вертикалната ос е плътност или честота: при различни ширини на интервалите са допустими само плътностни стойности, ако искате площта да отговаря на честотата.
  • Използвайте хистограмата за първичен EDA (exploratory data analysis): тя помага за бързо откриване на аномалии, асиметрии и модалности преди по-задълбочен анализ.

Приложения

Хистограмите са широко използвани в различни области: статистика и научни изследвания, качество и контрол на производството, финанси (анализ на възвръщаемост), обработка на изображения (хистограма на интензитета) и др. За по-добро оценяване на непрекъснатите разпределения често се използват и гладки оценки на плътността (kernel density estimates) като допълнение към хистограмата.