Хистограма — определение и тълкуване в статистиката
Хистограмата е понятие от статистиката. Това е графично изображение, което ни дава информация за разпределението на съответните извадки. Обикновено това е изображение, направено от таблица с много категории. Таблицата показва колко проби има във всяка категория. Хистограмата визуализира честотите на числови данни чрез съседни правоъгълни бара — ширината на всеки бар определя интервал (bin), а височината или площта му отговаря на броя наблюдения в този интервал. При непрекъснати данни баровете са прилепнали един до друг, за да подчертаят непрекъснатия характер на променливата.
Думата хистограма произлиза от гръцките думи histos и gramma. Histos означава мрежа или мачта. Gramma означава рисунка, запис или писмо. Следователно хистограмата на нещо е, етимологично погледнато, рисунка на мрежата на това нещо. В практиката това означава графично обобщение на разпределението — къде са съсредоточени стойностите, има ли изкривяване, модалности или отклонения.
Как се строи хистограма
- Съберете данните: имате набор от числови наблюдения.
- Изберете диапазон и брой интервали (bins): определете минимална и максимална стойност и разделете интервала на няколко подинтервала. Популярни правила за избор на брой интервали са Sturges, правило √n или правилото на Freedman–Diaconis за оптимална ширина.
- Изчислете честотите: пребройте колко наблюдения попадат във всеки интервал.
- Постройте баровете: по хоризонталната ос са стойностите (или интервалите), по вертикалната — честотата или плътността. Барата е непрекъснат с тези на съседните интервали при количествени данни.
- Етикетирайте осите и добавете легенда: винаги посочвайте дали вертикалната ос показва абсолютна честота, относителна честота (процент) или плътност (за много различни по ширина интервали).
Как се тълкува хистограма
- Форма: симетрична, лява или дясна асиметрия (skewness) — оттам може да се съди за склонността на разпределението.
- Централна тенденция: мястото, където са съсредоточени баровете, дава представа за медиана или средна стойност.
- Разсейване: ширината на разпределението и наличието на дълги опашки показват вариабилността.
- Модалност: един връх (унимодално), два върха (бимодално) или повече — мултимодалност може да индикира смес от различни подпопулации.
- Отклонения и скрити особености: отделни високи бара или празни зони помагат да се открият аномалии и outliers.
Видове хистограми и нормализирани варианти
- Хистограма по абсолютни честоти — вертикалната ос показва брой наблюдения.
- Относителна хистограма — стойностите са преобразувани в проценти или пропорции.
- Плътностна (нормализирана) хистограма: площта на баровете е пропорционална на вероятността; използва се, когато интервалите имат различна ширина или когато сравняваме с теоретична функция на плътността.
- Кумулативна хистограма — показва натрупаните честоти до дадена точка.
Хистограма срещу диаграма с колони (bar chart)
- Хистограмата се използва за количествени, числови данни; баровете са прилепнали, защото интервалите са съседни.
- Диаграмата с колони (bar chart) е за категорийни данни; баровете са отделени и височините сравняват различни категории.
Практически съвети и често допускани грешки
- Внимавайте с избора на брой и ширина на интервалите: твърде много интервали могат да направят графиката шумна, а твърде малко — да скрият важни особености.
- Не бъркайте категориални данни с количествени: за номинални променливи използвайте барови диаграми, не хистограми.
- Проверявайте дали вертикалната ос е плътност или честота: при различни ширини на интервалите са допустими само плътностни стойности, ако искате площта да отговаря на честотата.
- Използвайте хистограмата за първичен EDA (exploratory data analysis): тя помага за бързо откриване на аномалии, асиметрии и модалности преди по-задълбочен анализ.
Приложения
Хистограмите са широко използвани в различни области: статистика и научни изследвания, качество и контрол на производството, финанси (анализ на възвръщаемост), обработка на изображения (хистограма на интензитета) и др. За по-добро оценяване на непрекъснатите разпределения често се използват и гладки оценки на плътността (kernel density estimates) като допълнение към хистограмата.


Пример за хистограма от 100 нормално разпределени случайни стойности
Подобни идеи
Хистограмата е един от седемте основни инструмента за контрол на качеството, които включват още диаграма на Парето, контролен лист, контролна диаграма, диаграма на причините и следствията, блок-схема и диаграма на разсейването.
Обобщение на хистограмата са техниките за изглаждане на ядрото. По този начин се конструира гладка функция на плътността на вероятността от предоставените данни.
Въпроси и отговори
В: Какво представлява хистограмата?
О: Хистограмата е графично изображение, което ни показва разпределението на съответните извадки.
В: Каква е целта на хистограмата?
О: Целта на хистограмата е да покаже разпределението на съответните проби.
В: Какво означава думата хистограма?
О: Думата "хистограма" произлиза от гръцките думи histos и gramma. Histos означава мрежа или мачта. Gramma означава рисунка, запис или писане.
В: Какво означава терминът "histos" на гръцки език?
О: Терминът "histos" означава мрежа или мачта на гръцки език.
В: Какво означава терминът "gramma" на гръцки?
О: Терминът "gramma" означава рисунка, запис или писмо на гръцки език.
В: Коя е общата характеристика на хистограмата?
О: Общата характеристика на хистограмата е картина, направена от таблица с много категории.
В: Каква информация предоставя таблицата с хистограмата?
О: Хистограмната таблица предоставя информация за това колко проби има във всяка категория.