Хистограма — определение и тълкуване в статистиката

Хистограмата е понятие от статистиката. Това е графично изображение, което ни дава информация за разпределението на съответните извадки. Обикновено това е изображение, направено от таблица с много категории. Таблицата показва колко проби има във всяка категория. Хистограмата визуализира честотите на числови данни чрез съседни правоъгълни бара — ширината на всеки бар определя интервал (bin), а височината или площта му отговаря на броя наблюдения в този интервал. При непрекъснати данни баровете са прилепнали един до друг, за да подчертаят непрекъснатия характер на променливата.

Думата хистограма произлиза от гръцките думи histos и gramma. Histos означава мрежа или мачта. Gramma означава рисунка, запис или писмо. Следователно хистограмата на нещо е, етимологично погледнато, рисунка на мрежата на това нещо. В практиката това означава графично обобщение на разпределението — къде са съсредоточени стойностите, има ли изкривяване, модалности или отклонения.

Как се строи хистограма

  • Съберете данните: имате набор от числови наблюдения.
  • Изберете диапазон и брой интервали (bins): определете минимална и максимална стойност и разделете интервала на няколко подинтервала. Популярни правила за избор на брой интервали са Sturges, правило √n или правилото на Freedman–Diaconis за оптимална ширина.
  • Изчислете честотите: пребройте колко наблюдения попадат във всеки интервал.
  • Постройте баровете: по хоризонталната ос са стойностите (или интервалите), по вертикалната — честотата или плътността. Барата е непрекъснат с тези на съседните интервали при количествени данни.
  • Етикетирайте осите и добавете легенда: винаги посочвайте дали вертикалната ос показва абсолютна честота, относителна честота (процент) или плътност (за много различни по ширина интервали).

Как се тълкува хистограма

  • Форма: симетрична, лява или дясна асиметрия (skewness) — оттам може да се съди за склонността на разпределението.
  • Централна тенденция: мястото, където са съсредоточени баровете, дава представа за медиана или средна стойност.
  • Разсейване: ширината на разпределението и наличието на дълги опашки показват вариабилността.
  • Модалност: един връх (унимодално), два върха (бимодално) или повече — мултимодалност може да индикира смес от различни подпопулации.
  • Отклонения и скрити особености: отделни високи бара или празни зони помагат да се открият аномалии и outliers.

Видове хистограми и нормализирани варианти

  • Хистограма по абсолютни честоти — вертикалната ос показва брой наблюдения.
  • Относителна хистограма — стойностите са преобразувани в проценти или пропорции.
  • Плътностна (нормализирана) хистограма: площта на баровете е пропорционална на вероятността; използва се, когато интервалите имат различна ширина или когато сравняваме с теоретична функция на плътността.
  • Кумулативна хистограма — показва натрупаните честоти до дадена точка.

Хистограма срещу диаграма с колони (bar chart)

  • Хистограмата се използва за количествени, числови данни; баровете са прилепнали, защото интервалите са съседни.
  • Диаграмата с колони (bar chart) е за категорийни данни; баровете са отделени и височините сравняват различни категории.

Практически съвети и често допускани грешки

  • Внимавайте с избора на брой и ширина на интервалите: твърде много интервали могат да направят графиката шумна, а твърде малко — да скрият важни особености.
  • Не бъркайте категориални данни с количествени: за номинални променливи използвайте барови диаграми, не хистограми.
  • Проверявайте дали вертикалната ос е плътност или честота: при различни ширини на интервалите са допустими само плътностни стойности, ако искате площта да отговаря на честотата.
  • Използвайте хистограмата за първичен EDA (exploratory data analysis): тя помага за бързо откриване на аномалии, асиметрии и модалности преди по-задълбочен анализ.

Приложения

Хистограмите са широко използвани в различни области: статистика и научни изследвания, качество и контрол на производството, финанси (анализ на възвръщаемост), обработка на изображения (хистограма на интензитета) и др. За по-добро оценяване на непрекъснатите разпределения често се използват и гладки оценки на плътността (kernel density estimates) като допълнение към хистограмата.

Пример за хистограма от 100 нормално разпределени случайни стойностиZoom
Пример за хистограма от 100 нормално разпределени случайни стойности

Подобни идеи

Хистограмата е един от седемте основни инструмента за контрол на качеството, които включват още диаграма на Парето, контролен лист, контролна диаграма, диаграма на причините и следствията, блок-схема и диаграма на разсейването.

Обобщение на хистограмата са техниките за изглаждане на ядрото. По този начин се конструира гладка функция на плътността на вероятността от предоставените данни.

Въпроси и отговори

В: Какво представлява хистограмата?


О: Хистограмата е графично изображение, което ни показва разпределението на съответните извадки.

В: Каква е целта на хистограмата?


О: Целта на хистограмата е да покаже разпределението на съответните проби.

В: Какво означава думата хистограма?


О: Думата "хистограма" произлиза от гръцките думи histos и gramma. Histos означава мрежа или мачта. Gramma означава рисунка, запис или писане.

В: Какво означава терминът "histos" на гръцки език?


О: Терминът "histos" означава мрежа или мачта на гръцки език.

В: Какво означава терминът "gramma" на гръцки?


О: Терминът "gramma" означава рисунка, запис или писмо на гръцки език.

В: Коя е общата характеристика на хистограмата?


О: Общата характеристика на хистограмата е картина, направена от таблица с много категории.

В: Каква информация предоставя таблицата с хистограмата?


О: Хистограмната таблица предоставя информация за това колко проби има във всяка категория.

AlegsaOnline.com - 2020 / 2025 - License CC3