Законът на Зипф е емпиричен закон, формулиран с помощта на математическата статистика, наречен на лингвиста Джордж Кингсли Зипф, който пръв го предлага. Той описва наблюдаема зависимост между честотата на думите в даден корпус и техния ранг по честота.

Законът на Зипф гласи, че при голяма извадка от използвани думи честотата на всяка дума е обратно пропорционална на нейния ранг в таблицата на честотите. Така че честотата на дума номер n е приблизително пропорционална на 1/n. По-точно, за много корпуси се наблюдава поведение близо до степенно разпределение

f(r) ∝ 1 / r^s, където r е ранга, а параметърът s често е близък до 1. В случая s = 1 нормализираното разпределение може да се запише като f(r) = 1 / (H_N · r), където H_N е N-тият хармоничен брой (приблизително ln N + γ), когато има общо N различни думи.

Пример и наблюдения

На практика това означава, че най-често срещаната дума ще се среща приблизително два пъти по-често от втората по честота дума, три пъти по-често от третата и т.н. Например в една извадка от думи в английския език най-често срещаната дума, "the", съставлява почти 7% от всички думи (69 971 от малко над 1 милион). В съответствие със закона на Зипф на второ място се нарежда думата "of", която представлява малко над 3,5 % от думите (36 411 срещания), следвана от "and" (28 852 срещания). Само около 135 думи са необходими, за да се представи половината от думите в една голяма извадка.

Зависимостта не е характерна само за езика: същата форма се наблюдава и в много други класации, които не са свързани с езика — например класацията на населението на градовете в различни страни, размера на корпорациите, разпределението на доходи и др. Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.

Графично представяне и връзки с други разпределения

Ако се начертае честотата срещу ранга в лог–лог координати, повечето естествени корпуси дават почти права линия — признак за степенно разпределение. Наклонът на тази права е равен на -s (при s ≈ 1 наклонът е около -1). Законът на Зипф е тясно свързан с други понятия в статистиката и теорията на вероятностите, като разпределението на Парето (Pareto) и общите степенни (power-law) разпределения.

Модификации и точни формули

За по-добро съвпадение с данните често се използва обобщение — т.нар. Zipf–Mandelbrot закон:

f(r) ∝ 1 / (r + q)^s,

където q и s са емпирично определяни параметри. Обобщенията помагат да се коригират отклоненията в най-често срещаните думи и в дългия "опашат" хвост от редки думи.

Причини и модели

За произхода на закона има няколко обяснителни модела; нито един не е общопризнат като окончателен:

  • Принцип на най-малко усилие: самият Зипф предлагал, че езикът е компромис между усилието на говорещия (което би предпочел по-кратки, по-чести форми) и усилието на слушащия (който иска по-разнообразен речник).
  • Модели на растеж с предпочитание: стохастични процеси, подобни на модела на Симън и моделите на "preferential attachment" (предпочитателно прикачване), дават естествено степенни разпределения: думи, които вече са чести, имат по-голям шанс да бъдат използвани отново.
  • Математически и случайни модели: някои изследвания показват, че определени случайни процеси или комбинирани фактори (семантика, синтаксис, комуникационни нужди) могат да възпроизведат наблюдаваната форма.

Ограничения и наблюдавани отклонения

Законът работи добре за големи корпуси и за средните рангове, но има важни отклонения:

  • В най-честите няколко десетки думи (функционални думи) поведението може да се различава от идеалната 1/r зависимост.
  • В дългия хвост (редки думи, инцидентни форми, typo-та) също има отклонения и броят уникални думи расте с размера на корпуса (Heap–закона).
  • Езикови особености: аглутинативни и богатоморфологични езици могат да показват различни параметри, защото една принахвърлена "дума" в аналитичен език може да се представи чрез множество форми в друг.
  • Размерът и жанрът на корпуса влияят: писмена наука, разговорен език, социални мрежи — всеки дава различни профили.

Приложения

Законът на Зипф има практическо значение в няколко области:

  • Обработка на естествен език (NLP) — моделиране на честоти, сгъстяване на модели за езикови модели и компресия.
  • Информационно търсене и индексиране — разпознаване на значими ключови думи спрямо често срещаните стоп-думи.
  • Икономика, урбанистика и социология — анализ на разпределенията на население, доходи, размер на фирми и др.

В заключение: макар че законът на Зипф е добре документиран емпирично и има връзки с общи степенни разпределения, причините за неговата универсалност остават предмет на изследване. Няма еднозначен теоретичен модел, който да обясни напълно защо подобно разпределение възниква в толкова различни системи.