Законът на Зипф е емпиричен закон, формулиран с помощта на математическата статистика, наречен на лингвиста Джордж Кингсли Зипф, който пръв го предлага. Той описва наблюдаема зависимост между честотата на думите в даден корпус и техния ранг по честота.
Законът на Зипф гласи, че при голяма извадка от използвани думи честотата на всяка дума е обратно пропорционална на нейния ранг в таблицата на честотите. Така че честотата на дума номер n е приблизително пропорционална на 1/n. По-точно, за много корпуси се наблюдава поведение близо до степенно разпределение
f(r) ∝ 1 / r^s, където r е ранга, а параметърът s често е близък до 1. В случая s = 1 нормализираното разпределение може да се запише като f(r) = 1 / (H_N · r), където H_N е N-тият хармоничен брой (приблизително ln N + γ), когато има общо N различни думи.
Пример и наблюдения
На практика това означава, че най-често срещаната дума ще се среща приблизително два пъти по-често от втората по честота дума, три пъти по-често от третата и т.н. Например в една извадка от думи в английския език най-често срещаната дума, "the", съставлява почти 7% от всички думи (69 971 от малко над 1 милион). В съответствие със закона на Зипф на второ място се нарежда думата "of", която представлява малко над 3,5 % от думите (36 411 срещания), следвана от "and" (28 852 срещания). Само около 135 думи са необходими, за да се представи половината от думите в една голяма извадка.
Зависимостта не е характерна само за езика: същата форма се наблюдава и в много други класации, които не са свързани с езика — например класацията на населението на градовете в различни страни, размера на корпорациите, разпределението на доходи и др. Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.
Графично представяне и връзки с други разпределения
Ако се начертае честотата срещу ранга в лог–лог координати, повечето естествени корпуси дават почти права линия — признак за степенно разпределение. Наклонът на тази права е равен на -s (при s ≈ 1 наклонът е около -1). Законът на Зипф е тясно свързан с други понятия в статистиката и теорията на вероятностите, като разпределението на Парето (Pareto) и общите степенни (power-law) разпределения.
Модификации и точни формули
За по-добро съвпадение с данните често се използва обобщение — т.нар. Zipf–Mandelbrot закон:
f(r) ∝ 1 / (r + q)^s,
където q и s са емпирично определяни параметри. Обобщенията помагат да се коригират отклоненията в най-често срещаните думи и в дългия "опашат" хвост от редки думи.
Причини и модели
За произхода на закона има няколко обяснителни модела; нито един не е общопризнат като окончателен:
- Принцип на най-малко усилие: самият Зипф предлагал, че езикът е компромис между усилието на говорещия (което би предпочел по-кратки, по-чести форми) и усилието на слушащия (който иска по-разнообразен речник).
- Модели на растеж с предпочитание: стохастични процеси, подобни на модела на Симън и моделите на "preferential attachment" (предпочитателно прикачване), дават естествено степенни разпределения: думи, които вече са чести, имат по-голям шанс да бъдат използвани отново.
- Математически и случайни модели: някои изследвания показват, че определени случайни процеси или комбинирани фактори (семантика, синтаксис, комуникационни нужди) могат да възпроизведат наблюдаваната форма.
Ограничения и наблюдавани отклонения
Законът работи добре за големи корпуси и за средните рангове, но има важни отклонения:
- В най-честите няколко десетки думи (функционални думи) поведението може да се различава от идеалната 1/r зависимост.
- В дългия хвост (редки думи, инцидентни форми, typo-та) също има отклонения и броят уникални думи расте с размера на корпуса (Heap–закона).
- Езикови особености: аглутинативни и богатоморфологични езици могат да показват различни параметри, защото една принахвърлена "дума" в аналитичен език може да се представи чрез множество форми в друг.
- Размерът и жанрът на корпуса влияят: писмена наука, разговорен език, социални мрежи — всеки дава различни профили.
Приложения
Законът на Зипф има практическо значение в няколко области:
- Обработка на естествен език (NLP) — моделиране на честоти, сгъстяване на модели за езикови модели и компресия.
- Информационно търсене и индексиране — разпознаване на значими ключови думи спрямо често срещаните стоп-думи.
- Икономика, урбанистика и социология — анализ на разпределенията на население, доходи, размер на фирми и др.
В заключение: макар че законът на Зипф е добре документиран емпирично и има връзки с общи степенни разпределения, причините за неговата универсалност остават предмет на изследване. Няма еднозначен теоретичен модел, който да обясни напълно защо подобно разпределение възниква в толкова различни системи.