Закон на Зипф (Zipf): дефиниция и примери за честота на думите
Законът на Зипф: ясна дефиниция и илюстративни примери за честотата на думите — как работи, защо важи и приложения в лингвистика, градски ранг и анализ на данни.
Законът на Зипф е емпиричен закон, формулиран с помощта на математическата статистика, наречен на лингвиста Джордж Кингсли Зипф, който пръв го предлага. Той описва наблюдаема зависимост между честотата на думите в даден корпус и техния ранг по честота.
Законът на Зипф гласи, че при голяма извадка от използвани думи честотата на всяка дума е обратно пропорционална на нейния ранг в таблицата на честотите. Така че честотата на дума номер n е приблизително пропорционална на 1/n. По-точно, за много корпуси се наблюдава поведение близо до степенно разпределение
f(r) ∝ 1 / r^s, където r е ранга, а параметърът s често е близък до 1. В случая s = 1 нормализираното разпределение може да се запише като f(r) = 1 / (H_N · r), където H_N е N-тият хармоничен брой (приблизително ln N + γ), когато има общо N различни думи.
Пример и наблюдения
На практика това означава, че най-често срещаната дума ще се среща приблизително два пъти по-често от втората по честота дума, три пъти по-често от третата и т.н. Например в една извадка от думи в английския език най-често срещаната дума, "the", съставлява почти 7% от всички думи (69 971 от малко над 1 милион). В съответствие със закона на Зипф на второ място се нарежда думата "of", която представлява малко над 3,5 % от думите (36 411 срещания), следвана от "and" (28 852 срещания). Само около 135 думи са необходими, за да се представи половината от думите в една голяма извадка.
Зависимостта не е характерна само за езика: същата форма се наблюдава и в много други класации, които не са свързани с езика — например класацията на населението на градовете в различни страни, размера на корпорациите, разпределението на доходи и др. Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.
Графично представяне и връзки с други разпределения
Ако се начертае честотата срещу ранга в лог–лог координати, повечето естествени корпуси дават почти права линия — признак за степенно разпределение. Наклонът на тази права е равен на -s (при s ≈ 1 наклонът е около -1). Законът на Зипф е тясно свързан с други понятия в статистиката и теорията на вероятностите, като разпределението на Парето (Pareto) и общите степенни (power-law) разпределения.
Модификации и точни формули
За по-добро съвпадение с данните често се използва обобщение — т.нар. Zipf–Mandelbrot закон:
f(r) ∝ 1 / (r + q)^s,
където q и s са емпирично определяни параметри. Обобщенията помагат да се коригират отклоненията в най-често срещаните думи и в дългия "опашат" хвост от редки думи.
Причини и модели
За произхода на закона има няколко обяснителни модела; нито един не е общопризнат като окончателен:
- Принцип на най-малко усилие: самият Зипф предлагал, че езикът е компромис между усилието на говорещия (което би предпочел по-кратки, по-чести форми) и усилието на слушащия (който иска по-разнообразен речник).
- Модели на растеж с предпочитание: стохастични процеси, подобни на модела на Симън и моделите на "preferential attachment" (предпочитателно прикачване), дават естествено степенни разпределения: думи, които вече са чести, имат по-голям шанс да бъдат използвани отново.
- Математически и случайни модели: някои изследвания показват, че определени случайни процеси или комбинирани фактори (семантика, синтаксис, комуникационни нужди) могат да възпроизведат наблюдаваната форма.
Ограничения и наблюдавани отклонения
Законът работи добре за големи корпуси и за средните рангове, но има важни отклонения:
- В най-честите няколко десетки думи (функционални думи) поведението може да се различава от идеалната 1/r зависимост.
- В дългия хвост (редки думи, инцидентни форми, typo-та) също има отклонения и броят уникални думи расте с размера на корпуса (Heap–закона).
- Езикови особености: аглутинативни и богатоморфологични езици могат да показват различни параметри, защото една принахвърлена "дума" в аналитичен език може да се представи чрез множество форми в друг.
- Размерът и жанрът на корпуса влияят: писмена наука, разговорен език, социални мрежи — всеки дава различни профили.
Приложения
Законът на Зипф има практическо значение в няколко области:
- Обработка на естествен език (NLP) — моделиране на честоти, сгъстяване на модели за езикови модели и компресия.
- Информационно търсене и индексиране — разпознаване на значими ключови думи спрямо често срещаните стоп-думи.
- Икономика, урбанистика и социология — анализ на разпределенията на население, доходи, размер на фирми и др.
В заключение: макар че законът на Зипф е добре документиран емпирично и има връзки с общи степенни разпределения, причините за неговата универсалност остават предмет на изследване. Няма еднозначен теоретичен модел, който да обясни напълно защо подобно разпределение възниква в толкова различни системи.
Въпроси и отговори
В: Какво представлява законът на Зипф?
О: Законът на Зипф е емпиричен закон, който гласи, че честотата на дадена дума в голяма извадка е обратно пропорционална на нейния ранг в таблицата на честотите.
В: Кой е предложил закона на Зипф?
О: Законът на Зипф е предложен за първи път от лингвиста Джордж Кингсли Зипф.
В: Как законът на Зипф обяснява честотата на думите в извадка от английски думи?
О: Според закона на Зипф най-често срещаната дума в извадка от английски думи се среща около два пъти по-често от втората най-често срещана дума, три пъти по-често от третата най-често срещана дума и т.н. Тази тенденция се запазва с намаляването на ранга на думата.
Въпрос: Какъв процент от всички думи представлява най-често срещаната дума в една извадка от английски думи?
О: В една извадка от английски думи най-често срещаната дума ("the") представлява почти 7 % от всички думи.
Въпрос: Каква е връзката между броя на думите, необходими за съставянето на половината от извадката, и честотата на тези думи?
О: Според закона на Зипф са необходими само около 135 думи, за да се представи половината от думите в една голяма извадка.
В: За кои други класации важи законът на Зипф?
О: Същата зависимост, която законът на Зипф описва при честотата на думите, се среща и в други класации, които не са свързани с езика, като например класациите на населението на градовете в различни страни, размера на корпорациите и класациите на доходите.
Въпрос: Кой е забелязал появата на разпределението в класациите на градовете по население?
О: Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.
обискирам