Закон на Зипф (Zipf): дефиниция и примери за честота на думите

Законът на Зипф: ясна дефиниция и илюстративни примери за честотата на думите — как работи, защо важи и приложения в лингвистика, градски ранг и анализ на данни.

Автор: Leandro Alegsa

Законът на Зипф е емпиричен закон, формулиран с помощта на математическата статистика, наречен на лингвиста Джордж Кингсли Зипф, който пръв го предлага. Той описва наблюдаема зависимост между честотата на думите в даден корпус и техния ранг по честота.

Законът на Зипф гласи, че при голяма извадка от използвани думи честотата на всяка дума е обратно пропорционална на нейния ранг в таблицата на честотите. Така че честотата на дума номер n е приблизително пропорционална на 1/n. По-точно, за много корпуси се наблюдава поведение близо до степенно разпределение

f(r) ∝ 1 / r^s, където r е ранга, а параметърът s често е близък до 1. В случая s = 1 нормализираното разпределение може да се запише като f(r) = 1 / (H_N · r), където H_N е N-тият хармоничен брой (приблизително ln N + γ), когато има общо N различни думи.

Пример и наблюдения

На практика това означава, че най-често срещаната дума ще се среща приблизително два пъти по-често от втората по честота дума, три пъти по-често от третата и т.н. Например в една извадка от думи в английския език най-често срещаната дума, "the", съставлява почти 7% от всички думи (69 971 от малко над 1 милион). В съответствие със закона на Зипф на второ място се нарежда думата "of", която представлява малко над 3,5 % от думите (36 411 срещания), следвана от "and" (28 852 срещания). Само около 135 думи са необходими, за да се представи половината от думите в една голяма извадка.

Зависимостта не е характерна само за езика: същата форма се наблюдава и в много други класации, които не са свързани с езика — например класацията на населението на градовете в различни страни, размера на корпорациите, разпределението на доходи и др. Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.

Графично представяне и връзки с други разпределения

Ако се начертае честотата срещу ранга в лог–лог координати, повечето естествени корпуси дават почти права линия — признак за степенно разпределение. Наклонът на тази права е равен на -s (при s ≈ 1 наклонът е около -1). Законът на Зипф е тясно свързан с други понятия в статистиката и теорията на вероятностите, като разпределението на Парето (Pareto) и общите степенни (power-law) разпределения.

Модификации и точни формули

За по-добро съвпадение с данните често се използва обобщение — т.нар. Zipf–Mandelbrot закон:

f(r) ∝ 1 / (r + q)^s,

където q и s са емпирично определяни параметри. Обобщенията помагат да се коригират отклоненията в най-често срещаните думи и в дългия "опашат" хвост от редки думи.

Причини и модели

За произхода на закона има няколко обяснителни модела; нито един не е общопризнат като окончателен:

  • Принцип на най-малко усилие: самият Зипф предлагал, че езикът е компромис между усилието на говорещия (което би предпочел по-кратки, по-чести форми) и усилието на слушащия (който иска по-разнообразен речник).
  • Модели на растеж с предпочитание: стохастични процеси, подобни на модела на Симън и моделите на "preferential attachment" (предпочитателно прикачване), дават естествено степенни разпределения: думи, които вече са чести, имат по-голям шанс да бъдат използвани отново.
  • Математически и случайни модели: някои изследвания показват, че определени случайни процеси или комбинирани фактори (семантика, синтаксис, комуникационни нужди) могат да възпроизведат наблюдаваната форма.

Ограничения и наблюдавани отклонения

Законът работи добре за големи корпуси и за средните рангове, но има важни отклонения:

  • В най-честите няколко десетки думи (функционални думи) поведението може да се различава от идеалната 1/r зависимост.
  • В дългия хвост (редки думи, инцидентни форми, typo-та) също има отклонения и броят уникални думи расте с размера на корпуса (Heap–закона).
  • Езикови особености: аглутинативни и богатоморфологични езици могат да показват различни параметри, защото една принахвърлена "дума" в аналитичен език може да се представи чрез множество форми в друг.
  • Размерът и жанрът на корпуса влияят: писмена наука, разговорен език, социални мрежи — всеки дава различни профили.

Приложения

Законът на Зипф има практическо значение в няколко области:

  • Обработка на естествен език (NLP) — моделиране на честоти, сгъстяване на модели за езикови модели и компресия.
  • Информационно търсене и индексиране — разпознаване на значими ключови думи спрямо често срещаните стоп-думи.
  • Икономика, урбанистика и социология — анализ на разпределенията на население, доходи, размер на фирми и др.

В заключение: макар че законът на Зипф е добре документиран емпирично и има връзки с общи степенни разпределения, причините за неговата универсалност остават предмет на изследване. Няма еднозначен теоретичен модел, който да обясни напълно защо подобно разпределение възниква в толкова различни системи.

Въпроси и отговори

В: Какво представлява законът на Зипф?


О: Законът на Зипф е емпиричен закон, който гласи, че честотата на дадена дума в голяма извадка е обратно пропорционална на нейния ранг в таблицата на честотите.

В: Кой е предложил закона на Зипф?


О: Законът на Зипф е предложен за първи път от лингвиста Джордж Кингсли Зипф.

В: Как законът на Зипф обяснява честотата на думите в извадка от английски думи?


О: Според закона на Зипф най-често срещаната дума в извадка от английски думи се среща около два пъти по-често от втората най-често срещана дума, три пъти по-често от третата най-често срещана дума и т.н. Тази тенденция се запазва с намаляването на ранга на думата.

Въпрос: Какъв процент от всички думи представлява най-често срещаната дума в една извадка от английски думи?


О: В една извадка от английски думи най-често срещаната дума ("the") представлява почти 7 % от всички думи.

Въпрос: Каква е връзката между броя на думите, необходими за съставянето на половината от извадката, и честотата на тези думи?


О: Според закона на Зипф са необходими само около 135 думи, за да се представи половината от думите в една голяма извадка.

В: За кои други класации важи законът на Зипф?


О: Същата зависимост, която законът на Зипф описва при честотата на думите, се среща и в други класации, които не са свързани с езика, като например класациите на населението на градовете в различни страни, размера на корпорациите и класациите на доходите.

Въпрос: Кой е забелязал появата на разпределението в класациите на градовете по население?


О: Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.


обискирам
AlegsaOnline.com - 2020 / 2025 - License CC3