Закон на Ципф

Законът на Зипф е емпиричен закон, формулиран с помощта на математическата статистика, наречен на лингвиста Джордж Кингсли Зипф, който пръв го предлага.

Законът на Зипф гласи, че при голяма извадка от използвани думи честотата на всяка дума е обратно пропорционална на нейния ранг в таблицата на честотите. Така че честотата на дума номер n е пропорционална на 1/n.

Така най-често срещаната дума ще се среща два пъти по-често от втората по честота дума, три пъти по-често от третата по честота дума и т.н. Например в една извадка от думи в английския език най-често срещаната дума, "the", съставлява почти 7% от всички думи (69 971 от малко над 1 милион). В съответствие със закона на Зипф на второ място се нарежда думата "of", която представлява малко над 3,5 % от думите (36 411 срещания), следвана от "and" (28 852 срещания). Само около 135 думи са необходими, за да се представи половината от думите в една голяма извадка.

Същата зависимост се проявява и в много други класации, които не са свързани с езика, като например класацията на населението на градовете в различни страни, размера на корпорациите, класацията на доходите и т.н. Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.

Не е известно защо законът на Зипф важи за повечето езици.

Въпроси и отговори

В: Какво представлява законът на Зипф?


О: Законът на Зипф е емпиричен закон, който гласи, че честотата на дадена дума в голяма извадка е обратно пропорционална на нейния ранг в таблицата на честотите.

В: Кой е предложил закона на Зипф?


О: Законът на Зипф е предложен за първи път от лингвиста Джордж Кингсли Зипф.

В: Как законът на Зипф обяснява честотата на думите в извадка от английски думи?


О: Според закона на Зипф най-често срещаната дума в извадка от английски думи се среща около два пъти по-често от втората най-често срещана дума, три пъти по-често от третата най-често срещана дума и т.н. Тази тенденция се запазва с намаляването на ранга на думата.

Въпрос: Какъв процент от всички думи представлява най-често срещаната дума в една извадка от английски думи?


О: В една извадка от английски думи най-често срещаната дума ("the") представлява почти 7 % от всички думи.

Въпрос: Каква е връзката между броя на думите, необходими за съставянето на половината от извадката, и честотата на тези думи?


О: Според закона на Зипф са необходими само около 135 думи, за да се представи половината от думите в една голяма извадка.

В: За кои други класации важи законът на Зипф?


О: Същата зависимост, която законът на Зипф описва при честотата на думите, се среща и в други класации, които не са свързани с езика, като например класациите на населението на градовете в различни страни, размера на корпорациите и класациите на доходите.

Въпрос: Кой е забелязал появата на разпределението в класациите на градовете по население?


О: Появата на разпределението в класациите на градовете по население е забелязана за първи път от Феликс Ауербах през 1913 г.

AlegsaOnline.com - 2020 / 2023 - License CC3