Транскрипцията е общ термин за преобразуване на информация от един носител в друг — най-често за прехвърляне на говор в писмен вид или за преобразуване между различни писмени системи. В прост смисъл това е процесът на представяне на звучаща реч или графични символи в устойчива писмена форма, която може да бъде четена, анализирана или обработвана машинно.

Какво включва транскрипцията

Това може да бъде:

  • преобразуването на човешка реч в писмена, машинна или печатна форма — например диктовки, интервюта, съдебни протоколи;
  • сканиране и оптично разпознаване на текстове (OCR) за създаване на цифрови версии на книги и документи;
  • фонетична транскрипция, която представя звученето на думите посредством специални знаци (фонеми и по-точно — фонетични символи);
  • транскрипция между писмености (понякога близка до транслитерация), когато имаме нужда да предадем имена или термини от един скрипт в друг.

Видове транскрипция

  • Орфографска (ортографична) транскрипция — прехвърляне на говор в нормалната правописна система на даден език, често се използва за стенограми и субтитри.
  • Фонетична транскрипция — представя звуковете на думите точно (включително нагласи, дифтонги, неформални форми). За лингвистични цели стандартните схеми включват Международната фонетична азбука (IPA) и нейния ASCII еквивалент SAMPA. Виж също фонетична транскрипция.
  • Фонемна (широка) и фонетична (тясна) транскрипция — фонемната записва само различителните звукови единици (фонеми), докато тясната включва допълнителни детайли като алофони и особености на произношението.
  • Транслитерация — механично прехвърляне на букви от една писменост в друга (с цел възможно най-точно представяне на оригиналната писменост). Важно е да се разграничи от звуковата транскрипция.

Стандарти и системи

За лингвистични и практични цели се използват различни системи и конвенции:

  • IPA — за точно показване на звуковете на езиците.
  • SAMPA и други дигитални еквиваленти — за представяне на IPA в ASCII среда.
  • На ниво романизация и азбуки: системи като Ханю Пинин и Уейд-Джайлс за китайски, различни стандарти за кирилица, арабска и др.

Приложения на транскрипцията

  • разработка на субтитри и автоматични надписи (closed captions) за видеа;
  • медицинска и съдебна транскрипция — писмени протоколи от срещи, изслушвания, пациенти;
  • документиране и изучаване на редки езици и диалекти в полето на лингвистиката;
  • създаване на текстови корпуси за езикови изследвания и обучение на системи за разпознаване на реч;
  • архивиране и дигитализация на книги и ръкописи чрез OCR.

Разлика между транскрипция и транслитерация

Транскрипцията (в смисъл на преобразуване на звук в писменост) и транслитерацията често се бъркат, но са различни:

  • Транскрипцията предава звука: как нещо се произнася.
  • Транслитерацията предава буквите: как нещо е изписано в друга азбука.

Например в текста се посочва, че "Boris" в случая е по-скоро транслитерация, отколкото транскрипция в строгия смисъл. В таблица с примери IPA дава фонетична транскрипция на името на бившия руски президент, известно на английски като Boris Yeltsin, следвана от приети хибридни форми в различни езици.

Примери от различни езици и системи

Едни и същи думи могат да бъдат транскрибирани по различен начин в различните системи. Например името на столицата на Китай на мандарин китайски е Пекин в широко използваната съвременна система Ханю Пинин, а в исторически значимата система Уейд Джайлс то се изписва Пей-Чин.

Практическа транскрипция може да се извърши и на неалфабетен език. Например в хонконгски вестник името на Джордж Буш е транслитерирано в два китайски йероглифа, които звучат като "Bou-sū" (布殊), като се използват йероглифите, които означават "плат" и "специален". По подобен начин много думи от английски и други западноевропейски езици се заемат в японския език и се транскрибират с помощта на Катакана, един от японските сричкотворни знаци.

Автоматизирана срещу човешка транскрипция

Системите за автоматично разпознаване на реч (ASR) бързо напредват и често се използват за генериране на първични транскрипции. Те са полезни за бързи чернови, големи обеми данни и интеграция в приложения. Въпреки това за висока точност, специално при шум, диалекти, медицинска/правна терминология и изисквания за поверителност, човешките транскриптори остават необходими.

Предизвикателства и добри практики

  • фонетични вариации и диалекти — една и съща дума може да звучи различно;
  • шум и неясна реч — влошават качеството на разпознаването;
  • омонимия и хомофони — изискват контекст за правилна интерпретация;
  • решение за вербатимност — дали да се записват всякакви пълнежи, паузи, смущения или да се редактира за четимост;
  • маркиране на говорители, времеви марки (timestamps) и бележки за нефразови елементи са важни при работни и научни транскрипции;
  • спазване на стандарти и последователност в обозначенията (например как да се отбелязват повишения, понижения, паузи или несигурни думи).

Съвети за транскрибиране

  • изберете подходящия вид транскрипция (ортографска, фонетична, транслитерация) според целта;
  • създайте и спазвайте указания за стил (вербатим/редактиран, отбелязване на смях, паузи, диалектни особености);
  • ползвайте timestamps и тагове за говорители при интервюта и мултигласови записи;
  • за чувствителни материали осигурете конфиденциалност и проверете правописа и терминологията (медицински/правни термини);
  • комбинирайте автоматизацията с човешка проверка за по-добра точност.

Транскрипцията е ключова технология и практика в много области — от лингвистиката и медиите до здравеопазването и правото. Разбирането на различните видове транскрипция, приложимите стандарти и ограниченията на автоматичните системи помага да се избере правилният подход за конкретната задача.