Транскрипцията е общ термин за преобразуване на информация от един носител в друг — най-често за прехвърляне на говор в писмен вид или за преобразуване между различни писмени системи. В прост смисъл това е процесът на представяне на звучаща реч или графични символи в устойчива писмена форма, която може да бъде четена, анализирана или обработвана машинно.
Какво включва транскрипцията
Това може да бъде:
- преобразуването на човешка реч в писмена, машинна или печатна форма — например диктовки, интервюта, съдебни протоколи;
- сканиране и оптично разпознаване на текстове (OCR) за създаване на цифрови версии на книги и документи;
- фонетична транскрипция, която представя звученето на думите посредством специални знаци (фонеми и по-точно — фонетични символи);
- транскрипция между писмености (понякога близка до транслитерация), когато имаме нужда да предадем имена или термини от един скрипт в друг.
Видове транскрипция
- Орфографска (ортографична) транскрипция — прехвърляне на говор в нормалната правописна система на даден език, често се използва за стенограми и субтитри.
- Фонетична транскрипция — представя звуковете на думите точно (включително нагласи, дифтонги, неформални форми). За лингвистични цели стандартните схеми включват Международната фонетична азбука (IPA) и нейния ASCII еквивалент SAMPA. Виж също фонетична транскрипция.
- Фонемна (широка) и фонетична (тясна) транскрипция — фонемната записва само различителните звукови единици (фонеми), докато тясната включва допълнителни детайли като алофони и особености на произношението.
- Транслитерация — механично прехвърляне на букви от една писменост в друга (с цел възможно най-точно представяне на оригиналната писменост). Важно е да се разграничи от звуковата транскрипция.
Стандарти и системи
За лингвистични и практични цели се използват различни системи и конвенции:
- IPA — за точно показване на звуковете на езиците.
- SAMPA и други дигитални еквиваленти — за представяне на IPA в ASCII среда.
- На ниво романизация и азбуки: системи като Ханю Пинин и Уейд-Джайлс за китайски, различни стандарти за кирилица, арабска и др.
Приложения на транскрипцията
- разработка на субтитри и автоматични надписи (closed captions) за видеа;
- медицинска и съдебна транскрипция — писмени протоколи от срещи, изслушвания, пациенти;
- документиране и изучаване на редки езици и диалекти в полето на лингвистиката;
- създаване на текстови корпуси за езикови изследвания и обучение на системи за разпознаване на реч;
- архивиране и дигитализация на книги и ръкописи чрез OCR.
Разлика между транскрипция и транслитерация
Транскрипцията (в смисъл на преобразуване на звук в писменост) и транслитерацията често се бъркат, но са различни:
- Транскрипцията предава звука: как нещо се произнася.
- Транслитерацията предава буквите: как нещо е изписано в друга азбука.
Например в текста се посочва, че "Boris" в случая е по-скоро транслитерация, отколкото транскрипция в строгия смисъл. В таблица с примери IPA дава фонетична транскрипция на името на бившия руски президент, известно на английски като Boris Yeltsin, следвана от приети хибридни форми в различни езици.
Примери от различни езици и системи
Едни и същи думи могат да бъдат транскрибирани по различен начин в различните системи. Например името на столицата на Китай на мандарин китайски е Пекин в широко използваната съвременна система Ханю Пинин, а в исторически значимата система Уейд Джайлс то се изписва Пей-Чин.
Практическа транскрипция може да се извърши и на неалфабетен език. Например в хонконгски вестник името на Джордж Буш е транслитерирано в два китайски йероглифа, които звучат като "Bou-sū" (布殊), като се използват йероглифите, които означават "плат" и "специален". По подобен начин много думи от английски и други западноевропейски езици се заемат в японския език и се транскрибират с помощта на Катакана, един от японските сричкотворни знаци.
Автоматизирана срещу човешка транскрипция
Системите за автоматично разпознаване на реч (ASR) бързо напредват и често се използват за генериране на първични транскрипции. Те са полезни за бързи чернови, големи обеми данни и интеграция в приложения. Въпреки това за висока точност, специално при шум, диалекти, медицинска/правна терминология и изисквания за поверителност, човешките транскриптори остават необходими.
Предизвикателства и добри практики
- фонетични вариации и диалекти — една и съща дума може да звучи различно;
- шум и неясна реч — влошават качеството на разпознаването;
- омонимия и хомофони — изискват контекст за правилна интерпретация;
- решение за вербатимност — дали да се записват всякакви пълнежи, паузи, смущения или да се редактира за четимост;
- маркиране на говорители, времеви марки (timestamps) и бележки за нефразови елементи са важни при работни и научни транскрипции;
- спазване на стандарти и последователност в обозначенията (например как да се отбелязват повишения, понижения, паузи или несигурни думи).
Съвети за транскрибиране
- изберете подходящия вид транскрипция (ортографска, фонетична, транслитерация) според целта;
- създайте и спазвайте указания за стил (вербатим/редактиран, отбелязване на смях, паузи, диалектни особености);
- ползвайте timestamps и тагове за говорители при интервюта и мултигласови записи;
- за чувствителни материали осигурете конфиденциалност и проверете правописа и терминологията (медицински/правни термини);
- комбинирайте автоматизацията с човешка проверка за по-добра точност.
Транскрипцията е ключова технология и практика в много области — от лингвистиката и медиите до здравеопазването и правото. Разбирането на различните видове транскрипция, приложимите стандарти и ограниченията на автоматичните системи помага да се избере правилният подход за конкретната задача.