Monday, March 15, 2010

Machine Translation 50 years ago | Машинен превод от преди 50 години

While writing an article about Machine translation, I recalled this chapter from a book, printed in Moscow in 1958, just 4 years after the first MT demonstration in New York by IBM. You could try, if you wish, whether today's Google or Microsoft translators would manage. ;) The text is from a Bulgarian translation of the book.

Google Translate to Enlgish this article
...

Докато пишех една статия за машинен превод, се сетих за един интересен "препис", който бях публикувал в bgit.net преди 8 години, от вече 50-годишна книга.  Тези които превъзнасят "великото изобретение" на Койчо Митев, може да прочетат пасажа за това как се кодират думите, за "паспортите на думите". 

Машинният превод започна през 1954-та...
Статия | Автор Тодор Арнаудов | 28 Октомври 2002 @ 14:47 EET | 160 Прочита | 1

Приложеният препис от книгата на М.С. Тукачински, "Машини математици". Д.И. "Наука и изкуство", София - 1960 г. (Москва - 1958) разказва за първите успешни опити за превод от руски на английски и обратно, извършени през 50-те години. Може би сметачът на IBM ("Интернейшънъл бизнес мешинз", според книгата), на който е извършена първата обществено показно на 7.януари 1954., е е бил IBM-704, а този, на когото в СССР успяват да пуснат действащо предписание за превод от англ. на руски малко по-късно, е БЭСМ - Быстродействующая Электронно-Счетная Машина, т.е. Бързодействаща електронно-сметачна машина, построена през 1953-та, с производителност до 8-10 хиляди действия/сек. И двете са, естествено, лампови.

Междувпрочем, малко информация за транзисторната БЕСМ-6, с бързодействие до милион казби/сек, може да се прочете в "Свещения сметач", брой 5.: "БЕСМ 6 - Съветският компютър на 60-те"


Тукачински, М.С. "Машини математици". Д.И. "Наука и изкуство", София - 1960 г. (Москва - 1958).

стр. 114 Електронен преводач


На 7 януари 1954 г. в кантората на Ню Йоркската фирма "Интернейшънъл бизнес мешинз" беше многолюдно. Поканените чакаха необикновено зрелище: първата публична демонстрация на автоматичен превод от един език на друг с помощта на електронна сметачна машина.
Присъстващите бяха свидетели как с помощта на перфокарти бяха въведени в запомнящото устройство на машината специално подготвените речник и програма.
А когато в машината беше поставена купчинка перфораторни картончета със записани на тях фрази на руски език, извеждащото устройство скоро автоматично отпечата в превод на английски език.
Отчетът за тази демонстрация предизвика огромен интерес в целия свят. Проблемите на машинния превод станаха предмет на спорове, изучавания и други опити за практическо осъществяване. Успешни опити на превод от английски на руски език бяха проведени и в Москва на вече познатата ни машина БЭСМ.
Как машината превежда?
Методът, по който машината превежда текста, не се различава принципаиално по начина, по който превежда човекът. На човека е необходим речник - речник е необходим и на машината. Но на машината, разбира се, е необходим особен речник, изразен в числа. Да се изразят думите с числа не е сложно. Достатъчно е да се номерират буквите в азбуката, за да се представи думата чрез числа. Така се постъпва и в действителност.
Английска азбука Руска азбука
a-16 n-15 а-16 м-11 ч-23
b-06 o-28 б-06 н-15 ш-09
c-22 p-24 г-10 п-24 э-17
d-30 q-23 д-30 р-07 ь-02
e-08 r-07 е-08 с-05 ы-04
f-14 s-05 ж-29 т-21 ю-01
g-10 t-21 з-25 у-20 я-03
h-26 n-20 и-12 ф-14 й-18
i-12 v-29 к-19 х-1 ъ-00
j-18 w-13 л-27 ц-22
k-19 x-09
l-27 y-04
m-11 z-25

Като се използва такава азбука, думата "машина" и английският й превовд "machine" може да се представи така: на руски 11109121516 (т.е. 11-16-09-12-15-16); на английски 111222121508 (т.е. 11-16-22-26-12-15-08).
Тъй като една и съща дума на руски и на английски се състои от различни букви, то числата, които изразяват една и съща дума на различни езици, са естествено различни. Общото у тях ще бъде обаче поредният номе на думата в речника, който номер се поставя на всяко число-дума.

Например:
Английската част на речника Руската част на речника
Пореден номер Число-дума Пореден номер Число-дума
205 111222121508 205 111609121516

Англо-руският речник и програмата за работа на машината се въвеждат в запомнящото устройство на електронната изчислителна машина.
Как се извършва превеждането?
Преобразуването на буквите на превеждания текст в числа и записването им с дупчици на хартиена лента се извършва на своеобразен перфоратор с клавиатура на обикновена пишеща машина (фиг. 41). Операторът "препечатва" английския текст, подлежащ на превеждане. Но вместо отпечатан с букви текст от машината излиза лента, на която всяка буква на английския текст е изразена във вид на дупчици, означаващи съответни цифри. Тази лента се въвежда в сметачната машина за превеждане.
Сега да си представим, че в английската фраза, въведена в електронната изчислителна машина, се намира думата 11152226121508.
Първата задача на машината е - подобно на това, което би направил човекът - да намери тази дума а английската част на речника. Този процес може да се извърши, като се извадят всички числа на речника от въведеното число. В случая, когато резултатът се окаже равен на нула, търсената дума ще бъде намерена. После машината възприема поредния номер на тази дума (в нашия случай 205) и от руската част на речника ще избере числото, съхраняващо се под този номер.
Намереното число-дума ще бъде 11109121516.
Сега на машината остава само да подаде това число на извеждащото устройство, където буквопечатащият телеграфен апарат ще го превърне в думата "машина".
На пръв поглед всичко е много просто. Но в действителност работата е много сложна.
В речника думите се намират в своя основен вид, например в ед. ч., именителен падеж и т.н. В текста пък думите могат да бъдат в най-разнообразни граматически форми. При това естествено буквеният състав на думите от текста ще се различава от буквения състав на думите в речника. Значи думите ще бъдат изразени с различни числа. Например думата от текста "machinery" (на машината) ще се изрази с числото 111622261215080704 вместо с числото от речника 11162226121508 (машина). По такъв начин може да се окаже, че в речника въобще няма да бъде намерена необходимата дума.
По-нататък. Думите в английската и руската фраза могат да бъдат подредени в различен ред; една и съща английска дума може да има различни значения в зависимост от това, какви думи я обкръжават и т.н.
Всичко това трябва да бъде взето под внимание при превода. Затова с шифровката и номерацията още не се свършва работата по съставянето на речника. Напротив, това е само началната, най-простата част от работата. Съставянето на речниците за машинен превод е много сложна съвместна работа на езиковедите, математиците и инженерите.
Всяка дума въз основа на щателно изучаване се снабдява със своеобразен паспорт. Думата-число се разраства с двадесетина отнасящи се към нея цифри-признаци, които означават каква част е от речта, от кой род е, одушевен или неодушевен е предметът и т.н.
Основно процесът на превеждането се разделя на два етапа: анализ и синтез.
През първия етап машината трябва да анализира граматическата форма на английските думи, да намери превода им и мястото им в бъдещото изречение. През време на анализа машината използва не само речника, но и допълненията към него. Към допълненията тя се обръща, когато думата е нееднозначна.
През време на втория етап се извършва синтезът на руското изречение: намерените в речника руски думи се изменят в съответствие с получените признаци и се подреждат по местата им.
Специалната част от програмата "синтаксисът" дава възможност на машината правилно да подреди препинателните знаци, след което преведената фраза се печата.
Машината извършва всички операции, които са необходими за превода, много бързо. За превеждане на просто изречение тя губи 7-8 сек. За качеството на работата на машината БЭСМ като преводач може да се съди по преведения от нея откъс, представен на фиг. 41. Както виждаме, преводът е напълно задоволителен. За да му се придаде безупречен литературен стил, е необходима само малка редакторска поправка. Впрочем може да мине и без нея. Нали става въпрос за превод на технически текст, където да се изгради литературната форма не е така необходимо. Точно в това направление - за превеждане на технически текстове, работят сега изследователите, които се занимават с машинно превеждане. Трябва ли да говорим, че превеждането на литературно-художествените произведения представлява нещо повече от грамотно преведените фрази и правилно подредените препинателни знаци.
Проблемата за автоматичния машинен превод далеч не е решена. Напред има още много трудности. Засега са направени само първите опити. Но не бива също да се забравя, че от времето на първия превод изминаха само няколко години, а за този кратък период от време запасът от думи в машината (речникът) нарасна от 250 на 1000 и качеството на превода значително се подобри. Сега опитите за превеждане, извършвани на универсалните изчислителни машини, се пренасят на специални преводни машини, които имат мощни запомнящи устройства за съхраняване на речниците. Всяка такава машина ще може да превежда текстове от много езици.



No comments :