Wednesday, December 19, 2007

Шегата с разбърканите букви и работата на мозъка (Зантее ли че кгоато чтеете нисапаното...)

Новини от 2/2013: "Тошко 2" е начало на поредица от приложения от цяла софтуерна екосистема, която се надявам да успея да разгърна още през тази година - нова версия "Глас 2004"

Новини: Тошко 2 / Тошко II - работата по най-мощния български синтезатор на реч напредва (TTS, говореща програма, говоряща програма)

Анонс за приложението: Тошко 2 Алфа (2.01) излиза скоро! Говореща програма - Синтезатор на реч 

http://artificial-mind.blogspot.com/2013/02/toshko-2-tts-update-bulgarian.html

English Abstract - Bulgarian article about an example of humans's capability to read correctly words with shuffled letters, if the first and the last letter are on their correct places.

Solution for decoding is proposed.
...
От форум от началото на 2005 г. и предложението ми за решение от тогава
(с редактиран текст)

Галина, 14.01.2005

Във връзка със разликата м/у изкуствения и естествения интелект : Ето ви още едно доказателство че едва ли може напълно да се пресъздаде пълната функционалност на естествения интелект. Опитайте се да прочете следния текст бързо :

"Зантее ли че кгоато чтеете нисапаното, вжано е пръвтаа и поледсанта бкува от дмаута да бдаът на мсятото си. Мжоете да рзбъракате мстеата на отсанаилте бвуки и все пак нпиасатноо ще прдъолажва да се чтее с лкоета.

Твоа ивда да пкаоже че вскичтоо твоа вемре котео сте проплеили в уилчище е нпразано, доасттънчо е блио да ви начуат да слгатае на мстяото им бутквие в налчаото и каря на вяска дмуа кяото пиеште. Приичнтаа е в нчиана по котйо виашят мъозк оработбва ирнфоцмаията. Ткаа уяспвате да преочттее нааписното джае кгаото нтио енда дмуа не е изиспана пвраинло"

А сега нека помислим дали един изкуствен интелект би се справил с коректното "прочитане" на текста и какъв ресурс би му бил необходим ако въобщте успее да се справи със задачата ?!?

Решението на Тош

Може и да не са нужни чак толкова ресурси - трябва речник с думите от език, алгоритъм за сравнение, а може би морфологичен речник задвусмислици, които обаче вероятно ще се появяват рядко, при поставените леки условия за декодиране.

"Ето ви още едно доказателство че едва ли може напълно да се пресъздаде функционалност на естествения интелект. "

Не знам кои са били предишните доказателства, но ето как може да се подходи:

1. Знаем къде са препинателните знаци, което може да се ползва за намаляване на двусмислието, в случай че някак си се появи.

2. Не е вярно, че нито една дума не е изписана правилно. Ако първата и последната дуам са на правилните места, значи думите с една, две и три букви са изписани както са.

Ако n = брой знака в дума, то за n думите се пишат както са.

Тези думи помагат да се разрешат двусмислици, макар че на практика двусмислиците вероятно няма да са много, защото множеството от разрешените думи е много разредено и това улеснява разпознаването.

Брой теоретично възможни думи с n-знака на българска кирилица:

Думи, неизискващи разпознаване:

1 = 30 (думи: а, в, е, и, й, о, с, у, я)
2 = 900 (аз, ас, ар, бе, ви, ги, ни, но, ти, то, те)
3 = 27000 (...

Възможен брой думи, изискващи разпознаване:

4 = 81000
5 = 24300000
6 = 729000000
7 = 21870000000
8 = 656100000000
9 = 19683000000000
10 = 590490000000000
11 = 17714700000000000

Очевидно е, че реално съществуващите думи в текстове на български са много по-малко от възможните. В ежедневни текстове едва ли са над 100 хиляди словоформи. В най-различните словоформи на думите в голям корпус, може би има най-много милиони словоформи. (Трябва да се направи по-прецизно изследване.)

Поредните думи помагат да се разрешат двусмислици, като се използва корпус с колокациите (съществуващи поредици от думи в реални текстове). Ето поредици от примерния текст:

ли че
и все пак
да ви
е в
не е

3. Остават думи с n>3. За всички от тях знаем:

- първия знак - веднага може да се намери мястото на думата в азбучния ред на речника, което съкращава търсенето 30 пъти.
- последния знак - отново 30-кратно съкращаване
- всички букви в думата и броя на срещанията им
- кратките думи наоколо за проверка в корпус при двусмислици

4. Двусмислици след тези обработки ще има само тогава, когато думите са с над три знака, пишат сe с точно едни и същи букви, и първата и последната им буква съвпадат. Доколкото се вижда от пръв поглед, в примерния текст може би няма такива думи.

Тогава може да се помисли за проверка в корпус за това коя поредица от възможни думи е по-вероятна.

Тогава не ми се занимаваше да програмирам решението, това решение ми се струваше очевидно, а резултатът - безполезен.

...

Един от текущите ми проекти е многоцелева система за създаване и обработка на корпуси, и ако съм на кеф може да пробвам да реализирам и такова декодиране.

Ако има желаещи да се занимават с това - да се обадят!

No comments :