Самата втора версия на синтезатора на българска реч ("говореща програма", "говореща компютърна програма") е загрявка за по-горните версии от планираното развитие на проекта. Версия 3, 4 и евентуално 5 ще използват по-мощни и гъвкави архитектури - може би на няколко пъти ще има промяна, или ще се добавят алтернативни архитектури, които ще се включват по желание. (7)
По-късно ще ви покажа примерни приложения, за които аз самият използвам оригиналната версия и друг синтезатор на английски, и ще използвам новия ми софтуер, за да го правя по-добре и във все повече случаи.
* (7)... - виж забележките в края ... :)
Сайт на Тошко 2 за актуални новини: http://twenkid.com/software/toshko2/
Сравнение между "Тошко 2" и "Глас" ("Глас 2004") - един най-добрите ми продукти от тийнейджърската юнашка ера (6), комбинация от "Писар" (2002-2004) и "Глас" (2004)
Глас (Глас 2004, Писар-Глас 2004) | Тошко 2 (Глас 2, Глас 2013) | |
Хибриден микрофонемно-формантен синтезатор със синтез на плавен преход - позволява гладък говор без досадните насичания на синтезаторите със слепване, голяма гъвкавост при настройката на параметрите му и изключително компактни размери и малко използвана памет. (4) | Усъвършенстван хибриден микрофонемно-формантен синтезатор - все още с изключително компактни размери. (4) | |
Съобразява се с правилата за правоговор и фонетични изменения в българския език. | Съобразява се с правилата за правоговор и фонетични изменения в българския език. | |
Може да изгоравя ударени и затъмнени гласни, но трябва да се отбележат ръчно в текста. | Автоматично поставя ударения и по-добрe моделира ударени и неударени гласни. (1) | |
Настройка на скорост, височина (в "Глас" наречена "тембър" - дебел или тънък глас), преход и др., чрез избор на готови стойности от падащо меню. | По-удобен интерфейс за бърза настройка с плъзгачи. | |
Може да се променя само дължината на гласните. | Промяна на дължината и на съгласните. | |
Промяната на височината ("тембъра") е само по един начин. | По-богати възможности за промяна на тембъра и по-разнообразни гласове.(2) | |
Монотонен говор. | Автоматична интонация според текста и възможност за ръчно задаване на интонация. (1) | |
Няма динамика на вокалната енергия. | Динамика на вокалната енергия. | |
Може да запише изговореното в некомпресиран файл за слушане без програмата (PCM, WAV). (3) | Може да записва в некомпресиран файл и в MP3 и др., и ще е видима функция. | |
Работи и под Linux с емулатора Wine. | Ще се стремя да запазя този принцип. | |
Работи с ANSI текст - еднобайтови символи, Windows-1251. Mоже да импортира и МИК (ДОС-овска). Win-1251 понякога създава проблеми под Linux, който използва UNICODE. | Работи и с UTF-8 UNICODE текст. | |
Може да прочита някои съкращения, цифри - разширява се от потребителя от конфигурационен файл. | Разширени функции за прочитане на числа, дати, някои думи на английски и др. (1) | |
X1 | X1 - Тайна! Очаквайте като излезе | |
Промените на настройките стават само в диалогов режим през графичния интерфейс. | Настройките ще могат да се задават със скрипт в самия текст или отделно - за по-изразително четене с подсилена интонация, промяна на темпото на говор, паузи и пр. | |
X2 | X2 - Тайна! Очаквайте като излезе | |
... | И др. изненади, и допълнения по желание на потребителите! |
(1) - Обхватът и точността на тези функции ще се разширява с времето и междинните версии. Вероятно ще създам платформа, с която потребителите да маркират ударения и да обучават системата, да се добавят примери със съкращения и изговор др.
(2) - Някои функции може и да не са налични веднага в първата публикувана алфа версия.
(3) - Имаше запис на говора във файл за вътрешни нужди, но включването му ставаше чрез конфигурационния файл и не беше упоменато как става. :)
(4) - Обвивката на "Глас" беше текстовият ми микро-редактор "Писар", изестен в Download.BG по онова време като "Българският Notepad" - макар че беше по-мощен от Notepad, въпреки изключително компактния изпълним файл, писан на Си. Компресираният .zip пакет на "Глас 2004" заемаше само 173 КБ, използваше около 2 МБ памет, основно буфер за изговореното, като това можеше да се настройва в конфигурацията и стойността по подразбиране беше излишно голяма. На практика можеше да работи и с няколкостотин КБ свободна оперативна памет под Windows 95, т.е. вероятно може да се пренесе и да работи нормално дори и на обикновен Java телефон от онези години - 2003-та, 2004-та...
(6) - Помните ли юнашката епоха :D, юнашкото наречие, юнашките разкази и стил? Вижте ДРУБЕ/ДЗБЕ в блога.
(7) Новите архитектури - мислил съм за този прогрес и писал още преди 9 години, докато създавах "Глас" на един дъх за 4-5 седмици, и по-късно преди 5 години през 2008 г., във връзка с магистърската ми дипломна работа, но все не им идва ред да ги реализирам. Надявам се вече да ги материализирам, но първо ще дооползотворя възможностите на тази архитектура и смятам да дам на потребителите полезен продукт. :)
Поредицата от нови архитектури - нещо подобно на това, което правят колегите от Intel през 2-3 години: tick-tock, нова микро-архитектура процесори. http://en.wikipedia.org/wiki/Intel_Tick-Tock
© Тодор Илиев Арнаудов 2013
Тош 2004 |
Сайт на Тошко 2: http://twenkid.com/software/toshko2/
http://research.twenkid.com
http://twenkid.com
Думи: говореща програма на български, TTS Bulgarian, ТТС български, синтез, реч, говор, Android, Windows, PC, Linux, Win32, българска, говор, говореща програма, говоряща, интелигентен, агент, асистент, чат, бот, conversational, agent, chat, bot, speech synthesis, text-to-speech synthesis, talking program, Twenkid Research, Todor Arnaudov's, Tosh, Тош, 2004, 2013, софтуер, програми, софтуерно, инженерство, разработка, девелопъри, девелопери, developers, developing, audio, звук, звукова обработка, аудио обработка, говореща компютърна програма, помощник, изкуствен интелект, мислеща машина, изкуствен разум
1 коментара:
Вижте и изтеглете (за Windows XP и по-нови): http://twenkid.com/software/toshko2/
Пусната е безплатна версия (по-точно "donate-ware", с молба за дарения) 2.060-алфа ...
Post a Comment