http://github.com/twenkid https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/README.md http://eim.twenkid.com http://twenkid.com
Monday, March 11, 2024
BgGPT-7B-instruct-0.2 vs Mistral-7B-instruct-0.2 - Първи сравнения
http://github.com/twenkid https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/README.md http://eim.twenkid.com http://twenkid.com
Monday, March 4, 2024
Wednesday, February 28, 2024
BGGPT #3: ИЗКУСТВЕН ИНТЕЛЕКТ: ХАЛЮЦИНАЦИИ, ГРУПОВИ ЗАЯВКИ, ПРЕВОД, ПАРАМЕТРИ ... БЕЗПЛАТНО В КОЛАБ
Трета част от изследванията на "Свещеният сметач" на BgGPT-7B-Instruct, дообучен от INSAIT. Как да използвате BgGPT-7B безплатно в Колаб, да пускате много групови заявки наведнъж, за какво служат параметри като top_k и temperature, как халюцинира по въпроси, свързани със спортисти и може ли да се разчита на фактологични резултати и др. Следват продължения. Изпробвайте модела без мощна видеокарта върху Tesla T4 от Гугъл.
Third Part of the BgGPT (Mistral-7B-Instruct) study by The Sacred Computer. (In Bulgarian): coding batch queries with varying parameters, what top_k and temperature does (brief, more details in next episodes), can it translate and take advice, how does it hallucinate etc.
https://youtu.be/BEpoaC_7Y2Y
Гледайте и другите части и тетрадката в Google Colaboratory, в гитхъб репото в http://github.com/twenkid/BgGPT и др. и подкрепете "Свещеният сметач": дружество за мислещи машини, творчество и развитие на човека, основано през 2000 г. като списание "Свещеният сметач" от Тош: истинският автор на оригиналната стратегия за развитие на България чрез изкуствен интелект (мислещи машини) от 2003 г. ("Как бих инвестирал един милион с най-голяма полза за развитието на страната"):
На интелигентния речник-преводач "Smarty", най-умния речник в света по онова време, още в далечната 2007 г. https://github.com/Twenkid/Smarty, на първия в света курс по Универсален изкуствен разум (Artificial General Intelligence) през 2010 г. в Пловдивския университет "Паисий Хилендарски" (8 години преди курса на MIT) и др. (виж в блога)
https://github.com/Twenkid/izkustven-razum-i-razvitie-na-choveka-kniga
При все това "Сметач"-ът е с нулево финансиране. Ако можете, помогнете! Имаме нужда от всичко: финанси, хардуер, изчислително време, всякакви съдружници и другари за изследвания и разработка, разгласяване на фактите, които са "неудобни" за някои, за които е по-изгодно исторята да е започнала с тях.
http://artificial-mind.blogspot.com
http://eim.twenkid.com
http://research.twenkid.com
Виж проекта: "Специалист по всичко" към който ще са част и разработките с БгГПТ и др. езикови модели и обработки. https://github.com/Twenkid/Vsy ...
...
Sunday, February 25, 2024
BgGPT-Instruct-0.1 - Mistral7B in Google Colab - Chat interface for convenient usage and Many More Tests
The "Sacred Computer" studies and applies more tests of the INSAIT's finetuned Mistral-7B-instruct (BgGPT) on Google Colab, so everybody can experiment before the official release which is announced as 3.3.2024.
Is INSAIT's claim that the model is "comparable to ChatGPT" reliable or it is just an advertising slogan and it is more similar to GPT2? (Or all similar LLMs are, this is not a fault of a single model).
Donate cloud services if you wish to support me to conduct more deeper and thorough experiments. So far the Colab has limitations: 16 GB (15 shown on the dashboard) of the Telsa T4 are barely enough, attempts to execute summarization on "long" texts of 500 etc. characters failed due to Out of memory error.
Повече тестове на BgGPT 7B в Google Colab - дали претенциите за сравнимост с ЧатГПТ ("в някои задачи") отговарят на истината, или повече прилича на GPT-2? (GPT2-Medium на Свещеният сметач е от 2021 г). Кои са силните и слабите му страни? Следват още продължения и развитие на автоматизирани тестове, може би и обстойна техническа статия.
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/
https://github.com/Twenkid/BgGPT/
Monday, February 19, 2024
BGGPT-7B в Google Colab - без мощна видеокарта! Изпробвах българския Изкуствен Интелект на INSAIT - но дали е толкова умен?
https://youtu.be/1aDbAJCdPK8
Виж също програмите на най-известния български програмист в гитхъб Гeoрги Гергинов.... Автор на llama.cpp и др. много интересни разработки. Виж във видеото и тетрадката.
Wednesday, February 7, 2024
Ambulgul: The Lord of the Rings of Bulgaria - The new animated short film by Twenkid Studio | Амбългъл: Властелинът на пръстените на България: I част
https://youtu.be/VPj9L61R_Ak
Ambulgul is a multi-personality creature which is searching his precious: the Power in the forests of Bulgaria. The new work from the series "Arnold Scwarzenegger: The Governor of Bulgaria" which was created using Arnoldifier, the deepfake library developed by The Sacred Computer to work with grayscale images for higher performance, by extending Deepfacelab 2.0. Find it on Github.
https://github.com/Twenkid/DeepFaceLab-SAEHDBW
https://youtu.be/VPj9L61R_Ak
* It's rendered with a a still rolling Geforce 750 Ti 2 GB (2014 model), a part of the overall parody, LOL. "The power of Arnoldifier". :))
Tuesday, January 30, 2024
Проект на частични съмишленици на Дружество за Защита на Българския Език (ДЗБЕ/ДРУБЕ) - писмо и коментари
От септември 2023 г. , 10.9.2023
Браво на колегите за желанията и намеренията и за техния речник. (ДРУБЕ = РУ...развитие и усъвършенстване...)
Имаме разминавания по някои показатели и възприятия (виж по-долу) и не се получи равнопоставена по сложност и съдържание общуване* [виж бележки за този въпрос и др. в края].
ДЗБЕ, класическо: http://eim.twenkid.com/dzbe
Напоследък добавях някои от новите думи в Езикотворец, възникнали след 2004 г. (ха-ха...), може да има нова мини-версия (вграденият синтезатор на реч в Езикотворец 8: Глас 2004 не работеше коректно под Уин 10 и трябваше да се изключи от конфигурацията, или от менюто да се избере да не говори и др.):
http://eim.twenkid.com/old/ezik
https://github.com/Twenkid/Ezikotvorec
ДЗБЕ и паралелният независимо възникнал ДЗБЕ-подобно движение в последните години, което в някои отношения допуска грешки от ранния период на ДЗБЕ, в други показва умерено скрито или явно "чуждицолюбство"
https://github.com/stelf/en2bg4term/issues/81
Twenkid commented on Sep 5, 2023 • edited
edited
Здравейте, поздрави от ДЗБЕ и "Свещеният Сметач"! "Дружество за Защита на Българския Език" (ДЗБЕ), по-късно също ДРУБЕ (Развитие и Усъвършенстване), част от сп. и всестранно изследователско дружество "Свещеният Сметач"От класическата страница на ДЗБЕ:
Тодор Арнаудов, 2002 - 2005
https://eim.twenkid.com/old/eimworld14/dzbe.htm
http://eim.twenkid.com (старите броеве, 2001-2004)
"Упадъкът на езика на българското общество"**https://eim.twenkid.com/old/3/27/upad.htm (...)
https://artificial-mind.blogspot.com/2013/09/creative-lack-of-ideas-linguistcs.html
(...)
(http://eim.twenkid.com, има второ издание, но не е качено там) И др. ==================================
|
Здравейте, поздрав и на вас! Откривам някои общи позиции в целите на проектите. Има ли нещо, с което конкретно предлагате или предполагате да взаимодействат двата проекта? |
Twenkid commented on Sep 10, 2023
Здравейте, На първо време предлагам да прочетете предишната книжнина и да я посочвате където е подходящо: "предишна работа" в науката, ако имате такъв тип насока, култура, да цитирате предишни работи и т.н., особено когато съвпадат с вашите открития и изводи, направени много по-късно. Много от нещата, които прочетох като открития, бележки към "неразумните и юроди", очаквани реакции, обяснения са си направо същите като от преди 20-тина години, но не ми харесва стила и езика, с които е написан манифеста, и липсвата на "плът", няма изследователски материал и литература, а само най-общи неща. (...) Но разбирам, че вероятно сте "само" програмисти, инженери, но не е езиковеди, поети, писатели, поне не звучите като такива. За взаимодействие - например взаимно споменаване. Ще го направя, ако/когато пиша нещо ново. Впрочем, от години се каня и да сглобя "Събрани съчинения", но се отлага по различни причини, още не е дошъл моментът на достатъчна "езикова власт" (виж по-долу и в "Упадъкът..."). Аз/ДЗБЕ нямам претенции за постигане на съгласие с всички, кои думи навлизат в езика в широка употреба зависи от всички езикови деятели, от всички участници, и също така според мен е положително да има повече разновидности на словоформите. ДЗБЕ предлага, това става чрез литература, чрез употреба на езика, не само чрез речник. (За да въздейства - трябва езикова власт). Юнашкото наречие, или "сметачобългарски", си е каквото си е, в неговия "официален" речник и юнашка култура, литература. Например то не е просто "речник на чуждите думи" (както някой беше писал в Download.bg), някои понятия нямат точни съответни и не са преводи от английски, те са понятия, които са били нужни да изразят определена мисъл. Важна работа е "Упадъкът на езика на българското общество", тя обобщава много други творби. Без езикова власт и без съответна литература, в обществото работи "Болестта на папагала". Но по същия начин с подходяща езикова власт и книжнина, по същия начин повече носители на езика биха прихванали и съответни други думи, словоформи, синоними и т.н. За целта са нужни влиятелни личности, вие/аз/ние да бъдем влиятелни, да ни чуват, слушат, гледат, да ни уважават. Ако не сме важни, както е за сега, отделни хора може да ни поздравят, да си кажат, че е нещо хубаво, но най-вероятно нищо няма да направят, няма да започнат да изпозлват сметач, глаголище, вършач, взаимлик и вършесъщност и още стотици словоформи от юнашкото наречие, или просто няма да намалят чуждиците. Много хора, или повечето, направо ще се подиграват, ще ви/ни сочат с пръст като "драснипалниклечковци" (единственото, което може би са чували) и други клишета. Това вече е описано в литературата, "Свещеният сметач" и т.н., и май така и става все още. Един наш идеен съмишленик е например политик, доктор по етнография и пр., който обръща внимание на езика, но от неподкрепящите смятат него и партията му за крайност, както и "това" за крайност, като и за мен крайният пуризъм си е прекален, той не е нужен и е вреден, чуждите думи обогатяват езика, кратките и добре звучащи словоформи и пр. не са излишни, в повече идва когато се забравят и родните и не се създават и български синоними, които също обогатяват. И т.н. За повечето "нормални хора", които въобще биха взели отношение, дори да се употребяват български съществуващи думи, синоними, за неща за които са си свикнали на чуждиците обаче също е "крайност". Научих за Вас от споделяне във ФБ, затворена IT група, няколко други коментара бяха подигравателни, и аз им отговорих подобаващо. Повечето хора въобще са безучастни. Както е описано и в увода на "Заблуждаващите понятия". Те не са езикови дейци, не им прави впечатление. "Важно е да се разбират". Но "на първо време" (за ДЗБЕ било и 20-тина години по-късно, хаха), може да опитаме да открием и достигнем до повече съмишленици и всички те да знаят и да разберат, че не са съвсем сами и че не са луди. В "класическия период" на ДЗБЕ бяхме единици, активен, изследващ и създаващ голям обем литература от всякакви жанрове, свързани с това дело, включително художествена, бях само аз, Открих един друг деец, който се е опитвал паралелно да събуди такова движение - без успех. Няколко други ме подкрепяха морално. Още един, който учеше философия, после и докторантура, който беше краен пурист. Имаше блог-речник, но после май го е изтрил. ПП. МДР, това, че не сте чували за ДЗБЕ показва колко малък е интересът по темата, може би не сте търсили достатъчно, но и малко се знае. "Ясно е, че съществуват думи в българския, чуждици, които вече са утвърдени в книжовния език и тях няма да ги закачаме в нелепи опити за едва ли не по-точен превод. Например: index/индекс, program/програма, object/обект vector/вектор, stack/стек, calculator/калкулатор, file/файл и т.н. Може би тях в един момент ще ги запишем в отделна графа. А току виж се появят и техни преводи.." Съжалявам, в този раздел сте чуждицолюбци или просто не показвате достатъчно въображение... :) В сметачобългарския има чудесни преводи и словоформи, и/или синоними или разновидности, за някои от горните - по много. За "програма" в различни обслови има: глаголище, предписание, казборед (макар че основния смисъл на последната е алгоритъм). Вектор е посочник. За стек има куп. Калкулатор - сметалка, а "ЕЛКА" (електронен калкулатор, но не сме пуристи и това си е българско име) е от 1965 г. Файл - свитък. Обект - и така, и "предмет". Да, "то не е точно предмет" - на английски Е точно предмет, единствено от обслова и начина на употреба се разбира какво точно указва този "обект", и англоговорящите не се оплакват, че им трябва друг термин. Също дори и да не знаете за тях или да не се сещате (едва ли не сте чели думата "показалец" или "указател" например), това да се каже, че опитите за превод са нелепи, донякъде противоречи на други ваши твърдения, за преподаватели и пр., които не можели да намерят съответни думи. Да, вие споменавате, че търсите съгласие ("консенсус"), а не противопоставяне ("конфронтация"), и се борите с "илитератите" (това не е дума от езика за сметачи, не влиза в параграфите на проекта...). Търсенето на съгласие обикновено изисква да има взаимодействие, обсъждане, форум. Нещо което споменатият друг деец се е опитал да създаде с призив за намесата и участието на БАН през 2002 г - "Упадъкът..." разказва тази случка. И т.н. ПП2. Още един пример за нещо, което уж е непреводимо: " api (application programming interface) | приложен интерфейс | или букв. програмна повърхност на взаимодействие" В юнашкото наречие има две различни понятия за английското едно "интерфейс", които изразяват различни гледни точки и различни страни на явлението (в манифеста говорите за някакви "Феномени", имаше такъв вестник за паранормални явления).. Взаимлик - взаимодействието, взаимното действие, взаимността, срещата, свързването (API-тата са по-скоро взаимлик) Не само че звучи по-добре в българска среда от "интерфейс", а и може да се употреби по-отчетливо. "Компютър" има още много варианта и форми в юнашкото наречие, освен "изчислителна машина". Юнашкото наречие използва умалителна и "уголемителна" форма за посочване за размера: Сметачище - голям сметач, сървър По подобен начин за думата "вършач" (процесор): "вършаче" - микропроцесор. Поздрави ... Бележки * Нямаше особена взаимна кореспонденция на сравнимо ниво на езикова сложност обаче. Също и в други случаи на други преоткрили открития или обобщения на "Свещеният сметач" липсва "култура" или желание да се посочи "предишна работа" както се прави в научни трудове. Липсва чувство и желание за приемственост и надграждане. Всеки "клон" е отделен.
|
Tuesday, January 16, 2024
BgGPT is the mightiest new Bulgarian LLM model, but technically not the first
https://therecursive.com/bggpt-the-first-bulgarian-language-model-is-launched/
The info is 7B params, trained on 3B sentences.
- "The first Bulgarian large language model, BgGPT, was announced today by INSAIT. It was created specifically for the Bulgarian state, users, public and private organizations."
This is impressive and well done, however it is not the first LLM for Bulgarian.
The first known to me is the experimental training GPT2-Medium model (331M) trained in the summer of 2021 by me/The Sacred Computer:
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/
GPT2-Medium Training from Scratch on Colab for Any Language - Tips & Tricks by Twenkid
https://youtu.be/F-Xt-cK4L-g
It was just an experiment on a small dataset (about 140 MB UTF8) and the trained model wasn't published because of part of the dataset and that it seemed to start memorizing too much (needed more data) and the training setting wasn't good (Colab/Tesla T4 and training each iteration on on subsets of the dataset due to this setting). I will probably publish it anyway.
Some guy asked for the weights, but there wasn't more interest about it what so ever. I see a few models from 2022-2023 in hugging face.
On the joke side, there's also RhodopeGPT (a Mountain in Bulgaria, Greece and Turkey):
https://github.com/Twenkid/rhodope-gpt
(An experiment with simplest transformer based on Karpathy's example with a GPT2 tokenizer and save-load)
This is a serious project, but lacking partners:
https://github.com/Twenkid/Vsy-Jack-Of-All-Trades-AGI-Bulgarian-Internet-Archive-And-Search-Engine
* They mention that the research has started back in 2020: "BgGPT’s initial project research began in 2020 under the leadership of Prof. Martin Vechev, Professor of Computer Science at ETH Zurich. He is also a founder and architect of INSAIT. The aim for 2024 is to continue the development of an AI computing center, attracting international partners"
Tuesday, January 9, 2024
Skoltech - Skolkovo Institute of Science and Technology - Neural Optimal Transport, the convergence of different AI paths and comparison of research institutes missions
Published as a conference paper at ICLR 2023
NEURAL OPTIMAL TRANSPORT, Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev https://arxiv.org/pdf/2201.12220.pdf
ABSTRACT
We present a novel neural-networks-based algorithm to compute optimal transport maps and plans for strong and weak transport costs. To justify the usage of neural networks, we prove that they are universal approximators of transport plans between probability distributions. We evaluate the performance of our optimal transport algorithm on toy examples and on the unpaired image-to-image translation
As of the optimal transport - as discussed in the darker ages of AGI, IMO at a high level many or all working approaches are actually analogical, homeomorphic, isomorphic and convergent. The same problems are solved with different terminology and formulation. Some minimize the "earth mover's distance (Wasserstein distance), other "the energy" or "the free energy", or the "cost", or find the maximum "reward" (which is functionally the same), shortest path. An underground AGI-er which I know is also framing the problem as a logisitcs one, transporting "items". Numenta's/Hawkin's "frames of reference", Levin's/Field's "navigating different spaces" (which is also a direct consequence of just that the Universe is a Computer, and the basic cognitive primitives of time, space, causality; see also :"Embodiment is just coordinate spaces, interactivity and modalities - not a mystery" https://artificial-mind.blogspot.com/2011/12/embodiment-is-just-coordinate-spaces.html
Deep learning in general is doing that, minimizing "the loss function", the difference, maximizing match, and the sequences of activations could be viewed as "paths". Another interpretation, which is similar, is Clustering (CogAlg, also Theory of Universe and Mind, which encompasses many views). It is all "variational computation", "optimization" and mapping (matching) etc., within the hierarchical prediction-causation, and the actual problem is the definition of adequate configurations, core representations of the problem spaces, the space of the development, the possible actions and measurements etc. The rest are the technical details of the "optimization", the traversal of these spaces, which is search and match. Etc. The huge datasets are probably the bigger part of these spaces and that's one reason why the DL critics are blaming them for being "just big DBs", "hash tables" etc. See "Unvierse and Mind 6" when it is published with notes about why they are not "just...": https://github.com/Twenkid/Theory-of-Universe-and-Mind/blob/main/Universe-And-Mind-6.md
Now the "embeddings" or "vectors" are the preferred terms of what was formats, representations, records, general "types" of the data.
That reminds me of a short rant of B.K. where he complains about the underground AGI developers, "hackers", who claimed they knew the "secret of AGI", but they kept it proprietary etc., on Twitter. They could have only tricks, but they couldn't explain it etc.
Well, IMO there's no secret at the broad theoretical level. AGI was conceptually explained and clear as of what is required to be performed, to achieve computationally and what to "optimize" in the early 2000s (prediction-compression, hierarchy, incremental precision and range, multimodality, intermodality, "creativity is imitation at the level of algorithms" etc.), e.g. in the works/ideas which I try to get credit for being rediscovered and now praised by academic researchers - The Theory of Universe and Mind. The secret could be in efficiency, as the "cranks" and the ones with less resources are required to be more clever, but with more or less resources, if a system is demonstrating AGI and is able to communicate, to produce comparable patterns, to solve corresponding problems etc.as another AGI/human/cognitive system, that implies that they have some isomorphic structures and representations at some level or some way of reviewing/observing/measuring them. Etc.
...
Back to Skoltech:
The institute is interdisciplinary and has diverse research directions, not only AI, and it's founded in 2011 in a collaboration with MIT.
Skolkovo Institute of Science and Technology (Skoltech) in Moscow is a new model university in Russia, established with the vision of being a world-leading institute of science and technology. Skoltech mission is to impact economy and society development based on academic and technology excellence and entrepreneurial spirit. Integrating entrepreneurship and innovation, Skoltech delivers graduate educational programs to shape next generations of leaders in science, technology and business. Skoltech is recognized among top-100 world young universities in Nature Index ranking, taking # 65 place. https://360.skoltech.ruA summary of the AI department: https://crei.skoltech.ru/ai
"Find out more about Skoltech AI research groups:
Computational Intelligence, Prof. Ivan Oseledets Mobile Robotics, Prof. Gonzalo Ferrer Natural Language Processing, Prof. Alexander Panchenko Intelligent Signal and Image Processing, Prof. Anh Huy Phan Multiscale Neurodynamics for Intelligent Systems, Prof. Jun Wang Mathematical Foundations of AI, Prof. Dmitry Yarotsky AI & Supercomputing, Prof. Sergey Rykovanov Quantum algorithms for machine learning and optimisation, Prof. Vladimir Palyulin Computational Imaging, Prof. Dmitry Dylov AI for Materials Design, Prof. Alexander Shapeev AI-driven Modeling, Prof. Ekaterina Muravleva Parallel algorithms for AI, Prof. Alexander Mikhalev Tensor Networks & Deep Learning, Prof. Andrzej Cichocki"
INSAIT’s mission is to establish a first-of-its-kind research institute for computer science and artificial intelligence in Eastern Europe with sole focus on scientific excellence. INSAIT’s faculty and staff will conduct world-class research, attract outstanding international scientists, and training the next-generation of graduate and undergraduate students.
INSAIT is expected to have transformational effects on society and economy at large: attracting high-quality diverse talent to the region, preventing brain drain, creating new state-of-the-art educational programs, pushing towards a more product-driven economy by inventing high-valued intellectual property (IP), enabling deep research-guided technological companies, attracting big technology companies, and many more.
Compare to the Sacred Computer's Mission and Strategy from 2003, 21 years ago:
https://translate.google.com/translate?sl=auto&tl=en&u=https://artificial-mind.blogspot.com/2020/07/interdisciplinary-research-institute.html
(Originally in Bulgarian, Translated by GT)
How would I invest a million with the greatest benefit for the development of the country? - Interdisciplinary research and creative institute
"(...)The science of Artificial Intelligence (AI) is "middle aged" and some of its "fathers" are also "fathers" of the computer age. As soon as they "gave birth" to programmable computing machines, the "fathers" began to dream of the moment when the calculator would become a thinker... (...)I believe that it is only a matter of years until we find the right "parts" and build a "machine" from them to overcome the "Wall" and meet the Machine.STRATEGYAccording to my strategy, a scientific-research Institute would be founded, which would unite computer scientists, engineers, art critics, linguists, philosophers, psychologists, neuroscientists; multilingual translators; creators in various arts - writers and poets, composers and musicians; artists, photographers and film directors. The members of the Institute will be, with advantage, having knowledge and skills in several fields, both scientists and creators, because the goal of the searches will be to discover the commonality between all manifestations of reason, between the sciences and the arts. The form of thought is different in different manifestations of thinking, but its essence, the underlying mechanisms, are the same, and only the data with which it works - word, sound, images, sequences of images, abstract concepts and etc.The institute will also play the role of a "wing" that finds, "protects and wings" gifted people to support their development and, if they wish, to enjoy their talent in research.The Institute will have a program house, in which "incidentally" "smart" application software will be produced, using the developments of the Institute on the way to IR: programs for automated design, multimedia, word processing, translators, games, etc. application programs.The goal of the Institute will be the programmatic creation of a MM, possessing universal capabilities for exchanging information with other computing machines, in particular robotic modules. The robots created by the robotics department will be, in addition to a way to use IR for physical activities, a means of attracting public attention and advertising for the Institute.Once a Thinking Machine is realized, it will be able to be used in all creative spheres of human activity and in the work of the Institute itself.I suppose that after the Discovery and the creation of the MM, running on standard computers, the Institute will be "armed" and will be able to set aside a design department to develop new complete computing systems specially adapted for the operation of the Machine.(...)"Tuesday, January 2, 2024
Тошко 2.075 - синтезатор на българска реч и малко английски (новини от гитхъб и съвети) | Toshko 2.075 - Compiled with Visual Studio 2019 etc. Updates
#Toshko_2
https://github.com/Twenkid/Toshko_2/
Тошко 2 - Bulgarian Text-to-Speech Synthesizer - Синтезатор на българска реч и малко английски
За Windows, но работеше и под Linux/Wine, възможно е да има проблеми с кодировките при копиране на текст - не съм пробвал напоследък, някой да опита и да коментира.
Виж папка: Versions
**Новини:** 12.2023: Оправен изпълнимия файл на 2.075, беше качена някаква неработеща версия. Компилиран е с VS 2019 x86, така че може да е нужно да се изтеглят съответните "Redistributable" files. https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170
https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170#visual-studio-2015-2017-2019-and-2022
X86 https://aka.ms/vs/17/release/vc_redist.x86.exe Permalink for latest supported x86 version
Съвети: Играйте си с настройките за бързина (на гласни), съгласни (дължина на (шумови) съгласни)), височина - левите плъзгачи са за фина настройка, десните за по-груба с по-големи величини.
Също сменяйте интонацията: пробвайте различни, например дали РАВНО няма да ви допадне най-много (някои от другите имат прекалено големи амплитуди).
Могат да се правят нови интонационни контури, но като го създавах беше само пробна версия и се пишат ръчно числа, не се съобразява с вида изречения и т.н. (Въобще това беше по-разумно да е на Питон или друг скриптов език, а не на основния С++).
Също така препоръчвам да пробвате и бащата на Тошко 2:"Глас 2004", чиито глас няма интонация, не знае ударенията (може да слага, но само ръчно, докато Тошко 2 има известни основни познания, речник, който може и да се разширява) и не може да удължава или скъсява шумовите съгласни, но има по-фин контрол на синтеза до брой периоди на почтипериодичните функции и настройките на преходите звучат интересно ("виещо", както го наричах някога). Глас 2004 беше вграден в текстовия редактор "Писар", тогава известен като "българския Notepad". Изключително малък като размер - десетина килобайта, с някои по-добри възможности от тогавашния Notepad (за Windows 95, 98, ...) и въоблик на български: произволен шрифт, уголемянване.
Saturday, December 30, 2023
New Year Address of the Prime Minister of Change [DeepFake]
A new episode from the Arnoldifier series: "Arnold Schwarzenegger: The Governor of Bulgaria" https://github.com/Twenkid/DeepFaceLab-SAEHDBW
Using my Arnoldifier (DeepfaceLab-SAEHDBW); Wav2LipHD-Super resolution, RealTimeVoiceCloning and DALL-E 3. Enjoy! Like, Share and Subscribe, of course! :))
https://youtu.be/AojlaVnjOJY
// Bulgarian political satire, "Сглобката", "некоалицията", ... Невъзможната абсурдна коалиция.
Новогодишно обръщение на министър председателя на Промяната Кирил Петков - дийпфейк.