Hello! I'm Todor, a.k.a. Tosh and Twenkid - a Universal man, author of the groundbreaking world's first university course in Artificial General Intelligence (Plovdiv 2010,2011) - whopping 8 years before the famous MIT course of the now celebrity podcaster Lex Fridman; and of another pioneering body of works called "Theory of Universe and Mind" (2001-2004). I am a Researcher, Developer and Entrepreneur in AGI, where I was a child prodigy and visionary as early as my teenage years in the early 2000s, beyond the expected computer science and also linguistics/writing, in the fields of Transhumanism, Digital Physics/The Universe as a Computer / Discrete Universe, Philosophy of AI, Mind and Universe as simulators of virtual universes, the tight connection and mapping between the principles underlying the Universe as a whole and systems, and Mind/General Intelligence. My works: the Theory of Universe and Mind were published in one of the first e-zines for these topics, called "The Sacred Computer", which I created myself. I keep encountering my discoveries, generalisations, ideas and directions repeated and reexpressed as fresh or interesting by many top-level researchers, up to now, 2023 (one of many is the Free Energy Principle/Active Inference line of research etc.) I started to discover the matches since 2007, with Jeff Hawkins's "On Intelligence", many others came later. See and read more in About and in the links, where you can find the original writings as well. I've been working on a huge collection book, currently called "Artificial General Intelligence and Transhumanism: History, Theory and Pioneers", which keeps growing, currently above 1240 1600 pages and growing, which explains, demonstrates and points out the matches to the Academic etc. research published after those early publications, which indirectly serve as a delayed "peer review" - or a call for you to join me in my quest for AGI. Check also my project: the AGI infrastructure called "Vsy" or "Jack of All Trades" and the other projects in Github.
Welcome to my "Universal Universe": "Artificial Mind" or "Sacred Computer". I am always looking for partners and collaborators, interesting project and new fields and things to study, explore and create. Join me or invite me!

Monday, March 11, 2024

// // Leave a Comment

BgGPT-7B-instruct-0.2 vs Mistral-7B-instruct-0.2 - Първи сравнения

Кратки новини във влог от Пловдив за BGGPT 0.2 на INSAIT и тестовете на Свещеният сметач в сравнение с MISTRAL - моделът майка. За кое постижение да поздравим INSAIT? Гледайте и другите клипове от поредицата за повече подробности и работа с модела и с други езикови модели в Гугъл Колаб и на ваш компютър, както и за доработки на БгГПТ от "Свещеният сметач". Следват продължения. https://youtu.be/qUONG7cVfiU
INSAIT, Машинно обучение, големи езикови модели, LLMs, BgGPT-7B-instruct, Mistral-7B-instruct, български език, интелигентност, изкуствен интелект, NLP, natural language processing, институт
http://github.com/twenkid https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/README.md http://eim.twenkid.com http://twenkid.com
Read More

Monday, March 4, 2024

// // Leave a Comment

Премиера на BgGPT Онлайн: 3 март 2024! Какво се е случило? Влог и Анонс на следващите епизоди | BgGPT web premiere 3-3-2024

Read More

Wednesday, February 28, 2024

// // Leave a Comment

BGGPT #3: ИЗКУСТВЕН ИНТЕЛЕКТ: ХАЛЮЦИНАЦИИ, ГРУПОВИ ЗАЯВКИ, ПРЕВОД, ПАРАМЕТРИ ... БЕЗПЛАТНО В КОЛАБ

Трета част от изследванията на "Свещеният сметач" на BgGPT-7B-Instruct, дообучен от INSAIT. Как да използвате BgGPT-7B безплатно в Колаб, да пускате много групови заявки наведнъж, за какво служат параметри като top_k и temperature, как халюцинира по въпроси, свързани със спортисти и може ли да се разчита на фактологични резултати и др. Следват продължения. Изпробвайте модела без мощна видеокарта върху Tesla T4 от Гугъл.

Third Part of the BgGPT (Mistral-7B-Instruct) study by The Sacred Computer. (In Bulgarian): coding batch queries with varying parameters, what top_k and temperature does (brief, more details in next episodes), can it translate and take advice, how does it hallucinate etc.


https://youtu.be/BEpoaC_7Y2Y

Гледайте и другите части и тетрадката в Google Colaboratory, в гитхъб репото в http://github.com/twenkid/BgGPT и др. и подкрепете "Свещеният сметач": дружество за мислещи машини, творчество и развитие на човека, основано през 2000 г. като списание "Свещеният сметач" от Тош: истинският автор на оригиналната стратегия за развитие на България чрез изкуствен интелект (мислещи машини) от 2003 г. ("Как бих инвестирал един милион с най-голяма полза за развитието на страната")

Оригиналната стратегия: https://www.oocities.org/todprog/ese/proekt.htm

На интелигентния речник-преводач "Smarty", най-умния речник в света по онова време, още в далечната 2007 г. https://github.com/Twenkid/Smarty, на първия в света курс по Универсален изкуствен разум (Artificial General Intelligence) през 2010 г. в Пловдивския университет "Паисий Хилендарски" (8 години преди курса на MIT) и др. (виж в блога)

Очаквайте книгата "Пророците на мислещите машини: Изкуствен разум и развитие на човека: история, теория и пионери"

https://github.com/Twenkid/izkustven-razum-i-razvitie-na-choveka-kniga

При все това "Сметач"-ът е с нулево финансиране. Ако можете, помогнете! Имаме нужда от всичко: финанси, хардуер, изчислително време, всякакви съдружници и другари за изследвания и разработка, разгласяване на фактите, които са "неудобни" за някои, за които е по-изгодно исторята да е започнала с тях.

http://artificial-mind.blogspot.com
http://eim.twenkid.com
http://research.twenkid.com

Виж проекта: "Специалист по всичко" към който ще са част и разработките с БгГПТ и др. езикови модели и обработки. https://github.com/Twenkid/Vsy ... 

...

Поредицата за големи езикови модели LLM, Large Language Model, в частност този със 7 милиарда параметъра на INSAIT, дебъгнат и тестван в Google Colaboratory. Дообучен (finetuned) Mistral-7B. Тази тетрадка е качена в: 

 #bggpt #изкуственинтелект #bulgaria  #Thesacredcomptuer 


Read More

Sunday, February 25, 2024

// // Leave a Comment

BgGPT-Instruct-0.1 - Mistral7B in Google Colab - Chat interface for convenient usage and Many More Tests

The "Sacred Computer" studies and applies more tests of the INSAIT's finetuned Mistral-7B-instruct (BgGPT) on Google Colab, so everybody can experiment before the official release which is announced as 3.3.2024. 

 Is INSAIT's claim that the model is "comparable to ChatGPT" reliable or it is just an advertising  slogan and it is more similar to GPT2? (Or all similar LLMs are, this is not a fault of a single model).


This tutorial is in  Bulgarian, but the notebook is "international" and is available on Github. Also future parts may be in English and may cover also the original Mistral etc. as it seems there is too little interest by the Bulgarians for now.


Donate cloud services if you wish to support me to conduct more deeper and thorough experiments. So far the Colab has limitations: 16 GB (15 shown on the dashboard) of the Telsa T4 are barely enough, attempts to execute summarization on "long" texts of 500 etc. characters failed due to Out of memory error. 

Повече тестове на BgGPT 7B в Google Colab - дали претенциите за сравнимост с ЧатГПТ ("в някои задачи") отговарят на истината, или повече прилича на GPT-2? (GPT2-Medium на Свещеният сметач е от 2021 г). Кои са силните и слабите му страни? Следват още продължения и развитие на автоматизирани тестове, може би и обстойна техническа статия.

https://youtu.be/RjMa2XopdDs

https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/


https://github.com/Twenkid/BgGPT/




Read More

Monday, February 19, 2024

// // Leave a Comment

BGGPT-7B в Google Colab - без мощна видеокарта! Изпробвах българския Изкуствен Интелект на INSAIT - но дали е толкова умен?

 



                                     https://youtu.be/1aDbAJCdPK8


Виж също програмите на най-известния български програмист в гитхъб Гeoрги Гергинов.... Автор на llama.cpp и др. много интересни разработки. Виж във видеото и тетрадката.

Read More

Wednesday, February 7, 2024

// // Leave a Comment

Ambulgul: The Lord of the Rings of Bulgaria - The new animated short film by Twenkid Studio | Амбългъл: Властелинът на пръстените на България: I част


https://youtu.be/VPj9L61R_Ak 

Ambulgul is a multi-personality creature which is searching his precious: the Power in the forests of Bulgaria. The new work from the series "Arnold Scwarzenegger: The Governor of Bulgaria" which was created using Arnoldifier, the deepfake library developed by The Sacred Computer to work with grayscale images for higher performance, by extending Deepfacelab 2.0. Find it on Github.
https://github.com/Twenkid/DeepFaceLab-SAEHDBW 

This is the most complex Deepfake movie I've produced so far, utilizing almost two-figure number of different faces. It could be more advanced, but some compromises were made for faster creation etc., some directions for improvement of "Arnoldifier" are shared in the github repo. Also of course - a more powerful GPU and better source video*, I didn't use one with a high quality, it wasn't critical, actually a partial imperfection and "mystery" in the images is fine for animated caricatures and fantasy.

Амбългъл: Властелинът на пръстените на България: I част. [Сатиричен дийпфейк филм: анимация, комедия, фантастика, фентъзи, драма, 3 мин. Цветност: част цветен, част черно-бял. Език на звука: български и английски (със субтитри на български в картината). Автор: Twenkid Studio и авторите на The Lord Of the Rings. Премиера 30.1.2024

https://youtu.be/VPj9L61R_Ak

* It's rendered with a a still rolling Geforce 750 Ti 2 GB (2014 model), a part of the overall parody, LOL. "The power of Arnoldifier". :))

Read More

Tuesday, January 30, 2024

// // Leave a Comment

Проект на частични съмишленици на Дружество за Защита на Българския Език (ДЗБЕ/ДРУБЕ) - писмо и коментари

От септември 2023 г. , 10.9.2023

Браво на колегите за желанията и намеренията и за техния речник.  (ДРУБЕ = РУ...развитие и усъвършенстване...)

Имаме разминавания по някои показатели и възприятия (виж по-долу) и не се получи равнопоставена по сложност и съдържание общуване* [виж бележки за този въпрос и др. в края].

ДЗБЕ, класическо: http://eim.twenkid.com/dzbe

Напоследък добавях някои от новите думи в Езикотворец, възникнали след 2004 г. (ха-ха...), може да има нова мини-версия (вграденият синтезатор на реч в Езикотворец 8: Глас 2004 не работеше коректно под Уин 10 и трябваше да се изключи от конфигурацията, или от менюто да се избере да не говори и др.):
 
http://eim.twenkid.com/old/ezik
  

https://github.com/Twenkid/Ezikotvorec 

ДЗБЕ и паралелният независимо възникнал ДЗБЕ-подобно движение в последните години, което в някои отношения допуска грешки от ранния период на ДЗБЕ, в други показва умерено скрито или явно "чуждицолюбство"

https://github.com/stelf/en2bg4term/issues/81

Twenkid commented on Sep 5, 2023  

Здравейте, поздрави от ДЗБЕ и "Свещеният Сметач"!

"Дружество за Защита на Българския Език" (ДЗБЕ), по-късно също ДРУБЕ (Развитие и Усъвършенстване), част от сп. и всестранно изследователско дружество "Свещеният Сметач"

От класическата страница на ДЗБЕ:

  • ...ДЗБЕ се стреми да обогати и разшири изразните възможности на българския език, да подобри поетичността му, да се противопоставя на чуждицолюбството и невежеството.

  • ДЗБЕ използва по-пълно пилените с лека ръка словообразувателни възможности на българския език.

  • Целта на ДЗБЕ е по-красив език, в който чуждиците и чуждите думи се използват за разнообразие на изказа, а не като показатели за "научност", "висок стил", "умност", "разбиране", "международна съпричастност" и пр.

  • ДЗБЕ не е "пуристка организация", както, за съжаление, много {+повърхностни невежи}1 все още смятат, вероятно поради неспособност да разберат идеята за обработка и целенасочено усъвършенстване на език.

  • ДЗБЕ се стреми към изграждане и използване не на "по-чист", а на по-добър език от този, описан в "Упадъкът на езика на българското общество", който следва "естествения ход на нещата", т.е. езикът да се "развива", т.е. да се изражда вследствие на примитивни езикови действия и бездействия на посредствени хора, имащи неподобаващо високи трибуни; и езикът да се изражда под въздействието на неспособни да мислят, но способни да бърборят високо "папагали", вместо да се осмисля, развива и разширява с помощта и под насърчението и примера на творчески личности.

Тодор Арнаудов, 2002 - 2005

  • Обявяване на създаването на ДЗБЕ, март 2002 г.:

https://eim.twenkid.com/old/eimworld14/dzbe.htm

http://eim.twenkid.com (старите броеве, 2001-2004)

http://eim.twenkid.com/old

  • Голям обобщаващ труд от 2003 г. и извод за това как може да се промени посоката:

"Упадъкът на езика на българското общество"**

https://eim.twenkid.com/old/3/27/upad.htm

(...)

  • „Креативната“ безидейност – новата напаст в устите на папагализираната преводна „журналистика“ и на псевдоинтелектуалците

https://artificial-mind.blogspot.com/2013/09/creative-lack-of-ideas-linguistcs.html

  • "Не съм креативен, пък!" - сатиричен художествен разказ относно думата "креативен"

(...)

  • Книгата: "ЗАБЛУЖДАВАЩИТЕ ПОНЯТИЯ И РАЗБОР НА ИСТИНСКИЯ ИМ СМИСЪЛ:
    Трансхуманизъм, Цивилизация, Демокрация, Хуманен, Хуманизъм, Дехуманизация, Социална дистанция, Политическа коректност, Фалшиви новини, Евроинтеграция, Глобализация, Европейски ценности, Либерализъм и други"

(http://eim.twenkid.com, има второ издание, но не е качено там)

И др.


==================================

stelf commented on Sep 8, 2023

Здравейте, поздрав и на вас! Откривам някои общи позиции в целите на проектите.

Има ли нещо, с което конкретно предлагате или предполагате да взаимодействат двата проекта?

================================

Здравейте,

На първо време предлагам да прочетете предишната книжнина и да я посочвате където е подходящо: "предишна работа" в науката, ако имате такъв тип насока, култура, да цитирате предишни работи и т.н., особено когато съвпадат с вашите открития и изводи, направени много по-късно. Много от нещата, които прочетох като открития, бележки към "неразумните и юроди", очаквани реакции, обяснения са си направо същите като от преди 20-тина години, но не ми харесва стила и езика, с които е написан манифеста, и липсвата на "плът", няма изследователски материал и литература, а само най-общи неща. (...) Но разбирам, че вероятно сте "само" програмисти, инженери, но не е езиковеди, поети, писатели, поне не звучите като такива.

За взаимодействие - например взаимно споменаване. Ще го направя, ако/когато пиша нещо ново. Впрочем, от години се каня и да сглобя "Събрани съчинения", но се отлага по различни причини, още не е дошъл моментът на достатъчна "езикова власт" (виж по-долу и в "Упадъкът...").

Аз/ДЗБЕ нямам претенции за постигане на съгласие с всички, кои думи навлизат в езика в широка употреба зависи от всички езикови деятели, от всички участници, и също така според мен е положително да има повече разновидности на словоформите. ДЗБЕ предлага, това става чрез литература, чрез употреба на езика, не само чрез речник. (За да въздейства - трябва езикова власт).

Юнашкото наречие, или "сметачобългарски", си е каквото си е, в неговия "официален" речник и юнашка култура, литература. Например то не е просто "речник на чуждите думи" (както някой беше писал в Download.bg), някои понятия нямат точни съответни и не са преводи от английски, те са понятия, които са били нужни да изразят определена мисъл.
Стихосбирката "Играчът", написана на юнашкото наречие пък показва колко благозвучно може да се говори за сметачи и умознание, а беше написана набързо и имаше място за подобрения.

Важна работа е "Упадъкът на езика на българското общество", тя обобщава много други творби. Без езикова власт и без съответна литература, в обществото работи "Болестта на папагала". Но по същия начин с подходяща езикова власт и книжнина, по същия начин повече носители на езика биха прихванали и съответни други думи, словоформи, синоними и т.н. За целта са нужни влиятелни личности, вие/аз/ние да бъдем влиятелни, да ни чуват, слушат, гледат, да ни уважават.

Ако не сме важни, както е за сега, отделни хора може да ни поздравят, да си кажат, че е нещо хубаво, но най-вероятно нищо няма да направят, няма да започнат да изпозлват сметач, глаголище, вършач, взаимлик и вършесъщност и още стотици словоформи от юнашкото наречие, или просто няма да намалят чуждиците.

Много хора, или повечето, направо ще се подиграват, ще ви/ни сочат с пръст като "драснипалниклечковци" (единственото, което може би са чували) и други клишета. Това вече е описано в литературата, "Свещеният сметач" и т.н., и май така и става все още.

Един наш идеен съмишленик е например политик, доктор по етнография и пр., който обръща внимание на езика, но от неподкрепящите смятат него и партията му за крайност, както и "това" за крайност, като и за мен крайният пуризъм си е прекален, той не е нужен и е вреден, чуждите думи обогатяват езика, кратките и добре звучащи словоформи и пр. не са излишни, в повече идва когато се забравят и родните и не се създават и български синоними, които също обогатяват. И т.н.

За повечето "нормални хора", които въобще биха взели отношение, дори да се употребяват български съществуващи думи, синоними, за неща за които са си свикнали на чуждиците обаче също е "крайност".

Научих за Вас от споделяне във ФБ, затворена IT група, няколко други коментара бяха подигравателни, и аз им отговорих подобаващо.

Повечето хора въобще са безучастни. Както е описано и в увода на "Заблуждаващите понятия". Те не са езикови дейци, не им прави впечатление. "Важно е да се разбират".

Но "на първо време" (за ДЗБЕ било и 20-тина години по-късно, хаха), може да опитаме да открием и достигнем до повече съмишленици и всички те да знаят и да разберат, че не са съвсем сами и че не са луди.

В "класическия период" на ДЗБЕ бяхме единици, активен, изследващ и създаващ голям обем литература от всякакви жанрове, свързани с това дело, включително художествена, бях само аз, Открих един друг деец, който се е опитвал паралелно да събуди такова движение - без успех. Няколко други ме подкрепяха морално. Още един, който учеше философия, после и докторантура, който беше краен пурист. Имаше блог-речник, но после май го е изтрил.

ПП. МДР, това, че не сте чували за ДЗБЕ показва колко малък е интересът по темата, може би не сте търсили достатъчно, но и малко се знае.

"Ясно е, че съществуват думи в българския, чуждици, които вече са утвърдени в книжовния език и тях няма да ги закачаме в нелепи опити за едва ли не по-точен превод. Например: index/индекс, program/програма, object/обект vector/вектор, stack/стек, calculator/калкулатор, file/файл и т.н. Може би тях в един момент ще ги запишем в отделна графа. А току виж се появят и техни преводи.."

Съжалявам, в този раздел сте чуждицолюбци или просто не показвате достатъчно въображение... :)

В сметачобългарския има чудесни преводи и словоформи, и/или синоними или разновидности, за някои от горните - по много. За "програма" в различни обслови има: глаголище, предписание, казборед (макар че основния смисъл на последната е алгоритъм). Вектор е посочник. За стек има куп. Калкулатор - сметалка, а "ЕЛКА" (електронен калкулатор, но не сме пуристи и това си е българско име) е от 1965 г. Файл - свитък. Обект - и така, и "предмет". Да, "то не е точно предмет" - на английски Е точно предмет, единствено от обслова и начина на употреба се разбира какво точно указва този "обект", и англоговорящите не се оплакват, че им трябва друг термин.

Също дори и да не знаете за тях или да не се сещате (едва ли не сте чели думата "показалец" или "указател" например), това да се каже, че опитите за превод са нелепи, донякъде противоречи на други ваши твърдения, за преподаватели и пр., които не можели да намерят съответни думи.

Да, вие споменавате, че търсите съгласие ("консенсус"), а не противопоставяне ("конфронтация"), и се борите с "илитератите" (това не е дума от езика за сметачи, не влиза в параграфите на проекта...).

Търсенето на съгласие обикновено изисква да има взаимодействие, обсъждане, форум. Нещо което споменатият друг деец се е опитал да създаде с призив за намесата и участието на БАН през 2002 г - "Упадъкът..." разказва тази случка.

И т.н.

ПП2. Още един пример за нещо, което уж е непреводимо:

" api (application programming interface) | приложен интерфейс | или букв. програмна повърхност на взаимодействие"

В юнашкото наречие има две различни понятия за английското едно "интерфейс", които изразяват различни гледни точки и различни страни на явлението (в манифеста говорите за някакви "Феномени", имаше такъв вестник за паранормални явления)..

Взаимлик - взаимодействието, взаимното действие, взаимността, срещата, свързването (API-тата са по-скоро взаимлик)
Въоблик - обликът, външният вид, "look and feel"

Не само че звучи по-добре в българска среда от "интерфейс", а и може да се употреби по-отчетливо.

"Компютър" има още много варианта и форми в юнашкото наречие, освен "изчислителна машина".
От "сметач", откъдето и "Свещеният сметач" (това се оказа и основната дума в македонското наречие), до множеството стари съкращения: ЕИМ, ЕЦМ, ЦЕИМ, ЕЦМ, сметачна машина.

Юнашкото наречие използва умалителна и "уголемителна" форма за посочване за размера:

Сметачище - голям сметач, сървър
Сметаче - микрокомпютър (има различен смисъл в различни времена, сегашните "персонални" се водят "микро" през 70-те и 80-те)

По подобен начин за думата "вършач" (процесор): "вършаче" - микропроцесор.

Поздрави
Т.
ДЗБЕ, Свещеният сметач, "Вси, или Специалист по всичко", (...)
https://github.com/Twenkid/Vsy-Jack-Of-All-Trades-AGI-Bulgarian-Internet-Archive-And-Search-Engine


...

Бележки


* Нямаше особена взаимна кореспонденция на сравнимо ниво на езикова сложност обаче. Също и в други случаи на други преоткрили открития или обобщения на "Свещеният сметач" липсва "култура" или желание да се посочи "предишна работа" както се прави в научни трудове. Липсва чувство и желание за приемственост и надграждане. Всеки "клон" е отделен.


* Наскоро открих и един преоткривател на някои от предложенията за явното гласуване, виж сп. "Разумир", бр.3, 2015 г. - за което никой не говорел (почти никой). Около последните избори есента се опитах да повдигна въпроса в публични дискусии с предполагаеми високопоставени читатели (като известният Божо), но предсказуемо нямаше реакция, ако са го прочели, макар че явното гласуване прави необходимостта от специални защити на гласуването безпредметни (и с това отнема възможността им за манипулация, за контрол, за владение на по-голям бюджет за организиране на изборите и т.н.) и е естествено властта да не желае подобно развитие.

Read More

Tuesday, January 16, 2024

// // Leave a Comment

BgGPT is the mightiest new Bulgarian LLM model, but technically not the first

https://therecursive.com/bggpt-the-first-bulgarian-language-model-is-launched/

https://bggpt.ai


The info is 7B params, trained on 3B sentences.

  • "The first Bulgarian large language model, BgGPT, was announced today by INSAIT. It was created specifically for the Bulgarian state, users, public and private organizations."

This is impressive and well done, however it is not the first LLM for Bulgarian.

The first known to me is the experimental training GPT2-Medium model (331M) trained in the summer of 2021 by me/The Sacred Computer: 

https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/

GPT2-Medium Training from Scratch on Colab for Any Language - Tips & Tricks by Twenkid

https://youtu.be/F-Xt-cK4L-g

It was just an experiment on a small dataset (about 140 MB UTF8) and the trained model wasn't published because of part of the dataset and that it seemed to start memorizing too much (needed more data) and the training setting wasn't good (Colab/Tesla T4 and training each iteration on on subsets of the dataset due to this setting). I will probably publish it anyway.

Some guy asked for the weights, but there wasn't more interest about it what so ever. I see a few models from 2022-2023 in hugging face.

On the joke side, there's also RhodopeGPT (a Mountain in Bulgaria, Greece and Turkey):

https://github.com/Twenkid/rhodope-gpt

(An experiment with simplest transformer based on Karpathy's example with a GPT2 tokenizer and save-load)

This is a serious project, but lacking partners:
https://github.com/Twenkid/Vsy-Jack-Of-All-Trades-AGI-Bulgarian-Internet-Archive-And-Search-Engine 

* They mention that the research has started back in 2020: "BgGPT’s initial project research began in 2020 under the leadership of Prof. Martin Vechev, Professor of Computer Science at ETH Zurich. He is also a founder and architect of INSAIT. The aim for 2024 is to continue the development of an AI computing center, attracting international partners"



Update: https://huggingface.co/usmiva/gpt-web-bg (2023) and several others (2022 or so). From Linkedin: about 50B tokens, they say they've omitted that number because it was "too techy".
Read More

Tuesday, January 9, 2024

// // Leave a Comment

Skoltech - Skolkovo Institute of Science and Technology - Neural Optimal Transport, the convergence of different AI paths and comparison of research institutes missions

An interesting research institute in Russia which I discovered while reviewing a paper of theirs about optimal transport used to create maps between images, similar to Wasserstein GANs.

Published as a conference paper at ICLR 2023
NEURAL OPTIMAL TRANSPORT, Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev https://arxiv.org/pdf/2201.12220.pdf   
ABSTRACT 
We present a novel neural-networks-based algorithm to compute optimal transport maps and plans for strong and weak transport costs. To justify the usage of neural networks, we prove that they are universal approximators of transport plans between probability distributions. We evaluate the performance of our optimal transport algorithm on toy examples and on the unpaired image-to-image translation

As of the optimal transport - as discussed in the darker ages of AGI, IMO at a high level many  or  all working approaches are actually analogical, homeomorphic, isomorphic and convergent. The same problems are solved with different terminology and formulation. Some minimize the "earth mover's distance (Wasserstein distance), other "the energy" or "the free energy", or the "cost", or find the maximum "reward" (which is functionally the same), shortest path. An underground AGI-er which I know is also framing the problem as a logisitcs one, transporting "items". Numenta's/Hawkin's "frames of reference", Levin's/Field's "navigating different spaces" (which is also a direct consequence of just that the Universe is a Computer, and the basic cognitive primitives of time, space, causality; see also :"Embodiment is just coordinate spaces, interactivity and modalities - not a mystery"   https://artificial-mind.blogspot.com/2011/12/embodiment-is-just-coordinate-spaces.html 

Deep learning in general is doing that, minimizing "the loss function", the difference, maximizing match, and the sequences of activations could be viewed as "paths". Another interpretation, which is similar, is Clustering (CogAlg, also Theory of Universe and Mind, which encompasses many views). It is all "variational computation", "optimization" and mapping (matching) etc., within the hierarchical prediction-causation, and the actual problem is the definition of adequate configurations, core representations of the problem spaces, the space of the development, the possible actions and measurements etc. The rest are the technical details of the "optimization", the traversal of these spaces, which is search and match. Etc. The huge datasets are probably the bigger part of these spaces and that's one reason why the DL critics are blaming them for being "just big DBs", "hash tables" etc. See "Unvierse and Mind 6" when it is published with notes about why they are not "just...": https://github.com/Twenkid/Theory-of-Universe-and-Mind/blob/main/Universe-And-Mind-6.md 

Now the "embeddings" or "vectors" are the preferred terms of what was formats, representations, records, general "types" of the data.  

That reminds me of a short rant of B.K. where he complains about the underground AGI developers, "hackers", who claimed they knew the "secret of AGI", but they kept it proprietary etc., on Twitter. They could have only tricks, but they couldn't explain it etc.

Well, IMO there's no secret at the broad theoretical level. AGI was conceptually explained and clear as of what is required to be performed, to achieve computationally and what to "optimize" in the early 2000s (prediction-compression, hierarchy, incremental precision and range, multimodality, intermodality, "creativity is imitation at the level of algorithms" etc.), e.g. in the works/ideas which I try to get credit for being rediscovered and now praised by academic researchers - The Theory of Universe and Mind. The secret could be in efficiency, as the "cranks" and the ones with less resources are required to be more clever, but with more or less resources, if a system is demonstrating AGI and is able to communicate, to produce comparable patterns, to solve corresponding problems etc.as another AGI/human/cognitive system, that implies that they have some isomorphic structures and representations at some level or some way of reviewing/observing/measuring them. Etc.

...

Back to Skoltech:

The institute is interdisciplinary and has diverse research directions, not only AI, and it's founded in 2011 in a collaboration with MIT.

Skolkovo Institute of Science and Technology (Skoltech) in Moscow is a new model university in Russia, established with the vision of being a world-leading institute of science and technology. Skoltech mission is to impact economy and society development based on academic and technology excellence and entrepreneurial spirit. Integrating entrepreneurship and innovation, Skoltech delivers graduate educational programs to shape next generations of leaders in science, technology and business. Skoltech is recognized among top-100 world young universities in Nature Index ranking, taking # 65 place. https://360.skoltech.ru
A summary of the AI department: https://crei.skoltech.ru/ai 

 "Find out more about Skoltech AI research groups:
Computational Intelligence, Prof. Ivan Oseledets
Mobile Robotics, Prof. Gonzalo Ferrer
Natural Language Processing, Prof. Alexander Panchenko
Intelligent Signal and Image Processing, Prof. Anh Huy Phan
Multiscale Neurodynamics for Intelligent Systems, Prof. Jun Wang
Mathematical Foundations of AI, Prof. Dmitry Yarotsky
AI & Supercomputing, Prof. Sergey Rykovanov
Quantum algorithms for machine learning and optimisation, Prof. Vladimir Palyulin
Computational Imaging, Prof. Dmitry Dylov
AI for Materials Design, Prof. Alexander Shapeev
AI-driven Modeling, Prof. Ekaterina Muravleva
Parallel algorithms for AI, Prof. Alexander Mikhalev
Tensor Networks & Deep Learning, Prof. Andrzej Cichocki"
The institute INSAIT in Sofia, Bulgaria, which opened in 2022, has a similar philosophy. It is currently  more narrower (Computer Science, Math, AI, Institute for AI and Technology) and was also declared as created in a tight collaboration with established institutes: EPFL and ETH, and working as a department of Sofia University, was presented and is still advertised as the first of its kind in Eastern Europe, etc. https://insait.ai/what-is-insait/ 

INSAIT’s mission is to establish a first-of-its-kind research institute for computer science and artificial intelligence in Eastern Europe with sole focus on scientific excellence. INSAIT’s faculty and staff will conduct world-class research, attract outstanding international scientists, and training the next-generation of graduate and undergraduate students.

INSAIT is expected to have transformational effects on society and economy at large: attracting high-quality diverse talent to the region, preventing brain drain, creating new state-of-the-art educational programs, pushing towards a more product-driven economy by inventing high-valued intellectual property (IP), enabling deep research-guided technological companies, attracting big technology companies, and many more.


Compare to the Sacred Computer's Mission and Strategy from 2003, 21 years ago:

https://translate.google.com/translate?sl=auto&tl=en&u=https://artificial-mind.blogspot.com/2020/07/interdisciplinary-research-institute.html 

(Originally in Bulgarian, Translated by GT)

How would I invest a million with the greatest benefit for the development of the country? - Interdisciplinary research and creative institute 

"(...)The science of Artificial Intelligence (AI) is "middle aged" and some of its "fathers" are also "fathers" of the computer age. As soon as they "gave birth" to programmable computing machines, the "fathers" began to dream of the moment when the calculator would become a thinker... (...)

I believe that it is only a matter of years until we find the right "parts" and build a "machine" from them to overcome the "Wall" and meet the Machine.

STRATEGY

According to my strategy, a scientific-research Institute would be founded, which would unite computer scientists, engineers, art critics, linguists, philosophers, psychologists, neuroscientists; multilingual translators; creators in various arts - writers and poets, composers and musicians; artists, photographers and film directors. The members of the Institute will be, with advantage, having knowledge and skills in several fields, both scientists and creators, because the goal of the searches will be to discover the commonality between all manifestations of reason, between the sciences and the arts. The form of thought is different in different manifestations of thinking, but its essence, the underlying mechanisms, are the same, and only the data with which it works - word, sound, images, sequences of images, abstract concepts and etc.

The institute will also play the role of a "wing" that finds, "protects and wings" gifted people to support their development and, if they wish, to enjoy their talent in research.

The Institute will have a program house, in which "incidentally" "smart" application software will be produced, using the developments of the Institute on the way to IR: programs for automated design, multimedia, word processing, translators, games, etc. application programs.

The goal of the Institute will be the programmatic creation of a MM, possessing universal capabilities for exchanging information with other computing machines, in particular robotic modules. The robots created by the robotics department will be, in addition to a way to use IR for physical activities, a means of attracting public attention and advertising for the Institute.

Once a Thinking Machine is realized, it will be able to be used in all creative spheres of human activity and in the work of the Institute itself.

I suppose that after the Discovery and the creation of the MM, running on standard computers, the Institute will be "armed" and will be able to set aside a design department to develop new complete computing systems specially adapted for the operation of the Machine.(...)"



Read More

Tuesday, January 2, 2024

// // Leave a Comment

Тошко 2.075 - синтезатор на българска реч и малко английски (новини от гитхъб и съвети) | Toshko 2.075 - Compiled with Visual Studio 2019 etc. Updates

 #Toshko_2

https://github.com/Twenkid/Toshko_2/

Тошко 2 - Bulgarian Text-to-Speech Synthesizer - Синтезатор на българска реч и малко английски

За Windows, но работеше и под Linux/Wine, възможно е да има проблеми с кодировките при копиране на текст -  не съм пробвал напоследък, някой да опита и да коментира.

Виж папка: Versions

**Новини:** 12.2023: Оправен изпълнимия файл на 2.075, беше качена някаква неработеща версия. Компилиран е с VS 2019 x86, така че може да е нужно да се изтеглят съответните "Redistributable" files. https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170

https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170#visual-studio-2015-2017-2019-and-2022

X86 https://aka.ms/vs/17/release/vc_redist.x86.exe Permalink for latest supported x86 version

Съвети: Играйте си с настройките за бързина (на гласни), съгласни (дължина на (шумови) съгласни)), височина - левите плъзгачи са за фина настройка, десните за по-груба с по-големи величини. 

Също сменяйте интонацията: пробвайте различни, например дали РАВНО няма да ви допадне най-много (някои от другите имат прекалено големи амплитуди).


Могат да се правят нови интонационни контури, но като го създавах беше само пробна версия и се пишат ръчно числа, не се съобразява с вида изречения и т.н. (Въобще това беше по-разумно да е на Питон или друг скриптов език, а не на основния С++).

Също така препоръчвам да пробвате и бащата на Тошко 2:"Глас 2004", чиито глас няма интонация, не знае ударенията (може да слага, но само ръчно, докато Тошко 2 има известни основни познания, речник, който може и да се разширява) и не може да удължава или скъсява шумовите съгласни, но има по-фин контрол на синтеза до брой периоди на почтипериодичните функции и настройките на преходите звучат интересно ("виещо", както го наричах някога). Глас 2004 беше вграден в текстовия редактор "Писар", тогава известен като "българския Notepad". Изключително малък като размер - десетина килобайта, с някои по-добри възможности от тогавашния Notepad (за Windows 95, 98, ...) и въоблик на български: произволен шрифт, уголемянване.






Read More

Saturday, December 30, 2023

// // Leave a Comment

New Year Address of the Prime Minister of Change [DeepFake]

A new episode from the Arnoldifier series: "Arnold Schwarzenegger: The Governor of Bulgaria" https://github.com/Twenkid/DeepFaceLab-SAEHDBW 

Using my Arnoldifier (DeepfaceLab-SAEHDBW); Wav2LipHD-Super resolution, RealTimeVoiceCloning and DALL-E 3. Enjoy! Like, Share and Subscribe, of course! :))  

 https://youtu.be/AojlaVnjOJY



// Bulgarian political satire, "Сглобката", "некоалицията", ...  Невъзможната абсурдна коалиция.

Новогодишно обръщение на министър председателя на Промяната Кирил Петков - дийпфейк.
Read More