Заглавието и заглавната страница на мега-книгата на един от най-старите изследователски "институти" по Общ изкуствен интелект и Развитие на човека ("трансхуманизъм"), "библия" на пророците, създадена и редактирана от "най-младия пророк", се развива. Най-новата версия от днес и как може да помогнете на проектите на "Свещеният сметач":
Monday, March 20, 2023
ПРОРОЦИТЕ НА МИСЛЕЩИТЕ МАШИНИ - ИЗКУСТВЕН РАЗУМ И РАЗВИТИЕ НА ЧОВЕКА : ИСТОРИЯ ТЕОРИЯ И ПИОНЕРИ - The Prophecies of the Thinking Machines: AGI and Transhumanism: History, Theory and Pioneers
Friday, March 10, 2023
ARNOLDIFIER: 3X Higher Performance Version of DeepfaceLab 2 Deepfake Library by Twenkid
Wednesday, March 8, 2023
Неврони - проект за игра на PlovdivGameJam 2023 | Neurons - Project for a Turn-Based and a Real Time Strategy
Tuesday, February 7, 2023
Интервю с отбори "Неврони" и "Плевели" на Plovdiv Game Jam 2023 - настолни и видео игри - Neurons and Weeds
@ Пловдив Гейм Джам 2023 г. @PlovdivGameJam 2023
Следва продължение. Бордови игри, настолни игри, стратегически, логически, пъзели. Бъдеща релано временна стратегия за компютър, симулация. https://github.com/Twenkid/PlovdivGameJam2023-Neurons
https://youtu.be/jlJMeo3d8uE
Sunday, January 29, 2023
GPT2 Unlimited-Length Generation with Hidden Prompt Injections - Code Review
* A Longer Title: Unlimited-Length Imagination Directed GPT2 Chained Generation by Overlapping Prompts-Injection and removing the injected beginning of the following generated sequence
Tuesday, January 3, 2023
Be Shredded All-Year-Long! Bulk & Cut is Bad for Your Health! What is my Latest Superfood? - Twenkid's Natural "Bodybuilder"-Self in a Funny Video - Културисткото "Аз" на Универсалния човек в: "Бъди Нацепен Целогодишно!"
Съвети на целогодишно нацепеният универсален човек Тош. Каква супер храна си хапва в последно време, за да бъде толкова изчистен? Полезно ли е да се прави Bulk & Cat/Качване и изчистване?
Абонирайте се, харесвайте, коментирайте, ако искате да чуете още съвети и опит за здравословно хранене, живот и вечна младост от всестранната личност, "дете чудо" и баща на българските Общ изкуствен интелект и Развитие на човека (космизъм, трансхуманизъм), създател на Дужеството за защита на българския език и др. Проектът за универсална търсеща и пораждаща (мислеща) машина: https://github.com/Twenkid/Bulgarian-Internet-Archive-And-Search-Engine Свещеният сметач: http://eim.twenkid.com Книгата "Изкуствен разум и развитие на човека: история, теория и пионери" - покана за съдружници, изследователи, дарители, инвеститори, последователи за развитие на всестранното дружество за Общ изкуствен интелект "Свещеният сметач": https://github.com/Twenkid/izkustven-razum-i-razvitie-na-choveka-kniga Потърсете клиповете от плейлиста "Samurai Tosh" за други позирания. Фитнес, калистеника, мускули, бодибилдинг, културизъм, натурален, естествен, набиране, лостове, уличен фитнес, ластици, спортуване, здравословно хранене, вечна младост, нестареене, подмладяване, ниски мазнини, fitness, bodybuilding, low body fat, leanк Самурай Тош #fitness #fitnessmotivation #healthylifestyle #фитнес #healthy #влог #влоги #lean #турник #фитнеспарк #хранене
Wednesday, December 7, 2022
Tabs disappear - Chrome feature/bug request :)
I post this as a bug report, let's see will it be fixed/they would care about this rare condition.
...
Monday, November 14, 2022
Цитат на изследването ми от края на 2003-2004 г. "Опит за първично разделяне на запис на говор на съставящите го фонеми" в научната литература на БАН
ВСЕСТРАННО ИЗСЛЕДОВАТЕЛСКО ДРУЖЕСТВО ПО ОБЩ ИЗКУСТВЕН ИНТЕЛЕКТ
"СВЕЩЕНИТ СМЕТАЧ""
Докато коментирах в групата "IT in Plovdiv" във Фейсбук изказвания на колега от новия институт с 200 милиона лв финансиране за това, че на кандидатите им липсвали фундаментални знания, и теоретични, и приложни, открих, че още една работа от "Свещеният сметач" от древния период е била цитирана в научен труд по езикознание и разпознаване на реч от Русенския университет, 2006 г., в сборник на БАН, поставяйки въпрос още в началото на работата.
Към този цитат може да се добавят
1) Цитати на академични езиковеди, занимаващи се със социолингвистика (Л.Кирова, преподавател по български език за чужденци в СУ, тогава докторант?, по-късно защитава докторантура и доцентура) :
"В края на 2002 г., Людмила Кирова вмъква и дори коментира "гъвче", "сметач", "Мацето" в
Пространствен динамичен модел на професиолекта на компютърните технологии и на социолектите на компютърно базирани групи, текст който бил четен на Юбилейна международна научна конференция “Българският език - история, настояще, бъдеще”, БАН, ИБЕ, София, 3 - 7. 10. 2002... (...)
"...на структурно-граматическо или словообразувателно равнище - геймка, игрица, гъвче (‘дискета’, название пародиращо архаизирания термин гъвкав магнитен диск" - но не е вярно, че "гъвче" пародира "архаизирания термин".
"Срещнахме още назоваванията ПеЦе, Писето, сметач, Мацето. Въпреки че последните две са оказионални (...)" - свръх "оказионални", редовно ги използва един-единствен човек.
"
2) Статия от Диана Благоева*, където се цитират разкази от "Защо съм толкова интелЕгентен" и др. думи от юнашкото наречие, с линк към сп. "Свещеният сметач"), на руски език: из "Изречения на писача #31:
http://eim.twenkid.com/old/_5/31/31.htm#pis
Сега, като потърсих с няколко думи от юнашкото наречие, попаднах на статия на Диана Благоева: Синонимия в компьютерном жаргоне болгарского и русского языков в която списание "Свещеният сметач" е посочен като първи източник:
...Предметом анализа в настоящей статье являются синонимы в жаргонной компьютерной лексике болгарского и русского языков. Корпус исследования собран посредством эксцерпции словарей (Армянов 2001, Пернишка и др. 2001), ресурсов интернета (http://eim.hit.bg, http://www.bgcm.hit.bg, http://lib.km.ru, http://slovari.net/contents.php?sl=ej, http://softishe.narod.ru/jarg.html, http://slovarik.ru/slovari/ksl/?first_liter=193, www.russianstory.com и др.)...
Наред с няколко думи от юнашкото наречие (много пестелив научен труд, предвид на това какво богатство от думи се използват в "Свещеният сметач"), са цитирани и няколко думи от разказа "Защо съм толкова интелЕгентен". Речта на незнайните "даунлоадаро-геймари" и използвани от тях думи, някои от които са измислени лично от © Тош специално за игра на думи в разказа, са посочени като част от българския компютърния жаргон, макар че не съм чел никой да ги използва, освен мен, във въпросните литературни творби.
Д.Б. според: https://ibl.bas.bg/prof-diana-blagoeva/ е проф. в БАН , секция по лексикология и лексикография (речников състав на езика и речници)).
...
3) Няколко страници от "Човекът и мислещата машина - ...", бр. 13, 2001 г.: се оказаха изплагиатствани в статия от някакъв сборник с нучни трудове от 2005 г., доколкото открих на докторант от ПУ (с некоректен цитат само на изречение и с грешен линк); доколкото разбрах после не е защитил.
"Човекът и мислещата машина - Анализ на възможността... ", 2001 - изплагиатствана в научен сборник от 2005 г https://artificial-mind.blogspot.com/2020/08/izplagiatstvana-statiya-ot-smetacha-vзnauchen-trud.html
4) Сега този коректен цитат в труд от 2006 г.:
https://www.researchgate.net/publication/346627640_POZICII_ZA_REALIZACIA_NA_BLGARSKITE_FONEMI
Баева, Д. , Д. Игнатова-Цонева, Д. "Позиции за реализация на гласните и съгласните фонеми в съвременния български език с оглед разработването на компютърни програми за разпознаване на реч". – Сб. Книгата, езикът, литературата., БАН, 2006, с. 227 – 237
ПОЗИЦИИ ЗА РЕАЛИЗАЦИЯ НА ГЛАСНИТЕ И СЪГЛАСНИТЕ ФОНЕМИ В СЪВРЕМЕННИЯ БЪЛГАРСКИ ЕЗИК С ОГЛЕД РАЗРАБОТВАНЕТО НА КОМПЮТЪРНИ ПРОГРАМИ ЗА РАЗПОЗНАВАНЕ НА РЕЧ Десислава Баева, Димитрина Игнатова-Цонева, Русенски университет
(...)
"Като се имат предвид трите основни дяла на компютърната лингвистика (автоматичен анализ на текстове; генериране на текстове и анализ и синтез на реч) се коментират някои съвременни опити за компютърна обработка на българска реч. Въз основа на идеята на Джонатан Кей и на други изследователи, че фонологията е основата за изграждането на всички компютърни програми за машинно разпознаване на реч, в настоящата статия вместо фонемите като основни сегменти са предложени техните алофони (позиционните варианти на фонемите). За конкретното им определяне са разгледани нормите за реализация на гласните и на съгласните в съвременния български език и са посочени конкретни примери за изграждане графиката на алофоните в речта на носителите на нашия език"
"Програмите за генерация започват от някакъв модел на смисъла и конструират лингвистичното му представяне [http://bg.wikipedia.org.] , а в опитите за анализ и синтез на българска реч като най-малки функции се разпознават фонемите. Както пише Т. Арнаудов [Арнаудов 2005: 4]: „Местата, където откритите периодични функции са по-сгъстени (или долепени една до друга), с по-голяма вероятност са области на сработен, на „чист” и устойчив тон; или най-малкото – показват, че се намираме в единна свързана област, в една и съща фонема.”. По-нататък авторът съветва: „Би било полезно да имаме предварителна информация за очакваните дължини на фонемите?” и се пита: „Как да разберем къде свършва преходът и къде се намира чистият тон на фонемата ... ?” "
...
5) Не от "Свещеният сметач", научната статият за интелигентния речник "Смарти" имаше поне един цитат в друг научен труд.
Wednesday, November 2, 2022
За Общия ИИ - коментари към интервю с Преслав Наков на сайта "Дигитални истории" от 14.10.2022 - Comments about AGI re Nakov interview
Проф. Преслав Наков е специалист в обработката на естествен език, нареждат го сред топ учените в направлението в световен план. Тази област през последните години показва главозамайващи резултати.
Кои са най-актуалните посоки, от които да очакваме новини в света на изкуствения интелект и конкретно в обработката на текст? Къде ентусиазмът идва в повече на фона на реалността?
Близо ли сме до генералния ИИ, който може да наподоби и дори задмине човека? Възможен ли е изобщо той?
Трябва ли това да ни плаши, или напротив – да ни изпълва с ентусиазъм за бъдещето? https://karamanev.me/sreshti/preslav-nakov?fbclid=IwAR0-v28B9cHkV_D4PgosEpW43D900srLawI2lFJgPRIB9Fr3xamHZK1I5Kw
Wednesday, October 5, 2022
Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др. - Bulgarian Internet Archive, Search Engine and Media Analysis and Research Open Source Project
Tърсят се участници в проекта.
Новини, обновления, обсъждане, включване - в хранилището в гитхъб:
https://github.com/Twenkid/Bulgarian-Internet-Archive-And-Search-Engine
СВЕЩЕНИЯТ СМЕТАЧ и ДРУЖЕСТВО ЗА ЗАЩИТА НА БЪЛГАРСКИЯ ЕЗИК - ДЗБЕ
Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др.
Запазване на данни и знания от българския и световния Интернет и тяхната аналитична обработка
Автор: Тодор Арнаудов - Тош, 11.9.2022 г.
Защо?
Отдавна имам тази идея, споменавал съм я на приятели, мислил съм да опитам да я направя за лични нужди - собствен паяк, който да събира най-важната за мен информация. Обаче за да се свърши както трябва е необходима повече енергия. Има някои частични малки архиви*/моментни снимки на части от стария Интернет (виж в бележките), но например наскоро беше закрит data.bg, който е пазел много древни файлове, вкл. някои мои от ранните времена на "Свещеният сметач" и 2000-те. Помните ли "free.techno-link"? Той загина много отдавна.
Hit.bg работеше години след като вече не беше "модерен", но и той отдавна е унищожен и не знам някой да му правил копие, освен каквото е оцеляло в Архив.орг (http://archive.org*) всъщност hit.bg се отваря от известно време, но не може да се логнете и пр.). Някои български сайтове с дълга съхранена история, които я пазят от десетилетия от началото на 2000-те, постепенно се обновяват и вече няма достъп. Напр. old.csd.bg - "Център за изследване на демокрацията", който работеше до 2020 г., когато ми трябваше една справка, но вече го няма, а Архив.орг пази само "фасади" от него.
Преди много години си замина bgit.net - един от първите български блогове и форум свързан с отворения код, Линукс и Ай Ти общността, не знам дали някой от създателите? му, сред които Йовко Ламбрев и Владимир Джувинов, още пазят архив; при мен останаха копия на отделни мои статии. В Архив.орг има фрагменти от него, най-старото копие е от юни 2001 г., когато изглежда е отворен сайтът: https://web.archive.org/web/20010630201813/http://www.bgit.net/).
Наскоро обаче самият Архив.орг* не беше достъпен в България за известно време. И т.н.
http://arxiv.org (сравни с http://archive.org) също е важен сайт, специализиран за публикуване на научни статии, който също подлежи на запазване в библиотека, както и разбира се Stackoverflow и сродните му, Github и пр.
...
Освен за да не се случи същото и със спомените от по-късния и съвременния Интернет заради затваряне на сайтовете, би било здравословно да има и местна сигурност в случай на прекъсване на достъпа до световния Интернет или част от него, което изглежда възможно предвид колко лесно се въвеждат всякакви "санкции" и ограничения както в т.нар. "свободен и демократичен" свят, според господстващите в България големи медии, така и в "противоположния" според "свободните" свят на "тирани, диктатори" и пр. Всеки блокира по нещо.
За по-голяма сигурност може да се запазват част от глобалните ресурси - разбира се, не може да се съхрани целият Интернет, но може да се запазят "важни", често ползвани и до определена дълбочина или някои да се съхраняват с известна компресия/частично и т.н.
Част от системата би могла да работи и като наблюдател на съдържанието на медиите и да извършва "media/press clipping", с която да има достъп и да се прави анализ на съдържанието на новинарски сайтове и страници на медии, социалните мрежи, на сайтовете за видеосподеляне по всякакви показатели - не пълно копие на видеофайловете, най-вече метаинформация; някои видеоклипове с по-ниска разделителна способност, само звук и пр.; транскрипция, както и описание на съдържанието на клипа чрез разпознаване на образи и класификация: описание какво се вижда на кадрите, какво се извършва и т.н.; отделни кадри (напр. ключовите кадри от видеото), схематична информация - компресирани кадри с приложени ефекти за откриване на очертания, текст извлечен с оптическо-разпознаване на символи и пр. Чрез новите технологии за пораждане на изображение като Stable Diffusion, Imagen, DALLE-2 и пр., и чрез идващите в бъдеще, ще може да се възстановява съществената част от съдържанието на медиите и от много по-малък обем компресирана информация.
Върху тези данни от медиите ще се правят различни справки и сравнения*; тази функция, както и цялостното събиране на данните, може да е основа и на експерименти с големи езикови модели в обработката на естествен език (NLP) и въобще изкуствения интелект, включително Общ ИИ.
За някои други приложения, свързани с почтеността на медии, политици и пр. виж в бележките по-долу.
Разбира се, системата може да бъде и търсачка, портал и пр. и като цяло би представлявало своеобразна разширена "енциклопедия".
Логично продължение е и разпределена българска социална мрежа и система за видеосподеляне с отворен код.
Като цяло:
Създаване на независим "български Интернет", който да позволи да се води "пълноценен мрежов живот" дори и ако по някаква причина международният Интернет се прекъсне.**
България всъщност има опит в това още от началото на 2000-те години от времето на free.techno-link и пр. с "Българския пръстен", в който имаше високоскоростна свързаност до някои ресурси в града или в страната във времена, в които все още се ползваше Интернет по телефона по 33.6 - 56.6 Кбит.
...
Как да работи архивът?
Разпределено съхранение на потребителски компютри
Основен сървър/сървъри, които с паяци обхождат мрежата и качват данните като торенти, потребителите също могат да добавят елементи както в Архив.орг.
Клиентските компютри имат приложение с отворен код, за да няма съмнения какво върши, в което потребителите решават какъв обем и трафик да заделят. Клиентското приложение може да извършва и част от изчислителната работа в разпределен режим, отново в дял, преценен от потребителя - подобно на някогашните "SETI @ Home" за анализ на сигнали от космоса, подобни системи в медицината като "Folding@home" и пр.
Приложението тегли част от файловете през торентите* и пр. и ги съхранява на потребителските компютри. Част от клиентите могат да бъдат институции, компании и пр., които "даряват" значителен обем памет, терабайти и пр.
Сървъри
- Съхранението на данните и централизирано в сървъри, на поне няколко огледала, също е препоръчително.
Спасяване на стар софтуер и данни от лични архиви
- Част от информацията, която вече не се открива в Интернет, може да е запазена в лични архиви, на компакт-дискове и пр. и да бъде възстановена от потребителите.
- Ако например търсите определни безплатни програми от миналото, които не откривате - може да го зададаете като въпрос ("issue") в този проект.
Как да се осъществи?
Програмната и организационна част - като проект/множество от проекти с отворен код, които да се разработят от български програмисти, компании и пр. Ако проектът потръгне вероятно е разумно да се създаде ДНЦ (Дружество с нестопанска цел), но като за начало мисля, че това е излишно усложнение. Засега е достатъчно да се намерят желаещи, които да започнат от някъде, с някакъв пробен паяк и да общуват помежду си. Други желаещи могат по някакъв начин да дарят техника, като виртуални машини или физически, дисково пространство и пр.
Една възможна пускова посока е например "Common Crawl": https://commoncrawl.org
Тодор Арнаудов - Тош, 11.9.2022 г.
Всестранно изследователско-творческо дружество "Свещеният сметач", основано през 2000 г. http://eim.twenkid.com
Дружество за защита на българския език - ДЗБЕ, основано 2002 г. http://eim.twenkid.com/dzbe
Последни редакции: 13.9.2022
...
** Благодарности на Bogo4, който ми писа днес за да ме пита за игра, която търсел, която вече била неоткриваема в Интерент, но снимка от нея има в една статия от сп. "Свещеният сметач", бр. 27 от 2003 г., "Упадъкът на езика на българското общество": http://eim.twenkid.com/old/3/27/upad.htm http://eim.twenkid.com/old/3/27/mar.gif
Играта е "Mario Warcraft", създадена с Game Maker. Благодаря също на Voltigore, който наскоро беше забелязал, че Archive.org не се е отварял и така също ми припомни идеята и необходимостта от български архив.
Бележки за допълнителни приложения
** Частични архиви за Интернет и др.
Разбира се, "Читанка" ("Моята библиотека") за книги, която в началото изглежда продължи по-старата библиотека sf.ludost.net. "Сандъците" и преди него един мой сайт за "прослава на българските сметачи" от 2002 г.: http://bulgariancomputers.freeservers.com/), Download.bg - което още работи; копията на списание "Свещеният сметач", също пазят паметници и "вкаменелости" от Интернет пространството в началото на 2000-те; "лафчето" на dir.bg още съществува и др.
Други функции за разнообразяване и проследяване на източниците: модерни са услугите за "борба с фалшивите новини" или с "пропагандата", в която обаче обикновено, разбира се, липсва борба с "институционализираната" или "собствената" пропаганда - онази, която управлява основните медии и има най-много пари. Например може да се сравнява съдържанието на различни медии и да се открие, че всички препредават едно и също и че всички техни журналисти и гости споделят и защитават една и съща позиция и противниците им са "наказвани" по един и същи начин или не са канени въобще - това противоречи на основните правила за "плурализъм" и за предаване на "всички гледни точки", за които уж се бореше "демокрацията". Необходима е диверсификация не само на енергоносителите, но и на медийната и културно-идеологическата зависимост на България.
Може да се провери и "прояви" по обективен начин например, че източникът на информацията за основните българоезични медии са да речем британски (виж едно събитие в Англия от осми септември и как беше отразено в България, сякаш България е колония на Британската империя, оплакваща своята кралица, а впоследствие възхваляващия новия крал), определени американски медии - или пък съответно руски и пр., т.е. дадени медии по съдържание всъщност са "ретранслатори" или "радиоточки" на тези медии майки, като повечето от тях са на запад от София и също разпространяват "пропаганда", т.е. тенденциозно поднесена информация, често с полуистини, скриване на неудобни факти, които са известни, преувеличения, изкривявания и пр.
Потребителите на медии имат право да знаят какъв е източникът и чии интереси и стратегии защитават дадени медии и да решат дали при тези обстоятелства медията заслужава вниманието и доверието им. Може да се извършва автоматичен анализ на настроенията и нагласите в медията (вид "Sentiment analysis"). Настроенията обикновено се припокриват с "медиите" майки (чия пропаганда) - дали са "крайно про-европейски, про-руски, про-американски, про-британски" или пък уравновесени; какви позиции представят с каква оценка, какви гости канят с какви позиции и всякакви параметри, какъв стил на изказване и пр. Кой какви грантове е получавал, с кого е свързано дадено публично лице и т.н., така че да се знае. Тези конкретни явления са видими и с просто око за онези, които наблюдават медиите и сравняват "на ум", но чрез подобна система мерките ще станат по-обективни и лесни за наблюдение и от неспециалисти.
** Проверката на "фалшивите новини", или по-точно дезинформацията, и склонността на дадена медия, източник и пр. да злоупотребява с такава, всъщност за някои случаи може да се извършва ефективно не в момента на публикуване, а впоследствие, след като се натрупа достатъчно историческа информация - мине време и може да се провери и от други източници и след други събития, че дадено твърдение или информация не са било вярно отразени. Натрупването на история на новините, изказванията, и след обработката - съответните дела, нагласи и пр. - би било полезно за тази цел, и може да бъде материал, набор данни на нови специални модели за машинно обучение. Всички проверки на "фалшиви новини" обаче трябва да вървят с предупреждение, че проверката и данните ѝ също може да са погрешни или едностранчива и човек трябва да преценява и да мисли и със собствената си глава, и никога да не се предоверява.
** Друго приложение е за проверка на обещанията и изказванията на политици и пр.* (мисля, че излезе някакво мобилно приложение за търсене в стенограмите на парламента?)
** Една друга идея, донякъде свързана с горните, е предложението на Разумир за Явно гласуване на избори за обществени длъжности с непрекъснато отброяване на резултатите в реално време и с потвърждения за всеки, че гласът му е отчетен правилно и непрекъсната проверка от всички гласуващи. По този начин фалшификациите при преброяването ще станат невъзможни. https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/
...