I post this as a bug report, let's see will it be fixed/they would care about this rare condition.
...
THE SACRED COMPUTER - СВЕЩЕНИЯТ СМЕТАЧ, a.k.a. ARTIFICIAL MIND - A Research Institute for Artificial General Intelligence, Cosmism and Transhumanism, AI, Software, Research, Creativity, Versatility, (...), Being a Universal Man etc. Created by Todor Arnaudov in 2000 as "The Sacred Computer" e-zine. Author of the visionary AGI research strategy in 2003, the world's first university course in Artificial General Intelligence (Plovdiv 2010, 2011) etc.
ВСЕСТРАННО ИЗСЛЕДОВАТЕЛСКО ДРУЖЕСТВО ПО ОБЩ ИЗКУСТВЕН ИНТЕЛЕКТ
"СВЕЩЕНИТ СМЕТАЧ""
Докато коментирах в групата "IT in Plovdiv" във Фейсбук изказвания на колега от новия институт с 200 милиона лв финансиране за това, че на кандидатите им липсвали фундаментални знания, и теоретични, и приложни, открих, че още една работа от "Свещеният сметач" от древния период е била цитирана в научен труд по езикознание и разпознаване на реч от Русенския университет, 2006 г., в сборник на БАН, поставяйки въпрос още в началото на работата.
Към този цитат може да се добавят
1) Цитати на академични езиковеди, занимаващи се със социолингвистика (Л.Кирова, преподавател по български език за чужденци в СУ, тогава докторант?, по-късно защитава докторантура и доцентура) :
"В края на 2002 г., Людмила Кирова вмъква и дори коментира "гъвче", "сметач", "Мацето" в
Пространствен динамичен модел на професиолекта на компютърните технологии и на социолектите на компютърно базирани групи, текст който бил четен на Юбилейна международна научна конференция “Българският език - история, настояще, бъдеще”, БАН, ИБЕ, София, 3 - 7. 10. 2002... (...)
"...на структурно-граматическо или словообразувателно равнище - геймка, игрица, гъвче (‘дискета’, название пародиращо архаизирания термин гъвкав магнитен диск" - но не е вярно, че "гъвче" пародира "архаизирания термин".
"Срещнахме още назоваванията ПеЦе, Писето, сметач, Мацето. Въпреки че последните две са оказионални (...)" - свръх "оказионални", редовно ги използва един-единствен човек.
"
2) Статия от Диана Благоева*, където се цитират разкази от "Защо съм толкова интелЕгентен" и др. думи от юнашкото наречие, с линк към сп. "Свещеният сметач"), на руски език: из "Изречения на писача #31:
http://eim.twenkid.com/old/_5/31/31.htm#pis
Сега, като потърсих с няколко думи от юнашкото наречие, попаднах на статия на Диана Благоева: Синонимия в компьютерном жаргоне болгарского и русского языков в която списание "Свещеният сметач" е посочен като първи източник:
...Предметом анализа в настоящей статье являются синонимы в жаргонной компьютерной лексике болгарского и русского языков. Корпус исследования собран посредством эксцерпции словарей (Армянов 2001, Пернишка и др. 2001), ресурсов интернета (http://eim.hit.bg, http://www.bgcm.hit.bg, http://lib.km.ru, http://slovari.net/contents.php?sl=ej, http://softishe.narod.ru/jarg.html, http://slovarik.ru/slovari/ksl/?first_liter=193, www.russianstory.com и др.)...
Наред с няколко думи от юнашкото наречие (много пестелив научен труд, предвид на това какво богатство от думи се използват в "Свещеният сметач"), са цитирани и няколко думи от разказа "Защо съм толкова интелЕгентен". Речта на незнайните "даунлоадаро-геймари" и използвани от тях думи, някои от които са измислени лично от © Тош специално за игра на думи в разказа, са посочени като част от българския компютърния жаргон, макар че не съм чел никой да ги използва, освен мен, във въпросните литературни творби.
Д.Б. според: https://ibl.bas.bg/prof-diana-blagoeva/ е проф. в БАН , секция по лексикология и лексикография (речников състав на езика и речници)).
...
3) Няколко страници от "Човекът и мислещата машина - ...", бр. 13, 2001 г.: се оказаха изплагиатствани в статия от някакъв сборник с нучни трудове от 2005 г., доколкото открих на докторант от ПУ (с некоректен цитат само на изречение и с грешен линк); доколкото разбрах после не е защитил.
"Човекът и мислещата машина - Анализ на възможността... ", 2001 - изплагиатствана в научен сборник от 2005 г https://artificial-mind.blogspot.com/2020/08/izplagiatstvana-statiya-ot-smetacha-vзnauchen-trud.html
4) Сега този коректен цитат в труд от 2006 г.:
Баева, Д. , Д. Игнатова-Цонева, Д. "Позиции за реализация на гласните и съгласните фонеми в съвременния български език с оглед разработването на компютърни програми за разпознаване на реч". – Сб. Книгата, езикът, литературата., БАН, 2006, с. 227 – 237
ПОЗИЦИИ ЗА РЕАЛИЗАЦИЯ НА ГЛАСНИТЕ И СЪГЛАСНИТЕ ФОНЕМИ В СЪВРЕМЕННИЯ БЪЛГАРСКИ ЕЗИК С ОГЛЕД РАЗРАБОТВАНЕТО НА КОМПЮТЪРНИ ПРОГРАМИ ЗА РАЗПОЗНАВАНЕ НА РЕЧ Десислава Баева, Димитрина Игнатова-Цонева, Русенски университет
(...)
"Като се имат предвид трите основни дяла на компютърната лингвистика (автоматичен анализ на текстове; генериране на текстове и анализ и синтез на реч) се коментират някои съвременни опити за компютърна обработка на българска реч. Въз основа на идеята на Джонатан Кей и на други изследователи, че фонологията е основата за изграждането на всички компютърни програми за машинно разпознаване на реч, в настоящата статия вместо фонемите като основни сегменти са предложени техните алофони (позиционните варианти на фонемите). За конкретното им определяне са разгледани нормите за реализация на гласните и на съгласните в съвременния български език и са посочени конкретни примери за изграждане графиката на алофоните в речта на носителите на нашия език"
"Програмите за генерация започват от някакъв модел на смисъла и конструират лингвистичното му представяне [http://bg.wikipedia.org.] , а в опитите за анализ и синтез на българска реч като най-малки функции се разпознават фонемите. Както пише Т. Арнаудов [Арнаудов 2005: 4]: „Местата, където откритите периодични функции са по-сгъстени (или долепени една до друга), с по-голяма вероятност са области на сработен, на „чист” и устойчив тон; или най-малкото – показват, че се намираме в единна свързана област, в една и съща фонема.”. По-нататък авторът съветва: „Би било полезно да имаме предварителна информация за очакваните дължини на фонемите?” и се пита: „Как да разберем къде свършва преходът и къде се намира чистият тон на фонемата ... ?” "
...
Tърсят се участници в проекта.
Новини, обновления, обсъждане, включване - в хранилището в гитхъб:
https://github.com/Twenkid/Bulgarian-Internet-Archive-And-Search-Engine
Автор: Тодор Арнаудов - Тош, 11.9.2022 г.
Отдавна имам тази идея, споменавал съм я на приятели, мислил съм да опитам да я направя за лични нужди - собствен паяк, който да събира най-важната за мен информация. Обаче за да се свърши както трябва е необходима повече енергия. Има някои частични малки архиви*/моментни снимки на части от стария Интернет (виж в бележките), но например наскоро беше закрит data.bg, който е пазел много древни файлове, вкл. някои мои от ранните времена на "Свещеният сметач" и 2000-те. Помните ли "free.techno-link"? Той загина много отдавна.
Hit.bg работеше години след като вече не беше "модерен", но и той отдавна е унищожен и не знам някой да му правил копие, освен каквото е оцеляло в Архив.орг (http://archive.org*) всъщност hit.bg се отваря от известно време, но не може да се логнете и пр.). Някои български сайтове с дълга съхранена история, които я пазят от десетилетия от началото на 2000-те, постепенно се обновяват и вече няма достъп. Напр. old.csd.bg - "Център за изследване на демокрацията", който работеше до 2020 г., когато ми трябваше една справка, но вече го няма, а Архив.орг пази само "фасади" от него.
Преди много години си замина bgit.net - един от първите български блогове и форум свързан с отворения код, Линукс и Ай Ти общността, не знам дали някой от създателите? му, сред които Йовко Ламбрев и Владимир Джувинов, още пазят архив; при мен останаха копия на отделни мои статии. В Архив.орг има фрагменти от него, най-старото копие е от юни 2001 г., когато изглежда е отворен сайтът: https://web.archive.org/web/20010630201813/http://www.bgit.net/).
Наскоро обаче самият Архив.орг* не беше достъпен в България за известно време. И т.н.
http://arxiv.org (сравни с http://archive.org) също е важен сайт, специализиран за публикуване на научни статии, който също подлежи на запазване в библиотека, както и разбира се Stackoverflow и сродните му, Github и пр.
...
Освен за да не се случи същото и със спомените от по-късния и съвременния Интернет заради затваряне на сайтовете, би било здравословно да има и местна сигурност в случай на прекъсване на достъпа до световния Интернет или част от него, което изглежда възможно предвид колко лесно се въвеждат всякакви "санкции" и ограничения както в т.нар. "свободен и демократичен" свят, според господстващите в България големи медии, така и в "противоположния" според "свободните" свят на "тирани, диктатори" и пр. Всеки блокира по нещо.
За по-голяма сигурност може да се запазват част от глобалните ресурси - разбира се, не може да се съхрани целият Интернет, но може да се запазят "важни", често ползвани и до определена дълбочина или някои да се съхраняват с известна компресия/частично и т.н.
Част от системата би могла да работи и като наблюдател на съдържанието на медиите и да извършва "media/press clipping", с която да има достъп и да се прави анализ на съдържанието на новинарски сайтове и страници на медии, социалните мрежи, на сайтовете за видеосподеляне по всякакви показатели - не пълно копие на видеофайловете, най-вече метаинформация; някои видеоклипове с по-ниска разделителна способност, само звук и пр.; транскрипция, както и описание на съдържанието на клипа чрез разпознаване на образи и класификация: описание какво се вижда на кадрите, какво се извършва и т.н.; отделни кадри (напр. ключовите кадри от видеото), схематична информация - компресирани кадри с приложени ефекти за откриване на очертания, текст извлечен с оптическо-разпознаване на символи и пр. Чрез новите технологии за пораждане на изображение като Stable Diffusion, Imagen, DALLE-2 и пр., и чрез идващите в бъдеще, ще може да се възстановява съществената част от съдържанието на медиите и от много по-малък обем компресирана информация.
Върху тези данни от медиите ще се правят различни справки и сравнения*; тази функция, както и цялостното събиране на данните, може да е основа и на експерименти с големи езикови модели в обработката на естествен език (NLP) и въобще изкуствения интелект, включително Общ ИИ.
За някои други приложения, свързани с почтеността на медии, политици и пр. виж в бележките по-долу.
Разбира се, системата може да бъде и търсачка, портал и пр. и като цяло би представлявало своеобразна разширена "енциклопедия".
Логично продължение е и разпределена българска социална мрежа и система за видеосподеляне с отворен код.
Като цяло:
България всъщност има опит в това още от началото на 2000-те години от времето на free.techno-link и пр. с "Българския пръстен", в който имаше високоскоростна свързаност до някои ресурси в града или в страната във времена, в които все още се ползваше Интернет по телефона по 33.6 - 56.6 Кбит.
...
Основен сървър/сървъри, които с паяци обхождат мрежата и качват данните като торенти, потребителите също могат да добавят елементи както в Архив.орг.
Клиентските компютри имат приложение с отворен код, за да няма съмнения какво върши, в което потребителите решават какъв обем и трафик да заделят. Клиентското приложение може да извършва и част от изчислителната работа в разпределен режим, отново в дял, преценен от потребителя - подобно на някогашните "SETI @ Home" за анализ на сигнали от космоса, подобни системи в медицината като "Folding@home" и пр.
Приложението тегли част от файловете през торентите* и пр. и ги съхранява на потребителските компютри. Част от клиентите могат да бъдат институции, компании и пр., които "даряват" значителен обем памет, терабайти и пр.
Програмната и организационна част - като проект/множество от проекти с отворен код, които да се разработят от български програмисти, компании и пр. Ако проектът потръгне вероятно е разумно да се създаде ДНЦ (Дружество с нестопанска цел), но като за начало мисля, че това е излишно усложнение. Засега е достатъчно да се намерят желаещи, които да започнат от някъде, с някакъв пробен паяк и да общуват помежду си. Други желаещи могат по някакъв начин да дарят техника, като виртуални машини или физически, дисково пространство и пр.
Една възможна пускова посока е например "Common Crawl": https://commoncrawl.org
Тодор Арнаудов - Тош, 11.9.2022 г.
Всестранно изследователско-творческо дружество "Свещеният сметач", основано през 2000 г. http://eim.twenkid.com
Дружество за защита на българския език - ДЗБЕ, основано 2002 г. http://eim.twenkid.com/dzbe
Последни редакции: 13.9.2022
...
** Благодарности на Bogo4, който ми писа днес за да ме пита за игра, която търсел, която вече била неоткриваема в Интерент, но снимка от нея има в една статия от сп. "Свещеният сметач", бр. 27 от 2003 г., "Упадъкът на езика на българското общество": http://eim.twenkid.com/old/3/27/upad.htm http://eim.twenkid.com/old/3/27/mar.gif
Играта е "Mario Warcraft", създадена с Game Maker. Благодаря също на Voltigore, който наскоро беше забелязал, че Archive.org не се е отварял и така също ми припомни идеята и необходимостта от български архив.
** Частични архиви за Интернет и др.
Разбира се, "Читанка" ("Моята библиотека") за книги, която в началото изглежда продължи по-старата библиотека sf.ludost.net. "Сандъците" и преди него един мой сайт за "прослава на българските сметачи" от 2002 г.: http://bulgariancomputers.freeservers.com/), Download.bg - което още работи; копията на списание "Свещеният сметач", също пазят паметници и "вкаменелости" от Интернет пространството в началото на 2000-те; "лафчето" на dir.bg още съществува и др.
Други функции за разнообразяване и проследяване на източниците: модерни са услугите за "борба с фалшивите новини" или с "пропагандата", в която обаче обикновено, разбира се, липсва борба с "институционализираната" или "собствената" пропаганда - онази, която управлява основните медии и има най-много пари. Например може да се сравнява съдържанието на различни медии и да се открие, че всички препредават едно и също и че всички техни журналисти и гости споделят и защитават една и съща позиция и противниците им са "наказвани" по един и същи начин или не са канени въобще - това противоречи на основните правила за "плурализъм" и за предаване на "всички гледни точки", за които уж се бореше "демокрацията". Необходима е диверсификация не само на енергоносителите, но и на медийната и културно-идеологическата зависимост на България.
Може да се провери и "прояви" по обективен начин например, че източникът на информацията за основните българоезични медии са да речем британски (виж едно събитие в Англия от осми септември и как беше отразено в България, сякаш България е колония на Британската империя, оплакваща своята кралица, а впоследствие възхваляващия новия крал), определени американски медии - или пък съответно руски и пр., т.е. дадени медии по съдържание всъщност са "ретранслатори" или "радиоточки" на тези медии майки, като повечето от тях са на запад от София и също разпространяват "пропаганда", т.е. тенденциозно поднесена информация, често с полуистини, скриване на неудобни факти, които са известни, преувеличения, изкривявания и пр.
Потребителите на медии имат право да знаят какъв е източникът и чии интереси и стратегии защитават дадени медии и да решат дали при тези обстоятелства медията заслужава вниманието и доверието им. Може да се извършва автоматичен анализ на настроенията и нагласите в медията (вид "Sentiment analysis"). Настроенията обикновено се припокриват с "медиите" майки (чия пропаганда) - дали са "крайно про-европейски, про-руски, про-американски, про-британски" или пък уравновесени; какви позиции представят с каква оценка, какви гости канят с какви позиции и всякакви параметри, какъв стил на изказване и пр. Кой какви грантове е получавал, с кого е свързано дадено публично лице и т.н., така че да се знае. Тези конкретни явления са видими и с просто око за онези, които наблюдават медиите и сравняват "на ум", но чрез подобна система мерките ще станат по-обективни и лесни за наблюдение и от неспециалисти.
** Проверката на "фалшивите новини", или по-точно дезинформацията, и склонността на дадена медия, източник и пр. да злоупотребява с такава, всъщност за някои случаи може да се извършва ефективно не в момента на публикуване, а впоследствие, след като се натрупа достатъчно историческа информация - мине време и може да се провери и от други източници и след други събития, че дадено твърдение или информация не са било вярно отразени. Натрупването на история на новините, изказванията, и след обработката - съответните дела, нагласи и пр. - би било полезно за тази цел, и може да бъде материал, набор данни на нови специални модели за машинно обучение. Всички проверки на "фалшиви новини" обаче трябва да вървят с предупреждение, че проверката и данните ѝ също може да са погрешни или едностранчива и човек трябва да преценява и да мисли и със собствената си глава, и никога да не се предоверява.
** Друго приложение е за проверка на обещанията и изказванията на политици и пр.* (мисля, че излезе някакво мобилно приложение за търсене в стенограмите на парламента?)
** Една друга идея, донякъде свързана с горните, е предложението на Разумир за Явно гласуване на избори за обществени длъжности с непрекъснато отброяване на резултатите в реално време и с потвърждения за всеки, че гласът му е отчетен правилно и непрекъсната проверка от всички гласуващи. По този начин фалшификациите при преброяването ще станат невъзможни. https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/
...
Three years or 5 years with the exploration phase may be common term for a PhD, and working on "one-problem" (whatever "one" means as the topics, problems and fields overlap), however I wonder isn't that too long given the lightning speed of innovation and the speed of "repainting" the AI landscape, especially regarding the "planning" aspect, which is one of the requirements (for any PhD program)? On a broader ground, I remember an interview with the physicist Freeman Dyson (indeed he mentions, that he lacked a Phd...), on Youtube: "Why I don't like the PhD system", 1:38. https://www.youtube.com/watch?v=DzC1IRYN_Ps
He "didn't like" the 3-year PhDs term in Cornell, because for him it was working for too long on one project (with the students) and it was too limiting for the students as well. He said he rather preferred one-year term, thus working on three projects for these 3 years. Prof. Vechev mentioned, that the nature of the institute encourages collaborating on others' project and it provides a rich environment for self-arranging lots of seminars and meetings between all the researchers, which allows enormous interdisciplinary learning rate. However, it doesn't solve the following automatically:Or I assume that these "plans" are actually flexible, because I don't think there could be a reasonable many-years-long plan for true R&D, with fast learning rate and where real breakthroughs could happen, either from the researcher-himself or from the whole world.
If you can plan the content and the results for 3 years ahead with a high level of confidence and detail, I think it sounds like you already knew the results, i.e. it's less of an exploration "in the unknown" and more an implementation, i.e. engineering; and even in the latter more predictable domain, in CS it's usually hard to make precise predictions for the required time to develop the solution, especially when implementing something for the first time, there's a lot of both "known unknowns" and "unknown unknowns". Etc.
Thanks for the QA session and good luck!
* Note, 10.4.2024: That really happened to some extent: they did solve it, soon after the comment, with AlphaCode, LOL. https://deepmind.google/discover/blog/competitive-programming-with-alphacode/
Also this comment, turned then into article, was removed by the INSAIT channel's maintainers.
I had the colorization in mind before I started the refactoring of Deepfacelab to include grayscale models, and lately I added this functionality, for now as a POC, to be published later. The colorization is done with a Pix2Pix model (based on the example on Colab with the facades, maps etc.), trained on the faceset of the color video - grayscale faces converted to color. There is a step of color stabilization, which was required for more pleasant output, because without that there was slight, but noticeable flickering. The experiments for now were only on a single video/segment (about 1000 frames training of the pix2pix model) and without pretraining on other/various faces - that is something to be done in the future.
I am still pushing the limit of a GF 750 Ti 2 GB - so now it can produce 192x192 color lip-synced deepfakes with reasonable quality. The SAEHDBW DF-UDT model is about 345 MB initially (a bit more when trained), the Pix2Pix model is about 131 MB.
Note that the pix2pix model did fit in GPU only 128x128, but a sharpening at the end of the pipeline improves the image even more than the original grayscale one. Training at 256x256 on the CPU is a possible option, too, because the pix2pix model seems to be fast and also possibly the applied color stabilization can repair some fluctuations, i.e. possibly it can be not perfectly trained and still capable to produce decent results - that is to be verified with other videos. I haven't tried to colorize the Arnold's model yet.
The glasses of Stoltenberg are in most cases reasonably depicted, except a few little glitches from the grayscale model.
Github:
https://github.com/Twenkid/DeepFaceLab-SAEHDBW/
After investigation of the properties of the colorized faces, debugging of the merging, there was a successful application of an idea for stabilization of the colorized output and merging with precomputed faces (for other usages as well, e.g. prerendered 3D-models or synchronously performing faces etc.). In the video example below the output is also sharpened after merging (whole frame) - it needs to be per face only etc. or to have some antialiasing eventually.
See a merged and sharpened segment with Jens, whole frame: http://twenkid.com/v/32-stolten-color-20-8-20220.645217694677918.mp4
Only aligned faces:
The raw colorized face with pix2pix model without color stabilization was flickering; it was very bad, but still noticeable, especially in some moments.
https://user-images.githubusercontent.com/23367640/185765054-c012ba01-8600-4b78-9a45-3f01270237e4.mp4
After color-gamma stabilization, that artifact was gone (only the aligned face, 146 KB):
https://user-images.githubusercontent.com/23367640/185765072-bc8be151-3e7f-4758-8f5d-5d4a8f8255f9.mp4
The color-gamma stabilization is done by first probe-rendering all faces, computing their total pixel weight per frame and the average of all frames, then adjusting the gamma for each frame according to the average in order to flatten the fluctuations: if the face is too dark - it gets lighter and vice versa. Indeed, this phenomenon itself is to show some intrinsic properties of the pix2pix model.
Finally there is sharpening and merging is performed using these corrected faces.
...
* The neural model didn't capture the blue tint of the model's eyes, but it had a little excuse - the color of the eyes in the video varies and even there are frames where the ground truth eyes are different colors: one is very gray-blueish-purple and the other one - brown.
Distributed By Blogger Themes | Designed By Blogtipsntricks. In Association With Tozilnutpam and Praverb Dot Net.
© 2012 Artificial Mind - Interdisciplinary Research Institute
СВЕЩЕНИЯТ СМЕТАЧ