Wednesday, December 7, 2022

// // Leave a Comment

Tabs disappear - Chrome feature/bug request :)

I've been very busy with a lot of research and R&D and one funny things which I discovered a while ago while working with Chrome (I use many browsers, including one "mine", controlled from a custom research accelerator that I'm using, unpublished).

I post this as a bug report, let's see will it be fixed/they would care about this rare condition.
...

The minimum size of the tab icons/buttons is fixed and the tab-buttons-bar is fixed. When the number of tabs exceeds the capacity of the screen (more often when working in portrait mode), the new tabs are not shown and disappear. They have to be selected with the keyboard (Ctrl-Tab etc.). A solution could be either:
 1) a scrolling feature, scrolling controls to appear in order to see the hidden tabs; 
2) smaller size of the icon-buttons or 
3) at least a notification that the number of tabs per window is exceeded and a new window has to be created, or automatically creating one with a warning. 

 Yes, it is a bad practice to open so many tabs in one window, but if not using a more sophisticated session management and smarter bookmarking, it's a way to quickly store and mark a set of currently researched items which are for study/exploration/additional reading in a following session. Thanks

 


Read More

Monday, November 14, 2022

// // Leave a Comment

Цитат на изследването ми от края на 2003-2004 г. "Опит за първично разделяне на запис на говор на съставящите го фонеми" в научната литература на БАН

ВСЕСТРАННО ИЗСЛЕДОВАТЕЛСКО ДРУЖЕСТВО ПО ОБЩ ИЗКУСТВЕН ИНТЕЛЕКТ
"СВЕЩЕНИТ СМЕТАЧ""




Докато коментирах в групата "IT in Plovdiv" във Фейсбук изказвания на колега от новия институт с 200 милиона лв финансиране за това, че на кандидатите им липсвали фундаментални знания, и теоретични, и приложни, открих, че още една работа от "Свещеният сметач" от древния период е била цитирана в научен труд по езикознание и разпознаване на реч от Русенския университет, 2006 г., в сборник на БАН, поставяйки въпрос още в началото на работата. 

Към този цитат може да се добавят

1) Цитати на академични езиковеди, занимаващи се със социолингвистика (Л.Кирова,  преподавател по български език за чужденци в СУ, тогава докторант?, по-късно защитава докторантура и доцентура) :

"В края на 2002 г., Людмила Кирова вмъква и дори коментира "гъвче", "сметач", "Мацето" в

 Пространствен динамичен модел на професиолекта на компютърните технологии и на социолектите на компютърно базирани групи, текст който бил четен на Юбилейна международна научна конференция “Българският език - история, настояще, бъдеще”, БАН, ИБЕ, София, 3 - 7. 10. 2002... (...)

"...на структурно-граматическо или словообразувателно равнище - геймка, игрица, гъвче (‘дискета’, название пародиращо архаизирания термин гъвкав магнитен диск" - но не е вярно, че "гъвче" пародира "архаизирания термин".

"Срещнахме още назоваванията ПеЦе, Писето, сметач, Мацето. Въпреки че последните две са оказионални (...)" - свръх "оказионални", редовно ги използва един-единствен човек.

"

2) Статия от Диана Благоева*, където се цитират разкази от "Защо съм толкова интелЕгентен" и др. думи от юнашкото наречие, с линк към сп. "Свещеният сметач"), на руски език:  из  "Изречения на писача #31:

"Свещеният сметач" влияе на езиковедски изследвания на българския език"

http://eim.twenkid.com/old/_5/31/31.htm#pis

Сега, като потърсих с няколко думи от юнашкото наречие, попаднах на статия на Диана Благоева: Синонимия в компьютерном жаргоне болгарского и русского языков в която списание "Свещеният сметач" е посочен като първи източник:

...Предметом анализа в настоящей статье являются синонимы в жаргонной компьютерной лексике болгарского и русского языков. Корпус исследования собран посредством эксцерпции словарей (Армянов 2001, Пернишка и др. 2001), ресурсов интернета (http://eim.hit.bg, http://www.bgcm.hit.bg, http://lib.km.ru, http://slovari.net/contents.php?sl=ej, http://softishe.narod.ru/jarg.html, http://slovarik.ru/slovari/ksl/?first_liter=193, www.russianstory.com и др.)...

Наред с няколко думи от юнашкото наречие (много пестелив научен труд, предвид на това какво богатство от думи се използват в "Свещеният сметач"), са цитирани и няколко думи от разказа "Защо съм толкова интелЕгентен". Речта на незнайните "даунлоадаро-геймари" и използвани от тях думи, някои от които са измислени лично от © Тош специално за игра на думи в разказа, са посочени като част от българския компютърния жаргон, макар че не съм чел никой да ги използва, освен мен, във въпросните литературни творби.


Д.Б. според: https://ibl.bas.bg/prof-diana-blagoeva/ е проф. в БАН , секция по лексикология и лексикография (речников състав на езика и речници)).

...


3) Няколко страници от "Човекът и мислещата машина - ...", бр. 13, 2001 г.: се оказаха изплагиатствани в статия от някакъв сборник с нучни трудове от 2005 г., доколкото открих на докторант от ПУ (с некоректен цитат само на изречение и с грешен линк); доколкото разбрах после не е защитил.  

"Човекът и мислещата машина - Анализ на възможността... ", 2001 - изплагиатствана в научен сборник от 2005 г https://artificial-mind.blogspot.com/2020/08/izplagiatstvana-statiya-ot-smetacha-vзnauchen-trud.html 

4)  Сега този коректен цитат в труд от 2006 г.:


https://www.researchgate.net/publication/346627640_POZICII_ZA_REALIZACIA_NA_BLGARSKITE_FONEMI

Баева,  Д.  ,  Д.  Игнатова-Цонева,  Д. "Позиции  за  реализация  на  гласните  и  съгласните фонеми  в  съвременния  български  език  с  оглед  разработването  на  компютърни програми  за разпознаване  на  реч". – Сб.  Книгата, езикът,  литературата.,  БАН,  2006,  с. 227 – 237 

ПОЗИЦИИ ЗА РЕАЛИЗАЦИЯ НА ГЛАСНИТЕ И СЪГЛАСНИТЕ ФОНЕМИ  В СЪВРЕМЕННИЯ БЪЛГАРСКИ ЕЗИК  С ОГЛЕД РАЗРАБОТВАНЕТО НА КОМПЮТЪРНИ ПРОГРАМИ ЗА РАЗПОЗНАВАНЕ НА РЕЧ  Десислава Баева,  Димитрина Игнатова-Цонева, Русенски университет 

(...)

"Като се имат предвид трите основни дяла на компютърната лингвистика (автоматичен анализ  на  текстове;  генериране на  текстове  и анализ  и  синтез на  реч)  се  коментират някои съвременни  опити  за  компютърна  обработка  на  българска  реч.  Въз  основа  на  идеята  на Джонатан  Кей  и  на  други  изследователи,  че  фонологията  е  основата  за  изграждането  на всички компютърни програми за машинно разпознаване на  реч, в настоящата статия  вместо фонемите  като  основни  сегменти  са предложени  техните алофони  (позиционните  варианти на  фонемите).  За  конкретното  им  определяне  са  разгледани  нормите  за  реализация  на гласните и на съгласните в съвременния български език и са посочени конкретни примери за изграждане графиката на алофоните в речта на носителите на нашия език"


"Програмите  за  генерация  започват  от  някакъв  модел  на  смисъла  и  конструират лингвистичното му представяне  [http://bg.wikipedia.org.] , а в  опитите  за  анализ и синтез  на българска  реч  като  най-малки  функции се  разпознават  фонемите.  Както  пише Т.  Арнаудов [Арнаудов  2005:  4]: „Местата,  където  откритите  периодични  функции  са  по-сгъстени  (или долепени  една  до  друга),  с  по-голяма  вероятност  са  области  на  сработен,  на  „чист”  и устойчив тон; или най-малкото – показват, че се намираме в единна свързана област, в една и съща  фонема.”.  По-нататък  авторът  съветва:  „Би  било  полезно  да  имаме  предварителна информация  за  очакваните  дължини  на  фонемите?”  и  се  пита:  „Как  да  разберем  къде свършва преходът и къде се намира чистият тон на фонемата ... ?” "

...

Бях публикувал тази работа през 2005 г. в сп. "Свещеният сметач", така е и цитирана, но линкът изглежда грешен (брой 30?, а не 31; сега и не работи хит.бг) 1.Арнаудов 2005: Арнаудов, Т. Опит за първично разделяне на запис на говор на съставящите го фонеми. http://eim.hit.bg/_5/30/analiz_na_zvuk.htm. http://eim.twenkid.com/old/_5/31/31.htm http://eim.twenkid.com/old/_5/31/analiz_na_zvuk.htm


5) Не от "Свещеният сметач", научната статият за интелигентния речник "Смарти" имаше поне един цитат в друг научен труд.


Read More

Wednesday, November 2, 2022

// // Leave a Comment

За Общия ИИ - коментари към интервю с Преслав Наков на сайта "Дигитални истории" от 14.10.2022 - Comments about AGI re Nakov interview

*
Проф. Преслав Наков е специалист в обработката на естествен език, нареждат го сред топ учените в направлението в световен план. Тази област през последните години показва главозамайващи резултати.
*
Кои са най-актуалните посоки, от които да очакваме новини в света на изкуствения интелект и конкретно в обработката на текст? Къде ентусиазмът идва в повече на фона на реалността?
*
Близо ли сме до генералния ИИ, който може да наподоби и дори задмине човека? Възможен ли е изобщо той?
*
Трябва ли това да ни плаши, или напротив – да ни изпълва с ентусиазъм за бъдещето? https://karamanev.me/sreshti/preslav-nakov?fbclid=IwAR0-v28B9cHkV_D4PgosEpW43D900srLawI2lFJgPRIB9Fr3xamHZK1I5Kw

 https://www.facebook.com/Digitalni.Istorii/posts/pfbid02wnWVzQB7vfecxFFmQ3xEAahYdcwNjNf3X5v985fmjejp5K7NaRWUrAahnEad62w5l?__cft__[0]=AZVvj928YFS1M5IP8gViSm8KhSqGgRWpgbBg5kthoXwPPfX_SfueLYz0Cu5H9gVOVaoOyQCTUxEQ6sZ93Q6yHloTYzG5jaAyCXOS1RRjz6z0ZtdilF2XiGbgqKCv-NDM_B9hdqEJRwxWb6238UseofPJ&__tn__=%2CO%2CP-R

Todor Arnaudov

Хубаво интервю, с изключение на темите за Общ ИИ (не е "генерален", а Общ, още Универсален изкуствен разум, на името на първия в света интердисциплинарен курс по тази тема (Artificial General Intelligence, Universal AI), който се проведе в България през 2010 и 2011 г.: "Видео разказ за първия университетски курс по Универсален изкуствен разум в света - Пловдив 2010-2011"
https://artificial-mind.blogspot.com/…/AGI-at-Plovdiv-2010…
За сравнение, първият курс по "AGI" в MIT беше през 2018 г.
Тестът на Тюринг е оспорен като наивен и "глупав" в Общия ИИ и преди 20 години, напр. в основополагащата ми студия "Човекът и мислещата машина: Анализ на възможността да се създаде мислеща машина и някои недостатъци на човека и органичната материя пред нея", тя е от 2001 г.: http://eim.twenkid.com/old/eimworld13/izint_13.html
Българският проект и Стратегия за създаване на интердисциплинарен институт по Общ ИИ и др. беше публикуван през 2003 г. (INSAIT повтаря някои от идеите му, но не за Общ ИИ): "Как Бих Инвестирал Един Милион С Най-Голяма Полза За Развитието На Страната? ": https://artificial-mind.blogspot.com/…/interdisciplinary…
Оригинално място на публикация, архив на геоситис: https://www.oocities.org/todprog/ese/proekt.htm
Общият ИИ не е ново направление (ново е за специалистите по тесен ИИ), а като вълна е още от около 2000-та година, като в известен смисъл има отделни първопроходници и 10 години по-рано като Шмидхубер.
"Силен" и "слаб ИИ" бяха актуални термини преди 20 години, и до преди десетина, в едно интервю, което давах през 2009 г. се наложи да ги използвам:
"Ще създам мислеща машина, която ще се самоусложнява*
Фантазьори и авантюристи правят великите открития. Работата на скептиците е да отричат, а после да не вярват на собствените си очи"
https://artificial-mind.blogspot.com/…/dreamers-and…
От 2020 г. се анонсира громен сборник, може би ще излезе близо 1100 стр., , все още го допълвам и редактирам. Последното работно заглавие е "Изкуствен разум и развитие на човека: история, теория и пионери", който разглежда и доказва "изпреварващото и своевременно участие на България в новото движение на Общия ИИ и развитието на човека, чрез..." (развитие на човека - "трансхуманизъм"):
Информация:
https://github.com/…/Izkustven-razum-i-razvitie-na-choveka…
И др.


Радослав Василев
Колкото и да се силят с ИИ хората трябва да знаят една фундаментална истина. ИИ не разбира семантиката и на практика машината каквото и да прави не го разбира. Ето защо ИИ няма никакъв шанс да достигне нивото на биологичния. Уважавам този човек но едва ли ще ме убеди че една машина ще се справи по добере с литературата от човека. Как ще стане това. след като тази машина идея си няма какво прави! Може би малко украсяват думите на Наков не вярвам на всички текстове в статията
Отговор1 седм.Редактирано

Todor Arnaudov

Не разбира от семантика този ИИ, който е чисто вероятностен и не е основан на сетивно-моторни взаимодействия. Друг въпрос е и какво точно е "да разбира", и ако се задълбае може да се докаже (покаже) че хората, особено повечето, също не разбират много неща, които уж си мислят, че разбират, и ако им зададеш въпрос формулиран по малко по различен начин от това, което знаят наизуст, блокират или отговарят глупости подобно на сегашните езикови модели.
Отговор1 седм.

Радослав Василев

 в смисъла на човешкия интелект няма нито един изкуствен интелект, няма и да има! Каквото и да правим ще се задоволим само с модели на интелигентно поведение, но машините няма да осъзнаят нищо от това. Няма да можем да възпроизведем интелекта на комар, какво остава на човешкия. Биологичните индивиди са феномен на природата и е невъзможно да ги пресъздадем в неодушевена материя. Ако направим това, значи сме открили живота, но това няма да се случи каквито и микроскопи да имаме, каквито и изследвания да правим, каквито и науки да изучаваме. Защо мисля така? В краткост, вярвам, че животът се организира от енергия с разум и това е свят, който ние не можем да достъпим. Дори и да открием такава енергия ще възникнат още по непреодолими въпроси. Ето защо вярвам, че животът ще остане вечна тайна и заедно с него въпросите за съзнанието и подсъзнанието. Можем само да гадаем, да наблюдаваме, да експериментираме, да моделираме, т. е. да ги стъкмисваме да изглеждат нещата така както искаме. Бог няма да достигнем и няма да можем да посеем в неодушевена материя разум и осъзнаване. Това може да стане само с биологичен мозък, но пък тогава няма да бъде ИИ. Този път според мен е без изход! Трябва да се примирим, че богове няма да станем и да се задоволим да правим полезни и интересни машини за света и хората.
Отговор1 седм.Редактирано

Todor Arnaudov

Това за което говорите не е "интелект", нито пък онези, които разбират ума и искат да създадат мислещи машини "се мислят за Бог", нито пък смятат, че електронният процесор или сметач са "жива материя" в буквален смисъл (той е кристал, не е жива материя, няма метаболизъм, не е химически и т.н.; има "изкуствен живот", свързан с мислещи машини, но не е в буквален смисъл, "живот" в смисъл "самостоятелен"; а има и биотехнологии, които работят върху създаване на "изкуствен живот" с химически процеси, но това е друго.)
Също виждам класически, за мен банални аргументи на машиномразците - по термина ми от сблъсъка на Надтелесност срещу един уж "човеколюбец" - "Писма между...", 2002. Машиномразците отричат мислещите машини, защото "не са човеци" (така го обясняват, всъщност причините са други) или по-общо "са различни" и най-вече (не винаги го осъзнават): "е по-нисша" (воля за господство). Тези "аргументи" съм разглеждал преди повече от 20 години в юношеските си творби: в "Човекът и мислещата машина: Анализ на възможността да се създаде мислеща машина и някои недостатъци на човека и органичната материя пред нея", тя е от 2001 г.: http://eim.twenkid.com/old/eimworld13/izint_13.html"
и в повестта "Истината", 2002-2003 (има я в Читанка), също в диалога ми с Ангел Грънчаров: "Писма между 18-годишния Тодор Арнаудов и философа Ангел Грънчаров": http://eim.twenkid.com/old/eim18/predopredelenost2.htm
Всеки от нас може да усети своето собствено съзнание. "Вътрешното разбиране" е доказателство, че "съзнаваме", но дали наистина разбира и чувства, знае само всеки за себе си. Така и ММ може да знае за себе си, че чувства, макар ние да смятаме, че не е вярно и да я обвиняваме, че нейните чувства са "нули и единици". Тя, спокойно, без излишни емоции, може да ни отговори:

"А вашите чувства са количествено, качествено и пространствено съотношение на химични съединения – белтъци, хормони, нуклеинови киселини и пр. Едва ли ще има полза да навлизам в подробности, защото бедните ви мозъци няма да могат да ги поберат..."
("Анализ на възможността...". 2001, виж също "Истината")
Също така, всичко, което човекът прави, е създадено от Бог. Онези, които изкарват творците, че "се правят на богове и не могат" забравят, че "всичко е по божие допущение".
Човекът и развитието на човека (трансхуманизъм) са част от природните процеси и част от природата, сътворението и пр. Човекът е част от природата, технологиите също са част от природата - по-късно появила се част, която се развива с участието на мислещи същества, общества и пр.
Човекът и Мислещата Машина - разработка на &copy Тодор Ил. Арнаудов, 2001 в списание "ЕИМ СВЯТ". Брой 13 (11/2001)
EIM.TWENKID.COM
Човекът и Мислещата Машина - разработка на &copy Тодор Ил. Арнаудов, 2001 в списание "ЕИМ СВЯТ". Брой 13 (11/2001)
Човекът и Мислещата Машина - разработка на &copy Тодор Ил. Арнаудов, 2001 в списание "ЕИМ СВЯТ". Брой 13 (11/2001)
ОтговорПремахване на визуализацията1 седм.Редактирано

Todor Arnaudov

Радослав Василев И не отговорихте "какво е интелект" (според Вас конкретно, понеже всеки влага какъвто си иска смисъл). Какво е "човешки интелект"? Опишете го, определете, за да видим дали говорим за едно и също нещо. За моята представа може да проследите връзките и творбите ми и от по-късни времена, и лекциите от 2010 г.
Как точно разбирате, че еди-кой си/кое си го притежава? Какво е? Как се измерва? Кога се появаява и защо? Кои хора го имат и кои нямат? Когато човек получава мозъчно увреждане (всъщност хората непрекъснато получават такива, телата им бавно умират) променя ли се този интелект? Какво ниво на инсулт/мозъчни увреждания/съзнание (кома, будна кома) е необходимо, за да има някой "интелект"? Работещ? "Спящ"? От кой момент бебетата получават? Имат ли и като са родени? Защо човешкият е различен от животинския? Колко е различен? От кои животни? Как преценявате и как се доказва, откъде знаете? И т.н. могат да се зададат безброй въпроси.
Отговор1 седм.

Радослав Василев
 много въпроси поставяте и отговора ми ще стане дълъг. Не знам доколко има смисъл. Ако държите на отговор ще ви отговоря.
Отговор1 седм.

Todor Arnaudov

 Какво значение има колко е дълъг. Книгата ми "Изкуствен разум и Развитие на човека: История Теория и Пионери" в момента отива към 1100 стр. А4 и тя е обзор, някои произведения са дадени само като откъси и т.н., Вижте колко е дълга първата сериозна студия, която съм публикувал през 2001 г. Все още слушам едни и същи неща от хора, които дори не разбират за какво говорят и не могат да си формулират мисълта, или не разбират чуждата.
За Бог се мислят по-скоро именно такива машиномразци, един елементарен показател са категоричните Ви заклинания и манипулативната употреба на първо лице мн. число.
"Ние" какво да правим, колкото и да еди-какво си. Няма никакво "ние" между мен и Вас по тази тема, няма "ние" и между машиномразци и надтелесници/развити човеци, и онези, които са агресивни, злобни, не са надтелесниците, а именно машиномразците. Такъв беше въпросният философ от "18-годишния Тодор Арнаудов срещу 43-годишния...", такива са и разните му проф. И.Х., да не говорим И.С. с крайностите му в "Сатанизъм: Unlimited", който се опитва да ме скрие, пише за "Трансхуманизъм", но не ме споменава, макар че съм 20 години преди него.
Аз (и моето "нас") не е част от "Вашето" нас, и като употребите "ние" няма да го направите такова.
Вие твърдите какво може и какво не може, вие говорите като законодател (БОГ), който заповядва.

Развитието на човека, както и развитието на Вселената, са естествени процеси, а човешкият ум е част от Вселенските процеси, той не е отделен и не съществува без да е свързан, обусловен и построен от всичко останало, включително машините и технологиите. Без тях ясно се вижда колко сте близо до шимпанзетата, не че и с тях пак повечето хора не бързат да покажат, че са роднини на опашатите и косматите си братовчеди по ценности, по мотивация и по повърхностност на възприятието на света.
А по отношения на отрицанията Ви, както казвам в едно интервю от 2009 г.: "Фантазьори и авантюристи правят великите открития. Работата на скептиците е да отричат, а после да гледат и да не вярват на очите си."
Read More

Wednesday, October 5, 2022

// // Leave a Comment

Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др. - Bulgarian Internet Archive, Search Engine and Media Analysis and Research Open Source Project

Tърсят се участници в проекта.

Новини, обновления, обсъждане, включване - в хранилището в гитхъб:

 https://github.com/Twenkid/Bulgarian-Internet-Archive-And-Search-Engine

СВЕЩЕНИЯТ СМЕТАЧ #36


СВЕЩЕНИЯТ СМЕТАЧ и ДРУЖЕСТВО ЗА ЗАЩИТА НА БЪЛГАРСКИЯ ЕЗИК - ДЗБЕ

Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др.

Запазване на данни и знания от българския и световния Интернет и тяхната аналитична обработка

Автор: Тодор Арнаудов - Тош, 11.9.2022 г.

Защо?

Отдавна имам тази идея, споменавал съм я на приятели, мислил съм да опитам да я направя за лични нужди - собствен паяк, който да събира най-важната за мен информация. Обаче за да се свърши както трябва е необходима повече енергия. Има някои частични малки архиви*/моментни снимки на части от стария Интернет (виж в бележките), но например наскоро беше закрит data.bg, който е пазел много древни файлове, вкл. някои мои от ранните времена на "Свещеният сметач" и 2000-те. Помните ли "free.techno-link"? Той загина много отдавна.

Hit.bg работеше години след като вече не беше "модерен", но и той отдавна е унищожен и не знам някой да му правил копие, освен каквото е оцеляло в Архив.орг (http://archive.org*) всъщност hit.bg се отваря от известно време, но не може да се логнете и пр.). Някои български сайтове с дълга съхранена история, които я пазят от десетилетия от началото на 2000-те, постепенно се обновяват и вече няма достъп. Напр. old.csd.bg - "Център за изследване на демокрацията", който работеше до 2020 г., когато ми трябваше една справка, но вече го няма, а Архив.орг пази само "фасади" от него.

Преди много години си замина bgit.net - един от първите български блогове и форум свързан с отворения код, Линукс и Ай Ти общността, не знам дали някой от създателите? му, сред които Йовко Ламбрев и Владимир Джувинов, още пазят архив; при мен останаха копия на отделни мои статии. В Архив.орг има фрагменти от него, най-старото копие е от юни 2001 г., когато изглежда е отворен сайтът: https://web.archive.org/web/20010630201813/http://www.bgit.net/).

Наскоро обаче самият Архив.орг* не беше достъпен в България за известно време. И т.н.

http://arxiv.org (сравни с http://archive.org) също е важен сайт, специализиран за публикуване на научни статии, който също подлежи на запазване в библиотека, както и разбира се Stackoverflow и сродните му, Github и пр.

...

Освен за да не се случи същото и със спомените от по-късния и съвременния Интернет заради затваряне на сайтовете, би било здравословно да има и местна сигурност в случай на прекъсване на достъпа до световния Интернет или част от него, което изглежда възможно предвид колко лесно се въвеждат всякакви "санкции" и ограничения както в т.нар. "свободен и демократичен" свят, според господстващите в България големи медии, така и в "противоположния" според "свободните" свят на "тирани, диктатори" и пр. Всеки блокира по нещо.

За по-голяма сигурност може да се запазват част от глобалните ресурси - разбира се, не може да се съхрани целият Интернет, но може да се запазят "важни", често ползвани и до определена дълбочина или някои да се съхраняват с известна компресия/частично и т.н.

Част от системата би могла да работи и като наблюдател на съдържанието на медиите и да извършва "media/press clipping", с която да има достъп и да се прави анализ на съдържанието на новинарски сайтове и страници на медии, социалните мрежи, на сайтовете за видеосподеляне по всякакви показатели - не пълно копие на видеофайловете, най-вече метаинформация; някои видеоклипове с по-ниска разделителна способност, само звук и пр.; транскрипция, както и описание на съдържанието на клипа чрез разпознаване на образи и класификация: описание какво се вижда на кадрите, какво се извършва и т.н.; отделни кадри (напр. ключовите кадри от видеото), схематична информация - компресирани кадри с приложени ефекти за откриване на очертания, текст извлечен с оптическо-разпознаване на символи и пр. Чрез новите технологии за пораждане на изображение като Stable Diffusion, Imagen, DALLE-2 и пр., и чрез идващите в бъдеще, ще може да се възстановява съществената част от съдържанието на медиите и от много по-малък обем компресирана информация.

Върху тези данни от медиите ще се правят различни справки и сравнения*; тази функция, както и цялостното събиране на данните, може да е основа и на експерименти с големи езикови модели в обработката на естествен език (NLP) и въобще изкуствения интелект, включително Общ ИИ.

За някои други приложения, свързани с почтеността на медии, политици и пр. виж в бележките по-долу.

Разбира се, системата може да бъде и търсачка, портал и пр. и като цяло би представлявало своеобразна разширена "енциклопедия".

Логично продължение е и разпределена българска социална мрежа и система за видеосподеляне с отворен код.

Като цяло:

Създаване на независим "български Интернет", който да позволи да се води "пълноценен мрежов живот" дори и ако по някаква причина международният Интернет се прекъсне.**

България всъщност има опит в това още от началото на 2000-те години от времето на free.techno-link и пр. с "Българския пръстен", в който имаше високоскоростна свързаност до някои ресурси в града или в страната във времена, в които все още се ползваше Интернет по телефона по 33.6 - 56.6 Кбит.

...

Как да работи архивът?

Разпределено съхранение на потребителски компютри

  1. Основен сървър/сървъри, които с паяци обхождат мрежата и качват данните като торенти, потребителите също могат да добавят елементи както в Архив.орг.

  2. Клиентските компютри имат приложение с отворен код, за да няма съмнения какво върши, в което потребителите решават какъв обем и трафик да заделят. Клиентското приложение може да извършва и част от изчислителната работа в разпределен режим, отново в дял, преценен от потребителя - подобно на някогашните "SETI @ Home" за анализ на сигнали от космоса, подобни системи в медицината като "Folding@home" и пр.

  3. Приложението тегли част от файловете през торентите* и пр. и ги съхранява на потребителските компютри. Част от клиентите могат да бъдат институции, компании и пр., които "даряват" значителен обем памет, терабайти и пр.

Сървъри

  1. Съхранението на данните и централизирано в сървъри, на поне няколко огледала, също е препоръчително.

Спасяване на стар софтуер и данни от лични архиви

  1. Част от информацията, която вече не се открива в Интернет, може да е запазена в лични архиви, на компакт-дискове и пр. и да бъде възстановена от потребителите.
    1. Ако например търсите определни безплатни програми от миналото, които не откривате - може да го зададаете като въпрос ("issue") в този проект.

Как да се осъществи?

Програмната и организационна част - като проект/множество от проекти с отворен код, които да се разработят от български програмисти, компании и пр. Ако проектът потръгне вероятно е разумно да се създаде ДНЦ (Дружество с нестопанска цел), но като за начало мисля, че това е излишно усложнение. Засега е достатъчно да се намерят желаещи, които да започнат от някъде, с някакъв пробен паяк и да общуват помежду си. Други желаещи могат по някакъв начин да дарят техника, като виртуални машини или физически, дисково пространство и пр.

Една възможна пускова посока е например "Common Crawl": https://commoncrawl.org


Тодор Арнаудов - Тош, 11.9.2022 г.

Всестранно изследователско-творческо дружество "Свещеният сметач", основано през 2000 г. http://eim.twenkid.com

Дружество за защита на българския език - ДЗБЕ, основано 2002 г. http://eim.twenkid.com/dzbe

Последни редакции: 13.9.2022

...

** Благодарности на Bogo4, който ми писа днес за да ме пита за игра, която търсел, която вече била неоткриваема в Интерент, но снимка от нея има в една статия от сп. "Свещеният сметач", бр. 27 от 2003 г., "Упадъкът на езика на българското общество": http://eim.twenkid.com/old/3/27/upad.htm http://eim.twenkid.com/old/3/27/mar.gif

image

Играта е "Mario Warcraft", създадена с Game Maker. Благодаря също на Voltigore, който наскоро беше забелязал, че Archive.org не се е отварял и така също ми припомни идеята и необходимостта от български архив.

Бележки за допълнителни приложения

** Частични архиви за Интернет и др.

Разбира се, "Читанка" ("Моята библиотека") за книги, която в началото изглежда продължи по-старата библиотека sf.ludost.net. "Сандъците" и преди него един мой сайт за "прослава на българските сметачи" от 2002 г.: http://bulgariancomputers.freeservers.com/), Download.bg - което още работи; копията на списание "Свещеният сметач", също пазят паметници и "вкаменелости" от Интернет пространството в началото на 2000-те; "лафчето" на dir.bg още съществува и др.

Други функции за разнообразяване и проследяване на източниците: модерни са услугите за "борба с фалшивите новини" или с "пропагандата", в която обаче обикновено, разбира се, липсва борба с "институционализираната" или "собствената" пропаганда - онази, която управлява основните медии и има най-много пари. Например може да се сравнява съдържанието на различни медии и да се открие, че всички препредават едно и също и че всички техни журналисти и гости споделят и защитават една и съща позиция и противниците им са "наказвани" по един и същи начин или не са канени въобще - това противоречи на основните правила за "плурализъм" и за предаване на "всички гледни точки", за които уж се бореше "демокрацията". Необходима е диверсификация не само на енергоносителите, но и на медийната и културно-идеологическата зависимост на България.

Може да се провери и "прояви" по обективен начин например, че източникът на информацията за основните българоезични медии са да речем британски (виж едно събитие в Англия от осми септември и как беше отразено в България, сякаш България е колония на Британската империя, оплакваща своята кралица, а впоследствие възхваляващия новия крал), определени американски медии - или пък съответно руски и пр., т.е. дадени медии по съдържание всъщност са "ретранслатори" или "радиоточки" на тези медии майки, като повечето от тях са на запад от София и също разпространяват "пропаганда", т.е. тенденциозно поднесена информация, често с полуистини, скриване на неудобни факти, които са известни, преувеличения, изкривявания и пр.

Потребителите на медии имат право да знаят какъв е източникът и чии интереси и стратегии защитават дадени медии и да решат дали при тези обстоятелства медията заслужава вниманието и доверието им. Може да се извършва автоматичен анализ на настроенията и нагласите в медията (вид "Sentiment analysis"). Настроенията обикновено се припокриват с "медиите" майки (чия пропаганда) - дали са "крайно про-европейски, про-руски, про-американски, про-британски" или пък уравновесени; какви позиции представят с каква оценка, какви гости канят с какви позиции и всякакви параметри, какъв стил на изказване и пр. Кой какви грантове е получавал, с кого е свързано дадено публично лице и т.н., така че да се знае. Тези конкретни явления са видими и с просто око за онези, които наблюдават медиите и сравняват "на ум", но чрез подобна система мерките ще станат по-обективни и лесни за наблюдение и от неспециалисти.

** Проверката на "фалшивите новини", или по-точно дезинформацията, и склонността на дадена медия, източник и пр. да злоупотребява с такава, всъщност за някои случаи може да се извършва ефективно не в момента на публикуване, а впоследствие, след като се натрупа достатъчно историческа информация - мине време и може да се провери и от други източници и след други събития, че дадено твърдение или информация не са било вярно отразени. Натрупването на история на новините, изказванията, и след обработката - съответните дела, нагласи и пр. - би било полезно за тази цел, и може да бъде материал, набор данни на нови специални модели за машинно обучение. Всички проверки на "фалшиви новини" обаче трябва да вървят с предупреждение, че проверката и данните ѝ също може да са погрешни или едностранчива и човек трябва да преценява и да мисли и със собствената си глава, и никога да не се предоверява.

** Друго приложение е за проверка на обещанията и изказванията на политици и пр.* (мисля, че излезе някакво мобилно приложение за търсене в стенограмите на парламента?)

** Една друга идея, донякъде свързана с горните, е предложението на Разумир за Явно гласуване на избори за обществени длъжности с непрекъснато отброяване на резултатите в реално време и с потвърждения за всеки, че гласът му е отчетен правилно и непрекъсната проверка от всички гласуващи. По този начин фалшификациите при преброяването ще станат невъзможни. https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/

...

Bulgarian-Internet-Archive

Bulgarian Internet Archive Project - Preserve Data and Knowledge from the Local and Global Network

Read More

Sunday, September 4, 2022

// // Leave a Comment

PhD system and duration: 5 years with 3 years planning - isn't it too long and risking obsolescence on the go? What about contributing to many projects and not just one "personal" thesis?

This is a continuation of the 2008 article:

A Start-up or a PhD? - that is the question

https://artificial-mind.blogspot.com/2008/08/start-up-or-phd-that-is-question.html

The question-essay was asked to the comments section of a Q&A session video for clarification of the PhD program of  (...) [but deleted by the channel owner soon after]

Is it possible to plan your research for 3 years in a PhD program and what if your plan gets obsolete which is highly likely in the current speed of innovation and competition? Aren't 5 years too long and isn't working "on one problem" for 3 or 5 years, the PhD standard, an artificial limitation for students' development?

 Three years or 5 years with the exploration phase may be common term for a PhD, and working on "one-problem" (whatever "one" means as the topics, problems and fields overlap), however I wonder isn't that too long given the lightning speed of innovation and the speed of "repainting" the AI landscape, especially regarding the "planning" aspect, which is one of the requirements (for any PhD program)? On a broader ground, I remember an interview with the physicist Freeman Dyson (indeed he mentions, that he lacked a Phd...), on Youtube: "Why I don't like the PhD system", 1:38. https://www.youtube.com/watch?v=DzC1IRYN_Ps

He "didn't like" the 3-year PhDs term in Cornell, because for him it was working for too long on one project (with the students) and it was too limiting for the students as well. He said he rather preferred one-year term, thus working on three projects for these 3 years. Prof. Vechev mentioned, that the nature of the institute encourages collaborating on others' project and it provides a rich environment for self-arranging lots of seminars and meetings between all the researchers, which allows enormous interdisciplinary learning rate. However, it doesn't solve the following automatically:

What if the plan of the student and his supervisor gets obsolete on the go? I guess it's a well known phenomenon that if an idea in CS and application programming (or maybe any domain) is not developed to some form of "completion" - developed, published, implemented - in a timely manner (with unknown term, depending on the other researchers and companies around the world), somebody else will do.

Others probably had the same ideas or plans even before, or they would have them soon. Similar with anything in R&D, as one aspect of general intelligence is its convergence: it's a systematic exploration of the affordances: if something is thinkable and doable, sooner or later it will be done. There is no central organ to distribute "the ownership" of the ideas and projects, so I guess you have experienced such overlaps and competition in your research. We see similar "state-of-the-art" being produced from different sources in about the same time, as all have similar background and goals and interact with each other.

How do you solve that, is it/has it been a problem? You talked about the normal topic-shift while initially searching for the best direction for a student, however that's the beginning; then there is a 3 year period with planned work, where a sudden topic-problem-goal-"obsolence" could crash any rigid structure and expectations. 

E.g. the plan of the student Ivan is to solve, say the automatic solution of programming contest problems*, which prof. Vechev mentioned in a podcast.

He will apply some Neural-Turing machines, combined with techniques of DeepCode etc. However DeepMind or some new "Perelman" happened to solve it 1 or 2 years before the end of that dead-line with a similar method, or with another or a more advanced one etc. and with a higher precision.

One reasonable path is probably to extend/rework the project to build upon the other project(s) etc., if it's doable. 

Or I assume that these "plans" are actually flexible, because I don't think there could be a reasonable many-years-long plan for true R&D, with fast learning rate and where real breakthroughs could happen, either from the researcher-himself or from the whole world.

If you can plan the content and the results for 3 years ahead with a high level of confidence and detail, I think it sounds like you already knew the results, i.e. it's less of an exploration "in the unknown" and more an implementation, i.e. engineering; and even in the latter more predictable domain, in CS it's usually hard to make precise predictions for the required time to develop the solution, especially when implementing something for the first time, there's a lot of both "known unknowns" and "unknown unknowns". Etc.

Thanks for the QA session and good luck!

* Note, 10.4.2024: That really happened to some extent: they did solve it, soon after the comment, with AlphaCode, LOL. https://deepmind.google/discover/blog/competitive-programming-with-alphacode/ 
Also this comment, turned then into article, was removed by the INSAIT channel's maintainers.


Read More

Sunday, August 21, 2022

// // Leave a Comment

DFL-SAEHDBW - The Grayscale deepfake model now Renders Back in Color - Colorization and Color Stabilization with Pix2Pix model etc.

I had the colorization in mind before I started the refactoring of Deepfacelab to include grayscale models, and lately I added this functionality, for now as a POC, to be published later. The colorization is done with a Pix2Pix model (based on the example on Colab with the facades, maps etc.), trained on the faceset of the color video - grayscale faces converted to color. There is a step of color stabilization, which was required for more pleasant output, because without that there was slight, but noticeable flickering. The experiments for now were only on a single video/segment (about 1000 frames training of the pix2pix model) and without pretraining on other/various faces - that is something to be done in the future.

I am still pushing the limit of a GF 750 Ti 2 GB - so now it can produce 192x192 color lip-synced deepfakes with reasonable quality. The SAEHDBW DF-UDT model is about 345 MB initially (a bit more when trained), the Pix2Pix model is about 131 MB.

Note that the pix2pix model did fit in GPU only 128x128, but a sharpening at the end of the pipeline improves the image even more than the original grayscale one. Training at 256x256 on the CPU is a possible option, too, because the pix2pix model seems to be fast and also possibly the applied color stabilization can repair some fluctuations, i.e. possibly it can be not perfectly trained and still capable to produce decent results - that is to be verified with other videos. I haven't tried to colorize the Arnold's model yet.

The glasses of Stoltenberg are in most cases reasonably depicted, except a few little glitches from the grayscale model.

Github:

https://github.com/Twenkid/DeepFaceLab-SAEHDBW/

After investigation of the properties of the colorized faces, debugging of the merging, there was a successful application of an idea for stabilization of the colorized output and merging with precomputed faces (for other usages as well, e.g. prerendered 3D-models or synchronously performing faces etc.). In the video example below the output is also sharpened after merging (whole frame) - it needs to be per face only etc. or to have some antialiasing eventually.

See a merged and sharpened segment with Jens, whole frame: http://twenkid.com/v/32-stolten-color-20-8-20220.645217694677918.mp4


Only aligned faces:

The raw colorized face with pix2pix model without color stabilization was flickering; it was very bad, but still noticeable, especially in some moments. 
https://user-images.githubusercontent.com/23367640/185765054-c012ba01-8600-4b78-9a45-3f01270237e4.mp4 

After color-gamma stabilization, that artifact was gone (only the aligned face, 146 KB): 
https://user-images.githubusercontent.com/23367640/185765072-bc8be151-3e7f-4758-8f5d-5d4a8f8255f9.mp4 



The color-gamma stabilization is done by first probe-rendering all faces, computing their total pixel weight per frame and the average of all frames, then adjusting the gamma for each frame according to the average in order to flatten the fluctuations: if the face is too dark - it gets lighter and vice versa. Indeed, this phenomenon itself is to show some intrinsic properties of the pix2pix model.

Finally there is sharpening and merging is performed using these corrected faces.

...

* The neural model didn't capture the blue tint of the model's eyes, but it had a little excuse - the color of the eyes in the video varies and even there are frames where the ground truth eyes are different colors: one is very gray-blueish-purple and the other one - brown.






Read More