Wednesday, October 5, 2022

// // Leave a Comment

Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др. - Bulgarian Internet Archive, Search Engine and Media Analysis and Research Open Source Project

Tърсят се участници в проекта.

Новини, обновления, обсъждане, включване - в хранилището в гитхъб:

 https://github.com/Twenkid/Bulgarian-Internet-Archive-And-Search-Engine

СВЕЩЕНИЯТ СМЕТАЧ #36


СВЕЩЕНИЯТ СМЕТАЧ и ДРУЖЕСТВО ЗА ЗАЩИТА НА БЪЛГАРСКИЯ ЕЗИК - ДЗБЕ

Архив на българския Интернет, българска търсачка, услуги за наблюдение и анализ на съдържанието на медиите и др.

Запазване на данни и знания от българския и световния Интернет и тяхната аналитична обработка

Автор: Тодор Арнаудов - Тош, 11.9.2022 г.

Защо?

Отдавна имам тази идея, споменавал съм я на приятели, мислил съм да опитам да я направя за лични нужди - собствен паяк, който да събира най-важната за мен информация. Обаче за да се свърши както трябва е необходима повече енергия. Има някои частични малки архиви*/моментни снимки на части от стария Интернет (виж в бележките), но например наскоро беше закрит data.bg, който е пазел много древни файлове, вкл. някои мои от ранните времена на "Свещеният сметач" и 2000-те. Помните ли "free.techno-link"? Той загина много отдавна.

Hit.bg работеше години след като вече не беше "модерен", но и той отдавна е унищожен и не знам някой да му правил копие, освен каквото е оцеляло в Архив.орг (http://archive.org*) всъщност hit.bg се отваря от известно време, но не може да се логнете и пр.). Някои български сайтове с дълга съхранена история, които я пазят от десетилетия от началото на 2000-те, постепенно се обновяват и вече няма достъп. Напр. old.csd.bg - "Център за изследване на демокрацията", който работеше до 2020 г., когато ми трябваше една справка, но вече го няма, а Архив.орг пази само "фасади" от него.

Преди много години си замина bgit.net - един от първите български блогове и форум свързан с отворения код, Линукс и Ай Ти общността, не знам дали някой от създателите? му, сред които Йовко Ламбрев и Владимир Джувинов, още пазят архив; при мен останаха копия на отделни мои статии. В Архив.орг има фрагменти от него, най-старото копие е от юни 2001 г., когато изглежда е отворен сайтът: https://web.archive.org/web/20010630201813/http://www.bgit.net/).

Наскоро обаче самият Архив.орг* не беше достъпен в България за известно време. И т.н.

http://arxiv.org (сравни с http://archive.org) също е важен сайт, специализиран за публикуване на научни статии, който също подлежи на запазване в библиотека, както и разбира се Stackoverflow и сродните му, Github и пр.

...

Освен за да не се случи същото и със спомените от по-късния и съвременния Интернет заради затваряне на сайтовете, би било здравословно да има и местна сигурност в случай на прекъсване на достъпа до световния Интернет или част от него, което изглежда възможно предвид колко лесно се въвеждат всякакви "санкции" и ограничения както в т.нар. "свободен и демократичен" свят, според господстващите в България големи медии, така и в "противоположния" според "свободните" свят на "тирани, диктатори" и пр. Всеки блокира по нещо.

За по-голяма сигурност може да се запазват част от глобалните ресурси - разбира се, не може да се съхрани целият Интернет, но може да се запазят "важни", често ползвани и до определена дълбочина или някои да се съхраняват с известна компресия/частично и т.н.

Част от системата би могла да работи и като наблюдател на съдържанието на медиите и да извършва "media/press clipping", с която да има достъп и да се прави анализ на съдържанието на новинарски сайтове и страници на медии, социалните мрежи, на сайтовете за видеосподеляне по всякакви показатели - не пълно копие на видеофайловете, най-вече метаинформация; някои видеоклипове с по-ниска разделителна способност, само звук и пр.; транскрипция, както и описание на съдържанието на клипа чрез разпознаване на образи и класификация: описание какво се вижда на кадрите, какво се извършва и т.н.; отделни кадри (напр. ключовите кадри от видеото), схематична информация - компресирани кадри с приложени ефекти за откриване на очертания, текст извлечен с оптическо-разпознаване на символи и пр. Чрез новите технологии за пораждане на изображение като Stable Diffusion, Imagen, DALLE-2 и пр., и чрез идващите в бъдеще, ще може да се възстановява съществената част от съдържанието на медиите и от много по-малък обем компресирана информация.

Върху тези данни от медиите ще се правят различни справки и сравнения*; тази функция, както и цялостното събиране на данните, може да е основа и на експерименти с големи езикови модели в обработката на естествен език (NLP) и въобще изкуствения интелект, включително Общ ИИ.

За някои други приложения, свързани с почтеността на медии, политици и пр. виж в бележките по-долу.

Разбира се, системата може да бъде и търсачка, портал и пр. и като цяло би представлявало своеобразна разширена "енциклопедия".

Логично продължение е и разпределена българска социална мрежа и система за видеосподеляне с отворен код.

Като цяло:

Създаване на независим "български Интернет", който да позволи да се води "пълноценен мрежов живот" дори и ако по някаква причина международният Интернет се прекъсне.**

България всъщност има опит в това още от началото на 2000-те години от времето на free.techno-link и пр. с "Българския пръстен", в който имаше високоскоростна свързаност до някои ресурси в града или в страната във времена, в които все още се ползваше Интернет по телефона по 33.6 - 56.6 Кбит.

...

Как да работи архивът?

Разпределено съхранение на потребителски компютри

  1. Основен сървър/сървъри, които с паяци обхождат мрежата и качват данните като торенти, потребителите също могат да добавят елементи както в Архив.орг.

  2. Клиентските компютри имат приложение с отворен код, за да няма съмнения какво върши, в което потребителите решават какъв обем и трафик да заделят. Клиентското приложение може да извършва и част от изчислителната работа в разпределен режим, отново в дял, преценен от потребителя - подобно на някогашните "SETI @ Home" за анализ на сигнали от космоса, подобни системи в медицината като "Folding@home" и пр.

  3. Приложението тегли част от файловете през торентите* и пр. и ги съхранява на потребителските компютри. Част от клиентите могат да бъдат институции, компании и пр., които "даряват" значителен обем памет, терабайти и пр.

Сървъри

  1. Съхранението на данните и централизирано в сървъри, на поне няколко огледала, също е препоръчително.

Спасяване на стар софтуер и данни от лични архиви

  1. Част от информацията, която вече не се открива в Интернет, може да е запазена в лични архиви, на компакт-дискове и пр. и да бъде възстановена от потребителите.
    1. Ако например търсите определни безплатни програми от миналото, които не откривате - може да го зададаете като въпрос ("issue") в този проект.

Как да се осъществи?

Програмната и организационна част - като проект/множество от проекти с отворен код, които да се разработят от български програмисти, компании и пр. Ако проектът потръгне вероятно е разумно да се създаде ДНЦ (Дружество с нестопанска цел), но като за начало мисля, че това е излишно усложнение. Засега е достатъчно да се намерят желаещи, които да започнат от някъде, с някакъв пробен паяк и да общуват помежду си. Други желаещи могат по някакъв начин да дарят техника, като виртуални машини или физически, дисково пространство и пр.

Една възможна пускова посока е например "Common Crawl": https://commoncrawl.org


Тодор Арнаудов - Тош, 11.9.2022 г.

Всестранно изследователско-творческо дружество "Свещеният сметач", основано през 2000 г. http://eim.twenkid.com

Дружество за защита на българския език - ДЗБЕ, основано 2002 г. http://eim.twenkid.com/dzbe

Последни редакции: 13.9.2022

...

** Благодарности на Bogo4, който ми писа днес за да ме пита за игра, която търсел, която вече била неоткриваема в Интерент, но снимка от нея има в една статия от сп. "Свещеният сметач", бр. 27 от 2003 г., "Упадъкът на езика на българското общество": http://eim.twenkid.com/old/3/27/upad.htm http://eim.twenkid.com/old/3/27/mar.gif

image

Играта е "Mario Warcraft", създадена с Game Maker. Благодаря също на Voltigore, който наскоро беше забелязал, че Archive.org не се е отварял и така също ми припомни идеята и необходимостта от български архив.

Бележки за допълнителни приложения

** Частични архиви за Интернет и др.

Разбира се, "Читанка" ("Моята библиотека") за книги, която в началото изглежда продължи по-старата библиотека sf.ludost.net. "Сандъците" и преди него един мой сайт за "прослава на българските сметачи" от 2002 г.: http://bulgariancomputers.freeservers.com/), Download.bg - което още работи; копията на списание "Свещеният сметач", също пазят паметници и "вкаменелости" от Интернет пространството в началото на 2000-те; "лафчето" на dir.bg още съществува и др.

Други функции за разнообразяване и проследяване на източниците: модерни са услугите за "борба с фалшивите новини" или с "пропагандата", в която обаче обикновено, разбира се, липсва борба с "институционализираната" или "собствената" пропаганда - онази, която управлява основните медии и има най-много пари. Например може да се сравнява съдържанието на различни медии и да се открие, че всички препредават едно и също и че всички техни журналисти и гости споделят и защитават една и съща позиция и противниците им са "наказвани" по един и същи начин или не са канени въобще - това противоречи на основните правила за "плурализъм" и за предаване на "всички гледни точки", за които уж се бореше "демокрацията". Необходима е диверсификация не само на енергоносителите, но и на медийната и културно-идеологическата зависимост на България.

Може да се провери и "прояви" по обективен начин например, че източникът на информацията за основните българоезични медии са да речем британски (виж едно събитие в Англия от осми септември и как беше отразено в България, сякаш България е колония на Британската империя, оплакваща своята кралица, а впоследствие възхваляващия новия крал), определени американски медии - или пък съответно руски и пр., т.е. дадени медии по съдържание всъщност са "ретранслатори" или "радиоточки" на тези медии майки, като повечето от тях са на запад от София и също разпространяват "пропаганда", т.е. тенденциозно поднесена информация, често с полуистини, скриване на неудобни факти, които са известни, преувеличения, изкривявания и пр.

Потребителите на медии имат право да знаят какъв е източникът и чии интереси и стратегии защитават дадени медии и да решат дали при тези обстоятелства медията заслужава вниманието и доверието им. Може да се извършва автоматичен анализ на настроенията и нагласите в медията (вид "Sentiment analysis"). Настроенията обикновено се припокриват с "медиите" майки (чия пропаганда) - дали са "крайно про-европейски, про-руски, про-американски, про-британски" или пък уравновесени; какви позиции представят с каква оценка, какви гости канят с какви позиции и всякакви параметри, какъв стил на изказване и пр. Кой какви грантове е получавал, с кого е свързано дадено публично лице и т.н., така че да се знае. Тези конкретни явления са видими и с просто око за онези, които наблюдават медиите и сравняват "на ум", но чрез подобна система мерките ще станат по-обективни и лесни за наблюдение и от неспециалисти.

** Проверката на "фалшивите новини", или по-точно дезинформацията, и склонността на дадена медия, източник и пр. да злоупотребява с такава, всъщност за някои случаи може да се извършва ефективно не в момента на публикуване, а впоследствие, след като се натрупа достатъчно историческа информация - мине време и може да се провери и от други източници и след други събития, че дадено твърдение или информация не са било вярно отразени. Натрупването на история на новините, изказванията, и след обработката - съответните дела, нагласи и пр. - би било полезно за тази цел, и може да бъде материал, набор данни на нови специални модели за машинно обучение. Всички проверки на "фалшиви новини" обаче трябва да вървят с предупреждение, че проверката и данните ѝ също може да са погрешни или едностранчива и човек трябва да преценява и да мисли и със собствената си глава, и никога да не се предоверява.

** Друго приложение е за проверка на обещанията и изказванията на политици и пр.* (мисля, че излезе някакво мобилно приложение за търсене в стенограмите на парламента?)

** Една друга идея, донякъде свързана с горните, е предложението на Разумир за Явно гласуване на избори за обществени длъжности с непрекъснато отброяване на резултатите в реално време и с потвърждения за всеки, че гласът му е отчетен правилно и непрекъсната проверка от всички гласуващи. По този начин фалшификациите при преброяването ще станат невъзможни. https://web.archive.org/web/20170115121036/http://narodovlastie.twenkid.com/

...

Bulgarian-Internet-Archive

Bulgarian Internet Archive Project - Preserve Data and Knowledge from the Local and Global Network

Read More