Saturday, September 18, 2021

// // Leave a Comment

GPT2-Medium Training from Scratch on Google Colab for Any Language - Tips & Tricks by Twenkid

My tips for training on Colab on Tesla T4 16GB, based on the obstacles that I had to overcome. I trained on a custom-built Bulgarian dataset. https://youtu.be/F-Xt-cK4L-g The code is based on: Arshabhi Kayal's tutorial: https://towardsdatascience.com/train-gpt-2-in-your-own-language-fc6ad4d60171 However his example was for local training on a modest Nvidia Geforce RTX 2060 (6 GB) for GPT2-Small (3 times smaller) and a fixed dataset. The code in the experiments in this video was extended and debugged for application in the Colaboratory which has its hurdles and for gradual extension of the dataset after each training epoch, without retraining the tokenizer (see Dataset Skip None in the video). ...

Some impotant points and discoveries: * Google Colab hurdles (the dataset should be sampled in parts, can't run too long epochs at once)
* The inputs/labels output of tokenization after changing the dataset should be filtered (Dataset Skip None)
* Etc.

...

Съвети за машинно обучение на GPT2-Medium модел на български или друг език от нулата през Google Colaboratory, от Тодор Арнаудов - Тош/Twenkid. Следва продължение. Errata: ~ 2:05 Tesla K80, not P100.
#gpt2 #transformers #tutorial
Read More

Tuesday, September 14, 2021

// // Leave a Comment

Смарти - Най-умният Английско-Български Речник: Безплатен и Мощен | Smarty - the most powerful comprehension assistant

Интересно и подробно видео представяне наа интелитентния речник, помощник в разбирането "Смарти", който беше най-мощното подобно приложение в света, когато беше създадено, въобще в категорията умни речници/езикови помощници - и все още ще да е един от най-мощните, макар че имаше огромно поле за развитие. За двойката английско-български съм срещал само един съвременен само с частично сравнима интерактивност и само в една от всички категории на "Смарти", защото работи само по с по една дума, няма изрази и пр. Другите онлайн речници са от най-простия вид като от преди 20 години.





Гледайте видеото:  https://youtu.be/QPWfpYwT_Ic


Най-мощният интелигентен английско-български речник "Smarty/„Смарти“, на който бях архитект и разработчик в изследователската група по компютърна лингвистика в Уулвърхамптън, Англия с научен ръководител проф. Руслан Митков. Речникът е безплатен и може да го използвате на всяко Windows PC, дори да е само с 256 МБ RAM и .NET 2.0 (C#) Какво е умен речник или помощник в разбирането? Това е приложение, което не извършва пълнотекстов превод, така че не може да допусне и фрапиращи грешки, и в същото време е много по-мощен и "умен" от обикновен електронен речник, "разбира" езика и подпомага и ускорява превода и изучаването на чужди езици, чрез по-сложна автоматична обработка на текста и чрез по-взаимодействащ и богат потребителски интерфейс. Разпознаване на изрази, на части на речта (съществителни, прилагателни, глаголи, наречия), търсене по окончания на думи, онтологията/синонимен речник - Wordnet и Balkanet и др. Обработка на естествен език, езикови бази данни, NLP, Natural Language Processing, Computational Linguistics. Wolverhampton Research Institute in Information and Language Processing. RIILP ... Разказва също за Xerox Locolex comprehension assistant, SA Dictionary, Езикотворец - речник на юнашкото наречие и сметачобългарския, ДЗБЕ. (...) Лематизация, нормализация, т.нар. Стеминг ((stemming) - намиране на корена на дума или основна форма – например при търсене или посочване на дума в мн.число или спрегнат глагол - програмата знае спрежения на неправилните глаголи, времена, образуване на мн.ч., части на речта и пр. Разпознаване на изрази чрез размито сравняване с шаблони и показване без да е нужно да ровите в статията. (...) Бързо разглеждане чрез посочване на дума от текста. Речник по окончания на думи/край на думи - търсене на рими, съчиняване на стихове. Виж също Reverso Context - много години/10-тина години след "Смарти". Българска и английска лексикография, езикознание. Дружество за защита на българския език - ДЗБЕ.

Read More

Saturday, September 11, 2021

// // Leave a Comment

Who is the fittest AI researcher or developer in the world?* [FUN FACTS]

Watch the performance: https://youtu.be/e95ZdzVzSsc


The video is from late August 2021, these are an year old shoots for the project "Bulgarian Ninja", or a later name: "Balkan Ninja" -  a project for a fighting video game (in Bulgarian) ~ 10.2020.
 



Well: not the fittest developer in any domain, and not working out too hard either.

For the fittest developer and also man, see the Belarusian guy Max: Максим Трухоновец. He seems as the best/the beast & the G.O.A.T. Max is Guiness record holder in many street work-out disciplines.


Read More

Saturday, September 4, 2021

// // Leave a Comment

Body Art & Muscle Art using 3D Depth Camera made of two Logitech C270 webcameras - Бодиарт с 3D-камера



https://youtu.be/pIGcdBaoZxU

Depth camera body art / muscle art - done with two Logitech C270 and opencv coding in python. If anyone cares, the code is in my github repository that is linked in the video description, in the recent commits. Note that the current version of the code is experimental and not polished. That output also could be interpolated etc. to fill-in black discontinuities etc., however as of "art" they serve as contours etc.

Author, coder and model: Todor.

To be continued...

...
"Бодиарт"/мускулно изкуство създадено чрез стерео камера (3D-камера, камера за дълбочина). Направих го с две камери Лоджитек C270 и програмиране на Питон с OpenCV.
Автор, програмист и модел: Тодор - Тош.

Следва продължение...

Read More