Sunday, May 17, 2026

In AGI, LLM, NLP, SIGI-2025, Изкуствен интелект, История, Книги, Обработка на естествен език, Статии by Todor "Tosh" Arnaudov - Twenkid // Sunday, May 17, 2026 // Leave a Comment

List of the Biggest Early GPT LLMs for Non-English Languages Circa 2020-2021-2022 - Update with Chinese, Russian and Spanish models

Updates to the table about the biggest GPT-models circa 2021 in the book "The First Modern Strategy ... "

The GPT2-MEDIUM-BG seems to be among the biggest 6-7 models, trained on a free single Tesla T4 in Colab. :))

p.26

В този труд са дописани допълнителни бележки към цитирани откъси от класическия ТРИВ от [17] за мерките за зародиш на разум и степените на развитие. От[TT1] големите езикови модели – сведения за тях и работата им и някои най-нови публикации, както и сравнение на данни за ранни GPT-модели на различни езици – арабски, френски и множество европейски, японски и китайски – като българският GPT2-MEDIUM-BG се оказва един от шест-седем най-големи модели от такъв тип в света до 2021 г. за езици различни от английския – по-големи около същото време или малко по-рано са само за китайски, арабски, руски, румънски и френски; с подобен размер е за японски[1], разработен по същото време като българския. Кратки бележки за по-големия проект за инфраструктура за Общ ИИ и всякакви проекти, свързани и с пораждащи модели – „Вседържец[TT2] “.(...)

[1] Възможно е и др.: на 18.5.2026 добавих китайски, руски и нов испански от 2022 г. Виж [236]

p.238 [236]

236. Ранни пораждащи големи езикови модели от типа GPT за езици, различни от английския: български, френски, арабски, испански, португалски, немски, китайски; гръцки, сръбски, румънски, японски, китайски, руски – 2020-2021 г. Датата на някои – по дати на файловете с теглата на модела, дата на научна статия и пр. До края на 2021 г. само китайският, френският, арабският, руският, румънският, японският и българският са с над 100-тина милиона параметъра. Румънският е силен, обучаван на 17 GB-ов корпус. Само българският вероятно е разработен от един-единствен човек с бюджет и подкрепа = 0 и авторът представя родната компютърна лингвистика в тази дисциплина като самозван „хайдутин“, понеже институциите и по-„елитните“ бойци чакаха до 2023-2024 г. [66]. Сравни с аналогичен случай с ДЗБЕ около 2001-2003 г. и бездействието на ИБЕ на БАН и на останалите филолози от университетите спрямо явленията, срещу които ДЗБЕ се противопоставяше и се опитваше да „призове“ „чети“ [16][40], а „маститите“ езиковеди (по определението на Павлин Стойчев, „PC World Bulgaria“, 5.2003 [239]) гледаха безучастно и обясняваха, че това били „естествени процеси“. Сравни с бележките за „Добродетелната дружина и нехранимайковците“ и [40], 2003 г., дали талантите не са имали избор да не учат в „най-престижните университети“ и да развият местните и пр. XLM-R от „Фейсбук“, 11.2019 е по-голям, но в него българският е един от 100 езика, на които е обучаван, и моделът е за класификация и отговаряне на въпроси, а не за пораждане.
Таблици: подредени по време на създаване и по размер:
Допълнена на 18.5.2026 с китайския, руския и испанския голям модел.

Ранни големи езикови модели “GPT“за разни езици по време
GPT	117 M	6.2018
GPT2	1.554 B	14.2.2019 (XL) (публик. 11.2019)
Италиански	117 М	4.2020
Португалски	124 M?	5.2020
Гръцки	124 M?	9.2020
Немски	124 M?	11.2020 – 8.2021
Китайски	124 M?	11.2020 – 5.2021
Испански	124 M?	12.2020
Китайски	2.6 B	12.2020
Арабски	1.46 B	3.2021
Руски	760 М	5.2021
Френски	1 B	5.2021
Румънски	774 M	7.2021
Сръбски	124 M?	7.2021
Български	355 М	6.2021 – 8.2021, Тош
Японски	336 М	16.8.2021
Японски	1 B	20.1.2022
Испански	774 M	1.4.2022
БАН	124 M	27.6.2023
INSAIT	7.3 B	2.2024

Ранни големи езикови модели тип “GPT“, подредени по размер
Китайски	2.6 B	12.2020
Арабски	1.46 B	3.2021
Френски	1 B	5.2021
Руски	760 М	5.2021
Румънски	774 M	7.2021
Български	355 М	6.2021 – 8.2021, Тош
Японски	336 М	16.8.2021
Японски	1 B	20.1.2022
Испански	124 M?	12.2020
Португалски	124 M?	5.2020
Немски	124 M?	11.2020 – 8.2021
Италиански	117 М	4.2020
Китайски	124 M?	11.2020 – 5.2021
Гръцки	124 M?	9.2020
Сръбски	124 M?	7.2021
БАН	124 M	27.6.2023
INSAIT	7.3 B	2.2024
GPT	117 M	6.2018
GPT2	1.554 B	14.2.2019 (XL) (публик. 11.2019)

1. Тодор Арнаудов, GPT2-MEDIUM-BG, Свещеният сметач, ДЗБЕ ~6.2021 – 8.2021, 345М – български – обучен от нулата на Tesla T4 в Colab [31][46]

[31. Т.Арнаудов, Подготовка на набор данни и обучение на GPT2-MEDIUM на български, 6.2021 г.: Train GPT2-MEDIUM Google Colab Tips & Tricks Any Language From Scratch
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/bggpt_sacred_computer.ipynb
* T.Arnaudov, GPT2 Unlimited-Length Generation with Hidden Prompt Injections - Code Review, 2021 (1.2023): https://youtu.be/V1eO2OpsXBE
* T.Arnaudov, GPT2-Medium Training from Scratch on Colab for Any Language - Tips & Tricks by Twenkid, 2021: https://youtu.be/F-Xt-cK4L-g – Код и подробна инструкция за подготовка на набор от данни и обучение на GPT2 модели безплатно в Google Colaboratory от нулата (на английски). Популярен клип по темата с над 4 хил. гледания, 68 харесвания, 30-тина абонати.]

46. T.Arnaudov, 2021 (2025), gpt2-medium-bg, https://huggingface.co/twenkid/gpt2-medium-bg
* T.Arnaudov, https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
* T.Arnaudov, Train GPT2-Medium in Google Colab – Tips & Tricks – Any language from scratch, 2021 https://youtu.be/F-Xt-cK4L-g
* T.Arnaudov, Unlimited length with GPT2 … Update 6-5-2023 …
* T.Arnaudov, Hidden Prompt Injections: Unlimited Length GPT2 Generation, 1. 2023 (work from 2021) https://www.youtube.com/watch?v=V1eO2OpsXBE

]

2. Antoine Simoulin, Benoit Crabbé. Un modèle Transformer Génératif Pré-entrainé pour le ______ français. Traitement Automatique des Langues Naturelles, 6.2021, Lille, France. pp.246-255. ffhal03265900f https://hal.science/hal-03265900 : – френски GPTfr-124M и GPTfr-1B с архитектурата на GPT3. 5.2021
3. https://huggingface.co/dbddv01/gpt2-french-small - друг френски малък SMALL 137M, също обучен в Colab като българския, но с платена услуга Colab Pro.
4. Wissam Antoun and Fady Baly and Hazem HajjARAGPT2: Pre-Trained Transformer for Arabic Language Generation, 7.3.2021 – https://arxiv.org/pdf/2012.15520
Арабски, 4 варианта: 135M, 370M, 792M, 1.46B
5. https://huggingface.co/datificate/gpt2-small-spanish испански: SMALL 124M? 12.2020 (дообучен от английския, използва техники от португалския)
6. https://huggingface.co/pierreguillou/gpt2-small-portuguese/tree/main - португалски, SMALL, 124M?, 5.2020
7. https://github.com/stefan-it/german-gpt2 немски малък: SMALL : 11.2020 - 8.2021 (тората версия - преобучен с по-добри резултати, използващ dbmdz)
8. https://huggingface.co/dbmdz/german-gpt2/tree/main - 8.2021 - 10.2021 SMALL 124M?
9. GePpeTto Carves Italian into a Language Model, Lorenzo De Mattei, Michele Cafagna, Felice Dell'Orletta, Malvina Nissim, Marco Guerini, 29.4.2020 – италиански SMALL 117M
10. Chinese GPT2 SMALL-like models: https://huggingface.co/uer/gpt2-chinese-cluecorpussmall SMALL 11.‘20 – 5.‘21 https://huggingface.co/ckiplab/gpt2-base-chinese
11. https://huggingface.co/nikokons/gpt2-greek - гръцки, малък, SMALL, 9.2020
12. https://huggingface.co/macedonizer/sr-gpt2 - сръбски, малък, SMALL, 25.7.2021
13. https://huggingface.co/readerbench/RoGPT2-medium румънски, 124M, 354M, 774M LARGE, 7.2021   https://huggingface.co/readerbench/RoGPT2-large/tree/main Много голям за тогава корпус: 17 GB и обстойни тестове за производителността в статията:
RoGPT2: Romanian GPT2 for Text Generation, M.Niculescu, S.Ruseti, M.Dascalu, 11.2021, University Politehnica of Bucharest, 2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI)
https://www.researchgate.net/publication/357227566_RoGPT2_Romanian_GPT2_for_Text_Generation
14. Японски модел от типа на GPT2-MEDIUM с 336 М, 24 слоя, 1024-размерни вектори. https://huggingface.co/rinna/japanese-gpt2-medium * https://github.com/rinnakk/japanese-pretrained-models Японският е много добре обучен (development perplexity, ppl 18, обучен за 45 дни на 8xV100 32 GB върху японската Уикипедия и др.), файл от 16.8.2021 г. https://huggingface.co/rinna/japanese-gpt-1b - 1-милиарден модел, 20.1.2022 г., 24 слоя, 2048-размерен вектор.

15. Unsupervised Cross-lingual Representation Learning at Scale, Alexis Conneau, Kartikay Khandelwal, …, Veselin Stoyanov, 11.2019/4.2020 - XLM-R многоезичен езиков модел, обучаван и върху български корпус. В разработката участва Веселин Стоянов.

[Updates in the edition from 17.5.2026: Chinese, Russian, Spanish]
16. CPM: A Large-scale Generative Chinese Pre-trained Language Model, Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun, 1.12.2020, https://arxiv.org/abs/2012.00413

17. Methods for Detoxification of Texts for the Russian Language Daryna Dementieva‡ , Daniil Moskovskiy‡ , Varvara Logacheva‡ , David Dale‡ , Olga Kozlova† , Nikita Semenov† , and Alexander Panchenko‡ ‡Skolkovo Institute of Science and Technology, Moscow, Russia †Mobile TeleSystems (MTS), Moscow, Russia {daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale, a.panchenko}@skoltech.ru {oskozlo9,nikita.semenov}@mts.ru, 19.5.2021 https://arxiv.org/pdf/2105.09052 https://github.com/ai-forever/ru-gpts

18. Spanish Language Models, Asier Gutiérrez-Fandiño, Jordi Armengol-Estapé, Marc Pàmies, Joan Llop-Palao, Joaquín Silveira-Ocampo, Casimiro Pio Carrino, Aitor Gonzalez-Agirre, Carme Armentano-Oller, Carlos Rodriguez-Penagos, Marta Villegas; 15.7.2021 – 5.4.2022 (v1 to v5); the GPT models appears in v3 from 1.4.2022
https://arxiv.org/abs/2107.07253v3

* GPT2 е обявен от OpenAI през 2.2019 г., но не е публикуван за използване заради опасения за възможна злоупотреба – пораждане на „фалшиви новини“ и пр. През 8.2019 пускат 774М, а през 11.2019 – двойно по-големият. OpenGPT2, представен през 8.2019 г., е обучен върху корпуса „OpenWebText”; цената за облачни услуги била около 50 хил. долара. https://en.wikipedia.org/wiki/GPT-2
* Размерите са приблизителни и може да са неточни за модели, които не са ползвали точно архитектурата, някои са с различен брой токени (32000) и пр. Влияние оказва не само броят параметри, а още качеството на данните и начинът на обучение и др. На онзи етап и мащаби всички модели са експериментални и с научна и образователна цел.

* [Submitted on 1 Dec 2020]

CPM: A Large-scale Generative Chinese Pre-trained Language Model

Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun

https://arxiv.org/abs/2012.00413

during training: batch size = 3,072; 3M tokens .. (vs 1 M for GPT3 training)
strong few shot learning ...

* Methods for Detoxification of Texts for the Russian Language Daryna Dementieva‡ , Daniil Moskovskiy‡ , Varvara Logacheva‡ , David Dale‡ , Olga Kozlova† , Nikita Semenov† , and Alexander Panchenko‡ ‡Skolkovo Institute of Science and Technology, Moscow, Russia †Mobile TeleSystems (MTS), Moscow, Russia {daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale, a.panchenko}@skoltech.ru {oskozlo9,nikita.semenov}@mts.ru, 19.5.2021

https://arxiv.org/pdf/2105.09052

https://github.com/ai-forever/ru-gpts

* Others: later than GPT2-MEDIUM-BG (2021)

Spanish - MarIA GPT-2 -

https://arxiv.org/pdf/2107.07253v1 - only BERT-like model in July 2021

GPT2 models, up to Large 774M appears in v3, 1.4.2022:

https://arxiv.org/abs/2107.07253v3

...

German - Nov 15, 2024 .. (files in huggingface)

https://www.kkirchheim.de/blog/german-gpt/ - "Training a German LLM from scratch"

Existing German models available on Hugging Face have 137M parameters and a context length of 1024 tokens¹, which is quite limited compared to recently released models, such as those in the LLAMA family.

Sunday, May 17, 2026

List of the Biggest Early GPT LLMs for Non-English Languages Circa 2020-2021-2022 - Update with Chinese, Russian and Spanish models

CPM: A Large-scale Generative Chinese Pre-trained Language Model

0 коментара:

Featured Post

Stack Theory is yet another Fork of Theory of Universe and Mind - SIGI-2025 and new volume of The Prophets of the Thinking Machines

Search

About Me

Links

Contact me

Blog Archive

Visitors

Locations

Last 30 days

Popular Posts

Labels

Email Newsletter

Followers

Labels

Popular Posts

Labels

Histats Counter

New Visitors