Sunday, May 17, 2026

// // Leave a Comment

List of the Biggest Early GPT LLMs for Non-English Languages Circa 2020-2021-2022 - Update with Chinese, Russian and Spanish models

Updates to the table about the biggest GPT-models circa 2021 in the book "The First Modern Strategy ... " 

The GPT2-MEDIUM-BG seems to be among the biggest 6-7 models, trained on a free single Tesla T4 in Colab. :)) 

p.26

В този труд са дописани допълнителни бележки към цитирани откъси от класическия ТРИВ от [17] за мерките за зародиш на разум и степените на развитие. От[TT1]  големите езикови модели – сведения за тях и работата им и някои най-нови публикации, както и сравнение на данни за ранни GPT-модели на различни езици – арабски, френски и множество европейски, японски и китайски – като българският GPT2-MEDIUM-BG се оказва един от шест-седем най-големи модели от такъв тип в света до 2021 г. за езици различни от английския – по-големи около същото време или малко по-рано са само за китайски, арабски, руски, румънски и френски; с подобен размер е за японски[1], разработен по същото време като българския. Кратки  бележки за по-големия проект за инфраструктура за Общ ИИ и всякакви проекти, свързани и с пораждащи модели – Вседържец[TT2] “.(...)


[1] Възможно е и др.: на 18.5.2026 добавих китайски, руски и нов испански от 2022 г. Виж [236



p.238 [236]

236. Ранни пораждащи големи езикови модели от типа GPT за езици, различни от английския: български, френски, арабски, испански, португалски, немски, китайски; гръцки, сръбски, румънски, японски, китайски, руски – 2020-2021 г.  Датата на някои – по дати на файловете с теглата на модела, дата на научна статия и пр. До края на 2021 г. само китайският, френският, арабският, руският, румънският, японският и българският са с над 100-тина милиона параметъра. Румънският е силен, обучаван на 17 GB-ов корпус. Само българският вероятно е разработен от един-единствен човек с бюджет и подкрепа = 0 и авторът представя родната компютърна лингвистика в тази дисциплина като самозван „хайдутин“, понеже институциите и по-„елитните“ бойци чакаха до 2023-2024 г. [66]. Сравни с аналогичен случай с ДЗБЕ около 2001-2003 г. и бездействието на ИБЕ на БАН и на останалите филолози от университетите спрямо явленията, срещу които ДЗБЕ се противопоставяше и се опитваше да „призове“ „чети“ [16][40], а „маститите“ езиковеди (по определението на Павлин Стойчев, „PC World Bulgaria“, 5.2003 [239]) гледаха безучастно и обясняваха, че това били „естествени процеси“. Сравни с бележките за „Добродетелната дружина и нехранимайковците“ и [40], 2003 г., дали талантите не са имали избор да не учат в „най-престижните университети“ и да развият местните и пр. XLM-R от „Фейсбук“, 11.2019 е по-голям, но в него българският е един от 100 езика, на които е обучаван, и моделът е за класификация и отговаряне на въпроси, а не за пораждане.
Таблици: подредени по време на създаване и по размер:
Допълнена на 18.5.2026 с китайския, руския и испанския голям модел.

Ранни големи езикови модели “GPT“за разни езици по време

GPT

117 M

6.2018

GPT2

1.554 B

14.2.2019 (XL) (публик. 11.2019)

 

Италиански

117 М

4.2020

Португалски

124 M?

5.2020

Гръцки

124 M?

9.2020

Немски

124 M?

11.2020 – 8.2021

Китайски

124 M?

11.2020 – 5.2021

Испански

124 M?

12.2020

Китайски

2.6 B

12.2020

Арабски

1.46 B

3.2021

Руски

760 М

5.2021

Френски

1 B

5.2021

Румънски

774 M

7.2021

Сръбски

124 M?

7.2021

Български

355 М

6.2021 – 8.2021, Тош

Японски

336 М

16.8.2021

Японски

1 B

20.1.2022

Испански

774 M

1.4.2022

БАН

124 M

27.6.2023

INSAIT

7.3 B

2.2024

 

Ранни големи езикови модели тип “GPT“,
подредени по размер

Китайски

2.6 B

12.2020

Арабски

1.46 B

3.2021

Френски

B

5.2021

Руски

760 М

5.2021

Румънски

774 M

7.2021

Български

355 М

6.2021 – 8.2021, Тош

Японски

336 М

16.8.2021

Японски

1 B

20.1.2022

Испански

124 M?

12.2020

Португалски

124 M?

5.2020

Немски

124 M?

11.2020 – 8.2021

Италиански

117 М

4.2020

Китайски

124 M?

11.2020 – 5.2021

Гръцки

124 M?

9.2020

Сръбски

124 M?

7.2021

БАН

124 M

27.6.2023

INSAIT

7.3 B

2.2024

GPT

117 M

6.2018

GPT2

1.554 B

14.2.2019 (XL) (публик. 11.2019)

1. Тодор Арнаудов, GPT2-MEDIUM-BG, Свещеният сметач, ДЗБЕ ~6.2021 – 8.2021345М – български – обучен от нулата на Tesla T4 в Colab [31][46]

[31. Т.Арнаудов, Подготовка на набор данни и обучение на
GPT2-MEDIUM на български, 6.2021 г.: Train GPT2-MEDIUM Google Colab Tips & Tricks Any Language From Scratch
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/bggpt_sacred_computer.ipynb
* T.Arnaudov, GPT2 Unlimited-Length Generation with Hidden Prompt Injections - Code Review, 2021 (1.2023)https://youtu.be/V1eO2OpsXBE
* T.Arnaudov, GPT2-Medium Training from Scratch on Colab for Any Language - Tips & Tricks by Twenkid,
2021: https://youtu.be/F-Xt-cK4L-g Код и подробна инструкция за подготовка на набор от данни и обучение на GPT2 модели безплатно в Google Colaboratory от нулата (на английски). Популярен клип по темата с над 4 хил. гледания, 68 харесвания, 30-тина абонати.]

46. T.Arnaudov, 2021 (2025), gpt2-medium-bg, https://huggingface.co/twenkid/gpt2-medium-bg    
* T.Arnaudov,
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
* T.Arnaudov, Train GPT2-Medium in Google Colab – Tips & Tricks – Any language from scratch, 2021
https://youtu.be/F-Xt-cK4L-g
* T.Arnaudov, Unlimited length with GPT2 … Update 6-5-2023 …
* T.Arnaudov, Hidden Prompt Injections: Unlimited Length GPT2 Generation, 1. 2023 (work from 2021)
https://www.youtube.com/watch?v=V1eO2OpsXBE

]
 
2.
Antoine Simoulin, Benoit Crabbé. Un modèle Transformer Génératif Pré-entrainé pour le ______ français. Traitement Automatique des Langues Naturelles, 6.2021, Lille, France. pp.246-255. ffhal03265900f  https://hal.science/hal-03265900 : – френски GPTfr-124M и GPTfr-1B с архитектурата на GPT3. 5.2021
3.
https://huggingface.co/dbddv01/gpt2-french-small - друг френски малък SMALL 137M, също обучен в Colab като българския, но с платена услуга Colab Pro.
4. Wissam Antoun and
Fady Baly and Hazem HajjARAGPT2: Pre-Trained Transformer for Arabic Language Generation, 7.3.2021 https://arxiv.org/pdf/2012.15520
Арабски, 4 варианта: 135M, 370M, 792M, 1.46B
  
5.  https://huggingface.co/datificate/gpt2-small-spanish испански: SMALL 124M? 12.2020 (дообучен от английския, използва техники от португалския)
6.
https://huggingface.co/pierreguillou/gpt2-small-portuguese/tree/main - португалски, SMALL, 124M?, 5.2020
7.
https://github.com/stefan-it/german-gpt2 немски малък: SMALL : 11.2020 - 8.2021 (тората версия - преобучен с по-добри резултати, използващ dbmdz)
8.
https://huggingface.co/dbmdz/german-gpt2/tree/main - 8.2021  - 10.2021 SMALL 124M?
9. GePpeTto Carves Italian into a Language Model, Lorenzo De Mattei, Michele Cafagna, Felice Dell'Orletta, Malvina Nissim, Marco Guerini, 29.4.2020  – италиански SMALL 117M
10. Chinese GPT2 SMALL-like models:  https://huggingface.co/uer/gpt2-chinese-cluecorpussmall  SMALL  11.20 – 5.21  https://huggingface.co/ckiplab/gpt2-base-chinese
11. https://huggingface.co/nikokons/gpt2-greek - гръцки, малък, SMALL, 9.2020
12. https://huggingface.co/macedonizer/sr-gpt2 - сръбски, малък, SMALL, 25.7.2021
13. https://huggingface.co/readerbench/RoGPT2-medium румънски, 124M, 354M, 774M LARGE, 7.2021   https://huggingface.co/readerbench/RoGPT2-large/tree/main Много голям за тогава корпус: 17 GB и обстойни тестове за производителността в статията:
RoGPT2: Romanian GPT2 for Text Generatio
n, M.Niculescu, S.Ruseti, M.Dascalu, 11.2021, University Politehnica of Bucharest, 2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI)
https://www.researchgate.net/publication/357227566_RoGPT2_Romanian_GPT2_for_Text_Generation
14. Японски модел от типа на
GPT2-MEDIUM с 336 М, 24 слоя, 1024-размерни вектори.  https://huggingface.co/rinna/japanese-gpt2-medium  * https://github.com/rinnakk/japanese-pretrained-models  Японският е много добре обучен (development perplexity, ppl 18, обучен за 45 дни на 8xV100 32 GB върху японската Уикипедия и др.), файл от 16.8.2021 г. https://huggingface.co/rinna/japanese-gpt-1b - 1-милиарден модел, 20.1.2022 г., 24 слоя, 2048-размерен вектор.


15.
Unsupervised Cross-lingual Representation Learning at Scale, Alexis Conneau, Kartikay Khandelwal, …, Veselin Stoyanov, 11.2019/4.2020  - XLM-R многоезичен езиков модел, обучаван и върху български корпус. В разработката участва Веселин Стоянов.

[Updates in the edition from 17.5.2026: Chinese, Russian, Spanish]
16. CPM: A Large-scale Generative Chinese Pre-trained Language Model, Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun, 1.12.2020, https://arxiv.org/abs/2012.00413

17. Methods for Detoxification of Texts for the Russian Language Daryna Dementieva‡ , Daniil Moskovskiy‡ , Varvara Logacheva‡ , David Dale‡ , Olga Kozlova† , Nikita Semenov† , and Alexander Panchenko‡ ‡Skolkovo Institute of Science and Technology, Moscow, Russia †Mobile TeleSystems (MTS), Moscow, Russia {daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale, a.panchenko}@skoltech.ru {oskozlo9,nikita.semenov}@mts.ru,  19.5.2021 https://arxiv.org/pdf/2105.09052 https://github.com/ai-forever/ru-gpts

18. Spanish Language Models
, Asier Gutiérrez-Fandiño, Jordi Armengol-Estapé, Marc Pàmies, Joan Llop-Palao, Joaquín Silveira-Ocampo, Casimiro Pio Carrino, Aitor Gonzalez-Agirre, Carme Armentano-Oller, Carlos Rodriguez-Penagos, Marta Villegas; 15.7.2021 – 5.4.2022 (v1 to v5); the GPT models appears in v3 from 1.4.2022
https://arxiv.org/abs/2107.07253v3

* GPT2 е обявен от OpenAI през 2.2019 г., но не е публикуван за използване заради опасения за възможна злоупотреба – пораждане на „фалшиви новини“ и пр. През 8.2019 пускат 774М, а през 11.2019 – двойно по-големият. OpenGPT2, представен през 8.2019 г., е обучен върху корпуса „OpenWebText”; цената за облачни услуги била около 50 хил. долара. https://en.wikipedia.org/wiki/GPT-2
* Размерите са приблизителни и може да са неточни за модели, които не са ползвали точно архитектурата, някои са с различен брой токени (32000) и пр. Влияние оказва не само броят параметри, а още качеството на данните и начинът на обучение и др. На онзи етап и мащаби всички модели са експериментални и с научна и образователна цел.




[Submitted on 1 Dec 2020]

CPM: A Large-scale Generative Chinese Pre-trained Language Model


during training: batch size = 3,072;  3M tokens .. (vs 1 M for GPT3 training)
strong few shot learning ...

* Methods for Detoxification of Texts for the Russian Language Daryna Dementieva‡ , Daniil Moskovskiy‡ , Varvara Logacheva‡ , David Dale‡ , Olga Kozlova† , Nikita Semenov† , and Alexander Panchenko‡ ‡Skolkovo Institute of Science and Technology, Moscow, Russia †Mobile TeleSystems (MTS), Moscow, Russia {daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale, a.panchenko}@skoltech.ru {oskozlo9,nikita.semenov}@mts.ru,  19.5.2021

https://arxiv.org/pdf/2105.09052

https://github.com/ai-forever/ru-gpts


* Others: later than GPT2-MEDIUM-BG (2021)


Spanish - MarIA GPT-2 -

https://arxiv.org/pdf/2107.07253v1 - only BERT-like model in July 2021

GPT2 models, up to Large 774M appears in v3, 1.4.2022:

https://arxiv.org/abs/2107.07253v3 

...

German -  https://www.kkirchheim.de/blog/german-gpt/ -  "Training a German LLM from scratch"

Existing German models available on Hugging Face have 137M parameters and a context length of 1024 tokens1, which is quite limited compared to recently released models, such as those in the LLAMA family.


0 коментара: