Updates to the table about the biggest GPT-models circa 2021 in the book "The First Modern Strategy ... "
The GPT2-MEDIUM-BG seems to be among the biggest 6-7 models, trained on a free single Tesla T4 in Colab. :))
p.26
В
този труд са дописани допълнителни бележки към цитирани откъси от класическия
ТРИВ от [17]
за
мерките за зародиш на разум и степените на развитие. От[TT1] големите езикови модели –
сведения за тях и работата им и някои най-нови публикации, както и сравнение на
данни за ранни GPT-модели на различни езици – арабски, френски и множество европейски,
японски и китайски – като българският GPT2-MEDIUM-BG се оказва един от шест-седем най-големи модели
от такъв тип в света до 2021 г. за езици различни от английския – по-големи
около същото време или малко по-рано са само за китайски, арабски, руски, румънски
и френски; с подобен размер е за японски[1],
разработен по същото време като българския. Кратки бележки за по-големия проект за
инфраструктура за Общ ИИ и всякакви проекти, свързани и с пораждащи модели – „Вседържец[TT2] “.(...)
[1] Възможно е и др.: на 18.5.2026 добавих китайски, руски и нов испански от 2022 г. Виж [236]
p.238 [236]
236. Ранни
пораждащи големи езикови модели от типа GPT за езици, различни от английския: български, френски, арабски, испански, португалски, немски, китайски; гръцки, сръбски, румънски, японски, китайски,
руски – 2020-2021 г. Датата на някои –
по дати на файловете с теглата на модела, дата на научна статия и пр. До края
на 2021 г. само китайският, френският, арабският, руският,
румънският, японският и българският са с над 100-тина милиона параметъра.
Румънският е силен, обучаван на 17 GB-ов корпус. Само българският
вероятно е разработен от един-единствен човек с бюджет и подкрепа = 0 и авторът
представя родната компютърна лингвистика в тази дисциплина като самозван
„хайдутин“, понеже институциите и по-„елитните“ бойци чакаха до 2023-2024
г. [66]. Сравни с аналогичен случай с ДЗБЕ
около 2001-2003 г. и бездействието на ИБЕ на БАН и на останалите филолози от
университетите спрямо явленията, срещу които ДЗБЕ се противопоставяше и се
опитваше да „призове“ „чети“ [16][40], а „маститите“
езиковеди (по определението на Павлин Стойчев, „PC World Bulgaria“, 5.2003 [239]) гледаха безучастно и обясняваха, че това
били „естествени процеси“. Сравни с бележките за „Добродетелната
дружина и нехранимайковците“ и [40], 2003 г., дали талантите не са имали избор да не
учат в „най-престижните университети“ и да развият местните и пр. XLM-R от „Фейсбук“, 11.2019 е по-голям, но в него
българският е един от 100 езика, на които е обучаван, и моделът е за
класификация и отговаряне на въпроси, а не за пораждане.
Таблици: подредени по време на създаване и по
размер:
Допълнена на 18.5.2026 с китайския,
руския и испанския голям модел.
|
Ранни големи
езикови модели “GPT“за разни езици по време |
||
|
GPT |
117 M |
6.2018 |
|
GPT2 |
1.554 B |
14.2.2019 (XL)
(публик. 11.2019)
|
|
Италиански |
117 М |
4.2020 |
|
Португалски |
124 M? |
5.2020 |
|
Гръцки |
124 M? |
9.2020 |
|
Немски |
124 M? |
11.2020 – 8.2021 |
|
Китайски |
124 M? |
11.2020 – 5.2021 |
|
Испански |
124 M? |
12.2020 |
|
Китайски |
2.6 B |
12.2020 |
|
Арабски |
1.46 B |
3.2021 |
|
Руски |
760 М |
5.2021 |
|
Френски |
1 B |
5.2021 |
|
Румънски |
774 M |
7.2021 |
|
Сръбски |
124 M? |
7.2021 |
|
Български |
355 М |
6.2021 – 8.2021, Тош |
|
Японски |
336 М |
16.8.2021 |
|
Японски |
1 B |
20.1.2022 |
|
Испански |
774 M |
1.4.2022 |
|
БАН |
124 M |
27.6.2023 |
|
INSAIT |
7.3 B |
2.2024 |
|
Ранни големи езикови
модели тип “GPT“, |
||
|
Китайски |
2.6 B |
12.2020 |
|
Арабски |
1.46 B |
3.2021 |
|
Френски |
1 B |
5.2021 |
|
Руски |
760 М |
5.2021 |
|
Румънски |
774 M |
7.2021 |
|
Български |
355 М |
6.2021 – 8.2021, Тош |
|
Японски |
336 М |
16.8.2021 |
|
Японски |
1 B |
20.1.2022 |
|
Испански |
124 M? |
12.2020 |
|
Португалски |
124 M? |
5.2020 |
|
Немски |
124 M? |
11.2020 – 8.2021 |
|
Италиански |
117 М |
4.2020 |
|
Китайски |
124 M? |
11.2020 – 5.2021 |
|
Гръцки |
124 M? |
9.2020 |
|
Сръбски |
124 M? |
7.2021 |
|
БАН |
124 M |
27.6.2023 |
|
INSAIT |
7.3 B |
2.2024 |
|
GPT |
117 M |
6.2018 |
|
GPT2 |
1.554 B |
14.2.2019 (XL) (публик.
11.2019) |
1. Тодор Арнаудов,
GPT2-MEDIUM-BG, Свещеният
сметач, ДЗБЕ ~6.2021 – 8.2021, 345М – български – обучен от нулата на Tesla T4 в Colab [31][46]
[31.
Т.Арнаудов, Подготовка на набор данни и обучение на GPT2-MEDIUM на български, 6.2021 г.: Train
GPT2-MEDIUM Google Colab Tips & Tricks Any Language From Scratch
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools/blob/main/bggpt_sacred_computer.ipynb
*
T.Arnaudov, GPT2
Unlimited-Length Generation with Hidden Prompt Injections - Code Review,
2021 (1.2023): https://youtu.be/V1eO2OpsXBE
* T.Arnaudov, GPT2-Medium Training from Scratch on Colab for Any Language -
Tips & Tricks by Twenkid, 2021: https://youtu.be/F-Xt-cK4L-g – Код и подробна инструкция
за подготовка на набор от данни и обучение на GPT2 модели безплатно в Google
Colaboratory от
нулата (на английски). Популярен клип по темата с над 4 хил. гледания, 68
харесвания, 30-тина абонати.]
46. T.Arnaudov, 2021 (2025), gpt2-medium-bg, https://huggingface.co/twenkid/gpt2-medium-bg
* T.Arnaudov, https://github.com/Twenkid/GPT2-Bulgarian-Training-Tips-and-Tools
* T.Arnaudov, Train GPT2-Medium in Google Colab – Tips & Tricks – Any
language from scratch, 2021 https://youtu.be/F-Xt-cK4L-g
* T.Arnaudov, Unlimited length with GPT2 … Update 6-5-2023 …
* T.Arnaudov, Hidden Prompt Injections: Unlimited Length GPT2 Generation, 1.
2023 (work from 2021) https://www.youtube.com/watch?v=V1eO2OpsXBE
]
2. Antoine Simoulin, Benoit Crabbé. Un modèle Transformer Génératif
Pré-entrainé pour le ______ français. Traitement Automatique des Langues
Naturelles, 6.2021, Lille, France. pp.246-255. ffhal03265900f https://hal.science/hal-03265900 : – френски GPTfr-124M и
GPTfr-1B с архитектурата на GPT3. 5.2021
3. https://huggingface.co/dbddv01/gpt2-french-small - друг френски малък SMALL 137M, също
обучен в Colab като
българския, но с платена услуга Colab Pro.
4. Wissam Antoun and Fady Baly and Hazem HajjARAGPT2:
Pre-Trained Transformer for Arabic Language Generation, 7.3.2021
– https://arxiv.org/pdf/2012.15520
Арабски, 4 варианта: 135M, 370M, 792M, 1.46B
5. https://huggingface.co/datificate/gpt2-small-spanish испански: SMALL 124M? 12.2020 (дообучен от английския, използва
техники от португалския)
6. https://huggingface.co/pierreguillou/gpt2-small-portuguese/tree/main - португалски, SMALL, 124M?,
5.2020
7. https://github.com/stefan-it/german-gpt2 немски малък: SMALL : 11.2020 - 8.2021 (тората версия - преобучен с
по-добри резултати, използващ dbmdz)
8. https://huggingface.co/dbmdz/german-gpt2/tree/main - 8.2021 - 10.2021 SMALL 124M?
9. GePpeTto Carves
Italian into a Language Model, Lorenzo De Mattei, Michele Cafagna, Felice
Dell'Orletta, Malvina Nissim, Marco Guerini, 29.4.2020 – италиански SMALL 117M
10. Chinese GPT2
SMALL-like models: https://huggingface.co/uer/gpt2-chinese-cluecorpussmall SMALL 11.‘20 – 5.‘21 https://huggingface.co/ckiplab/gpt2-base-chinese
11. https://huggingface.co/nikokons/gpt2-greek - гръцки, малък, SMALL, 9.2020
12. https://huggingface.co/macedonizer/sr-gpt2 - сръбски, малък, SMALL, 25.7.2021
13. https://huggingface.co/readerbench/RoGPT2-medium румънски, 124M, 354M, 774M LARGE, 7.2021 https://huggingface.co/readerbench/RoGPT2-large/tree/main Много голям за тогава корпус: 17 GB и обстойни тестове за производителността в статията:
RoGPT2: Romanian GPT2 for Text Generation, M.Niculescu, S.Ruseti, M.Dascalu, 11.2021,
University Politehnica of Bucharest, 2021 IEEE
33rd International Conference on Tools with Artificial Intelligence (ICTAI)
https://www.researchgate.net/publication/357227566_RoGPT2_Romanian_GPT2_for_Text_Generation
14. Японски модел от типа на GPT2-MEDIUM с 336 М, 24
слоя, 1024-размерни вектори. https://huggingface.co/rinna/japanese-gpt2-medium * https://github.com/rinnakk/japanese-pretrained-models
Японският е много добре обучен (development
perplexity, ppl 18, обучен за
45 дни на 8xV100 32 GB върху
японската Уикипедия и др.), файл от 16.8.2021 г. https://huggingface.co/rinna/japanese-gpt-1b - 1-милиарден модел, 20.1.2022 г., 24 слоя,
2048-размерен вектор.
15. Unsupervised Cross-lingual Representation Learning at Scale, Alexis
Conneau, Kartikay Khandelwal, …, Veselin Stoyanov, 11.2019/4.2020 - XLM-R многоезичен
езиков модел, обучаван и върху български корпус. В разработката участва Веселин
Стоянов.
[Updates in the edition from 17.5.2026: Chinese, Russian, Spanish]
16. CPM: A Large-scale Generative
Chinese Pre-trained Language Model, Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke,
Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi,
Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li,
Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan
Zhu, Maosong Sun, 1.12.2020, https://arxiv.org/abs/2012.00413
17. Methods for Detoxification of Texts for the Russian Language Daryna
Dementieva‡ , Daniil Moskovskiy‡ , Varvara Logacheva‡ , David Dale‡ , Olga
Kozlova† , Nikita Semenov† , and Alexander Panchenko‡ ‡Skolkovo Institute of
Science and Technology, Moscow, Russia †Mobile TeleSystems (MTS), Moscow,
Russia {daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale,
a.panchenko}@skoltech.ru {oskozlo9,nikita.semenov}@mts.ru, 19.5.2021 https://arxiv.org/pdf/2105.09052 https://github.com/ai-forever/ru-gpts
18. Spanish Language Models, Asier Gutiérrez-Fandiño, Jordi
Armengol-Estapé, Marc Pàmies, Joan Llop-Palao, Joaquín Silveira-Ocampo,
Casimiro Pio Carrino, Aitor Gonzalez-Agirre, Carme Armentano-Oller, Carlos
Rodriguez-Penagos, Marta Villegas; 15.7.2021 – 5.4.2022 (v1 to v5); the GPT
models appears in v3 from 1.4.2022
https://arxiv.org/abs/2107.07253v3
* Размерите са приблизителни и може да са неточни за модели, които не са ползвали точно архитектурата, някои са с различен брой токени (32000) и пр. Влияние оказва не само броят параметри, а още качеството на данните и начинът на обучение и др. На онзи етап и мащаби всички модели са експериментални и с научна и образователна цел.
* [Submitted on 1 Dec 2020]
CPM: A Large-scale Generative Chinese Pre-trained Language Model
* Methods for Detoxification of Texts for the Russian Language
Daryna Dementieva‡
, Daniil Moskovskiy‡
, Varvara Logacheva‡
, David Dale‡
,
Olga Kozlova†
, Nikita Semenov†
, and Alexander Panchenko‡
‡Skolkovo Institute of Science and Technology, Moscow, Russia
†Mobile TeleSystems (MTS), Moscow, Russia
{daryna.dementieva, daniil.moskovskiy, v.logacheva, d.dale, a.panchenko}@skoltech.ru
{oskozlo9,nikita.semenov}@mts.ru, 19.5.2021
https://arxiv.org/pdf/2105.09052
https://github.com/ai-forever/ru-gpts
* Others: later than GPT2-MEDIUM-BG (2021)
Spanish - MarIA GPT-2 -
https://arxiv.org/pdf/2107.07253v1 - only BERT-like model in July 2021
GPT2 models, up to Large 774M appears in v3, 1.4.2022:
https://arxiv.org/abs/2107.07253v3
...
German - https://www.kkirchheim.de/blog/german-gpt/ - "Training a German LLM from scratch"
Existing German models available on Hugging Face have 137M parameters and a context length of 1024 tokens1, which is quite limited compared to recently released models, such as those in the LLAMA family.
