Într-o perioadă de câteva săptămâni, coroana pentru cel mai bun model open-source a trecut de la Kimi-K2, apoi la Qwen3 și acum merge la GLM 4.5.
GLM 4.5 nu încearcă să fie cel mai bun programator, sau cel mai inteligent raționator, sau cel mai fluid agent. Încearcă să fie toate acestea deodată. Și ciudat, reuseste.
Ce este de fapt
Au fost lansate două modele:
- – GLM-4.5: 355 miliarde parametri total, 32 miliarde activi
- – GLM-4.5-Air: un frate mai suplu cu 106 miliarde total, 12 miliarde activi
Ambele sunt bazate pe MoE (Mixture of Experts), dar cu o logică arhitecturală bine gândită. În loc să fie împânzit cu experți supradimensionați care să se împiedice unul pe altul, s-a redus numarul de parametrii și s-au adăugat mai multe straturi. Mai multe straturi, mai puține distrageri. Rezultatul? Abilități mai bune de raționament și un comportament mai stabil în contexte lungi, cu apeluri multiple la instrumente.
De asemenea, are două moduri:
- – Modul de gândire (reasoning): se activează când problema este complexă și sunt implicate instrumente
- – Modul fără gândire: doar dă-mi răspunsul de îndată
Performanță: Se ridică la înălțimea așteptărilor?
În 12 benchmark-uri complexe (codare, agenți, raționament), se clasează pe locul 3 global, depășit doar de OpenAI și un alt competitor. Versiunea mai mică Air se clasează pe locul 6.
Ai văzut probabil mulți „agenți” care promit navigare web sau repararea codului. GLM-4.5 nu doar scrie scripturi, ci gândește sarcinile. La navigare web (BrowseComp), îl depășește pe Claude-4-Opus cu aproape 8 puncte. Performează solid pe BFCL-v3 (raționament cu funcții și unelte).
Dar adevărata victorie? Rata de succes în utilizarea uneltelor de 90,6%. Este mai mare decât Claude 4 Sonnet, Kimi-K2 și Qwen3. Într-o lume a modelelor LLM care folosesc unelte, acest procent îl face de încredere.
Teste de raționament:
- – MATH 500: 98,2%
- – AIME24: 91,0%
- – GPQA: 79,1%
Sigur, Claude îl depășește pe unele, ca MMLU, dar GLM-4.5 este constant de top în toate privințele. Arhitectura „depth-first” funcționează.
Capacități de Codare
Vrei dezvoltare full-stack? Se descurcă cu frontend, backend, baze de date, chiar și cu slide-uri și postere la cerere. Acest model construiește jocuri (clone Flappy Bird), caută imagini pe web, le împachetează curat și nu generează halucinații jumătate din timp.
Benchmark-uri:
- – SWE-bench Verified: 64,2 (depășește GPT-4.1 și DeepSeek)
- – Terminal-Bench: 37,5 (depășește tot ce este, cu excepția Claude 4 Sonnet)
În evaluări umane directe:
- – Îl bate pe Kimi-K2 în 54% din cazuri
- – Îl surclasează pe Qwen3-Coder cu o rată de succes de 80,8%
- – Și din nou, folosirea uneltelor nu se blochează la jumătate.
Sub Capotă
- – Grouped-Query Attention cu RoPE parțial
- – 96 capete de atenție (majoritatea se opresc la 40-60)
- – Gatare Sigmoid MoE + rutare fără pierderi
- – QK-Norm pentru stabilitate
- – Multi-Token Prediction (MTP): face decodarea speculativă cu adevărat utilizabilă
- – Optimizator Muon: antrenează rapid, gestionează loturi mari
Pentru pre-antrenare, i-au fost date 22 trilioane de tokeni:
- – 15T date generale
- – 7T cod + raționament
Apoi a urmat post-pre-antrenarea, unde a fost expus la date instruite pe domenii specifice. Dar partea esențială a venit mai târziu.
Învățarea prin întărire (Reinforced learning)
Antrenamentul RL (reinforced learning) la această scară e lent, costisitor și complex. De aceea au creat „slime” (da, așa se numește). Și e eficient:
- – Mod hibrid de antrenament: sincron + asincron
- – Roll-uri decuplate de antrenament: fără colajoare
- – Precizie mixtă (FP8) pentru roll-uri + antrenare BF16: rapid și stabil
Nu au aplicat RL doar pe matematică. L-au antrenat pe fluxuri reale de agenți:
- – Q&A pentru căutarea informațiilor
- – Sarcini reale de inginerie software
- – Perechi Q&A create prin scanarea web cu ascundere selectivă a datelor (forțând modelul să caute, nu să repete) Apoi au distilat comportamentul optim înapoi în model.
Cum să folosești GLM 4.5 gratuit?
Mai multe opțiuni:
- 1. Testează modelul la chat.z.ai
- 2. Greutățile (weights) sunt open-sourced pe Hugging Face
- 3. Demonstrații disponibile și în Hugging Face Spaces
GLM 4.5 nu pare doar un alt LLM care urmează trendurile. Pare o resetare. O corecție de direcție. Ceva construit să performeze, nu doar să impresioneze cu demonstrații alese.
Nu e perfect. Claude îl mai depășește în câteva puncte. GPT-4.1 domnește în profunzimea textului lung. Dar GLM-4.5 ține piept în fiecare categorie. Și pentru un model atât de deschis, utilizabil și ancorat în realitate – e impresionant.
Cel mai important: nu pare că se preface. Știe ce este. Și asta poate fi cea mai mare sa forță.