Mistral este noul AI audio open source. Vocea a fost prima noastră interfață. Înaintea tastaturilor si a ecranelor. Dar sistemele vocale moderne? Încă sunt greu accesibile. Fie folosesti ceva fragil precum Whisper, fie plătești un preț premium pentru API-uri închise, precum ElevenLabs și OpenAI, care restricționează acuratețea în funcție de nivelurile de preț.
Voxtral variante

- Voxtral (24B) modelul full.
- Voxtral Mini 1.0 (3B) — construit pe Ministral-3B, dar cu inteligență audio completă integrată. Beneficiați de reasoning text de nivel superior și transcriere, traducere și înțelegere audio foarte buna, toate într-un singur produs.
Le puteți rula local. Sau puteți accesa API-ul lor pentru doar 0,001 USD/min, alimentat de un Voxtral Mini optimizat pentru transcriere.
Ce face bine Voxtral Mini
Mod de transcriere dedicat: se seteaza în modul de transcriere pură, dacă este necesar, maximizând viteza și precizia.
Multilingv din constructie: in limbile engleză, hindi, franceză, germană, spaniolă, olandeză, portugheză, italiană. Detectează automat limba.
Context de 32k token: poate gestiona până la 30 de minute de audio pentru transcriere, 40 de minute pentru înțelegere. Fără tăieri.
Întrebări și răspunsuri și rezumare integrate: nu este nevoie să îl conectați la un alt LLM doar pentru a pune întrebări despre fișierul audio.
Apelare vocală a funcțiilor: spuneți ceva de genul „Trimite acest raport managerului” și acesta poate declanșa un apel backend, fără a fi nevoie de un tool suplimentar.
Excelent la text: Voxtral Mini păstrează întreaga putere de raționament (reasoning) a Ministral-3B.
Comparatii

Voxtral depășește Whisper large-v3, GPT-4o mini, Gemini 2.5 Flash și ElevenLabs Scribe în majoritatea sarcinilor de transcriere.
Testat pe FLEURS, Mozilla Common Voice și Multilingual LibriSpeech — nu pe seturi de date selectate.

Cazuri reale de utilizare,
Puteti construi:
- Agenți vocali care trebuie să facă mai mult decât să repete transcrieri.
- Aplicații în care sunetul provine din mai multe limbi și trebuie înțeles, nu doar decodat.
- Fluxuri de lucru declanșate de voce, fără n părți mobile lipite între ele.
Și, spre deosebire de majoritatea modelelor „deschise” care se blochează când le ceri mai mult de o propoziție, Voxtral păstrează memoria pe termen lung și răspunde cu rezultate structurate și coerente.
Cum lucrati cu el
- Rulați-l local: HuggingFace are atât 24B, cât și 3B disponibile pentru descărcare.
- Utilizați API-ul: Ieftin. Simplu. 0,001 USD pe minut.
- Încercați-l pe Le Chat: aplicația lor de chat cu mod vocal va fi lansată în curând. Vorbiți, încărcați, transcrieți, rezumați, puneți întrebări — totul dintr-un browser sau telefon.