LFM2-Audio-1.5B: Un model AI rapid și ușor pentru conversații vocale în timp real.

de | octombrie 16, 2025

Majoritatea asistenților vocali AI sunt asemănători. Tu vorbești, el ascultă, îți transformă cuvintele în text, le procesează cu un model lingvistic și apoi răspunde prin voce. Trei pași si, de obicei, o pauză suficient de lungă încât să începi să te întrebi dacă microfonul tău s-a stricat.

Liquid AI introduce un nou model care elimină toată complexitatea inutilă.

Se numește LFM2-Audio-1.5B. Numele sună impresionant, dar de fapt este relativ mic — doar 1,5 miliarde de parametri. Totuși, reușește să desfășoare conversații autentice, atât prin text, cât și prin voce, fără a avea nevoie de sisteme separate de recunoaștere vocală (ASR) sau sinteză vocală (TTS) adăugate deasupra.

Tu vorbești, el îți răspunde.

Ce este diferit ?

În loc să conecteze trei instrumente separate, acest model realizează întregul proces în mod autonom. Folosește:

  • un encoder FastConformer pentru a procesa vocea ta,
  • o structură de bază multimodală LFM2 pentru a decide ce să spună,
  • și un RQ-Transformer care generează audio prin tokeni Mimi.

Funcționează în două moduri. Unul este „intercalat” (interleaved), în care generează simultan text și audio. Acesta este modul pe care l-ai alege dacă ai construi, de exemplu, un chatbot vocal. Celălalt este „secvențial” (sequential), mai potrivit pentru sarcini precum recunoașterea vorbirii sau sinteza vocală, unde sincronizarea nu este la fel de importantă.

Cum sa testezi LFM2-Audio-1.5B?

pip install liquid-audio
pip install "liquid-audio [demo]"   # if you want the demo
pip install flash-attn --no-build-isolation
liquid-audio-demo

Si un mic exemplu de cod

Iată un scurt scenariu în care prima intervenție a utilizatorului este rostită, iar a doua este scrisă. Asistentul răspunde atât verbal, cât și în scris.

import torch, torchaudio
from liquid_audio import LFM2AudioModel, LFM2AudioProcessor, ChatState, LFMModality

HF_REPO = "LiquidAI/LFM2-Audio-1.5B"
processor = LFM2AudioProcessor.from_pretrained(HF_REPO).eval()
model = LFM2AudioModel.from_pretrained(HF_REPO).eval()
chat = ChatState(processor)
chat.new_turn("system")
chat.add_text("Respond with interleaved text and audio.")
chat.end_turn()
# First turn: user speaks
chat.new_turn("user")
wav, sr = torchaudio.load("assets/question.wav")
chat.add_audio(wav, sr)
chat.end_turn()
chat.new_turn("assistant")
text_out, audio_out = [], []
for t in model.generate_interleaved(**chat, max_new_tokens=512):
    if t.numel() == 1:
        print(processor.text.decode(t), end="", flush=True)
        text_out.append(t)
    else:
        audio_out.append(t)
# Save the audio reply
mimi_codes = torch.stack(audio_out[:-1], 1).unsqueeze(0)
with torch.no_grad():
    waveform = processor.mimi.decode(mimi_codes)[0]
torchaudio.save("answer1.wav", waveform.cpu(), 24_000)

Ruleaza acest cod si vei obtine un text afisat pe display, plus un rapsuns audio salvat sub numele answer1.wav.

Cat de bun este ?

Rezultatele la testele de referință (benchmarks) sunt destul de bune. În medie, obține o rată de eroare de 7,24% la sarcinile de recunoaștere vocală (ASR), aproape la fel de bun ca Whisper-large. Iar în testele de conversație, se descurcă surprinzător de bine față de modele mult mai mari.

Dar cifrele nu sunt partea cea mai interesantă. Ceea ce contează cu adevărat e că este suficient de rapid pentru o conversație reală, fără acele tăceri stânjenitoare.

De ce este interesant ?

Deoarece este mic, poate rula în locuri unde modelele mai mari pur și simplu nu încap. Asta îl face practic pentru:

  • roboți de asistență clienți care nu țin apelanții în așteptare,
  • instrumente de accesibilitate,
  • aplicații educaționale care trebuie să „răspundă” verbal,
  • sau chiar mici asistenți personali care rulează local.

Se simte mai puțin ca un cod de cercetare și mai mult ca ceva ce ai putea integra cu adevărat într-o aplicație.

LFM2-Audio-1.5B nu este cel mai mare model disponibil, dar este unul dintre cele mai practice. Este ușor, rapid și gestionează atât ascultarea, cât și vorbirea în mod fluid. Dacă te interesează viitorul inteligenței artificiale conversaționale în timp real, acesta este un punct excelent de plecare.