Cel mai simplu si intuitiv este sa-ti deschizi un cont la together.ai, si sa-l alimentezi cu 10 USD. Eu am antrenat Qwen3-8b cu o baza de date specializata in reasoning descarcata de pe Huggingface.

Interfata este foarte intuitiva, alegi modelul ( ex: Qwen3-8b), incarci baza de date descarcata de pe Huggingface, alegi aceeasi baza de date si pentru validare. Ulterior esti invitat sa alegi parametrii pentru antrenarea modelului. Eu i-am ales astfel:
Base model:Qwen/Qwen3-8B
Output model: doreloprisan/Qwen3-8B-456-af5376b2
Training file: together_reasoning_cleaned.jsonl
Training type: LoRA
Training method: SFT
Created at: 4/14/2026, 6:36 PM
Updated at: 4/14/2026, 6:43 PM
Runtime: 6m 55s
Price: $4.00
Epochs: 1
Checkpoints: 1
Evaluations: 0
Batch size: 8
Sequence packing: true
LoRA rank: 8
LoRA alpha: 16
LoRA trainable modules: all-linear
Train on inputs: auto
Costa 4 USD si dureza circa 6 minute.
Rezultatul antrenarii il gasesti in pagina Fine tunning Jobs, sub denumirea Merged checkpoint si este un fisier arhivat, de genul ft-79b00c6e-f0d2-2026-04-14-15-41-46.tar.zst. Arhiva contine modelul in format safetensors.
Safetensors este un format de fișier modern, sigur și rapid, dezvoltat de Hugging Face, conceput special pentru a stoca tensori (greutățile (weights) modelelor de inteligență artificială, precum LLM-uri sau Stable Diffusion).
Mai departe, ne propunem sa rulam modelul antrenat de noi, local, folosind Ollama. Sistemul de operare este MacOS pe Macbook Pro cu Intel, 32GB RAM.
Primul pas este de a converti modelul descarcat din format .safetensors (compatibil Huggingface) in format .gguf compatibil Ollama.
Dupa dezarhivarea fisierului tar.zst de pe Together.ai avem un folder cu modelul in format .safetensors. Arata asa:
config.json
generation_config.json
merges.txt
model-0001-of-0005.safetensors
model-0002-of-0005.safetensors
model-0003-of-0005.safetensors
model-0004-of-0005.safetensors
model-0005-of-0005.safetensors
model.safetensors.index.json
tokenizer_config.json
tokenizer.json
vocab.json
Pentru a coverti modelul din format .safetensors in format .gguf pe un laptop Intel, vom apela la un Docker cu linux, pe care vom instala llama.cpp.
Instalează Docker Desktop
docker --version
docker run hello-world
Pregătește folderul de lucru pe Mac
cd /Users/user/Downloads/llama.cpp
mkdir -p docker-convert-output
Pornește un container Linux cu folderul montat
cd /Users/user/Downloads/llama.cpp
docker run –rm -it \
–platform linux/amd64 \
–mount type=bind,src=”$(pwd)”,dst=/work \
python:3.11-bookworm bash
Dacă ai Apple Silicon, se poate folosi linux/arm64
Instalează llama.cpp și dependențele în container
cd /work
apt-get update
apt-get install -y git cmake build-essential
git clone https://github.com/ggml-org/llama.cpp.git llama.cpp-docker
cd llama.cpp-docker
python -m pip install --upgrade pip setuptools wheel
python -m pip install -r requirements/requirements-convert_hf_to_gguf.txt
llama.cpp folosește scriptul convert_hf_to_gguf.py pentru conversia modelelor Hugging Face în GGUF, iar fișierul de requirements dedicat conversiei este abordarea potrivită pentru acest pas.
Convertește modelul în GGUF
Tot în container, din /work/llama.cpp-docker, rulează:
python convert_hf_to_gguf.py \
/work/Qwen3-8B-456-af5376b2 \
--outfile /work/docker-convert-output/qwen3-8b-bf16.gguf \
--outtype bf16
La final, fișierul apare pe Mac în:
/Users/user/Downloads/llama.cpp/docker-convert-output/
Pentru a putea rula modelul la o viteza acceptabila pe un laptop, ai nevoie de quantizarea modelului.
Compilează llama.cpp în container pentru quantizare
cd /work/llama.cpp-docker
cmake -B build
cmake --build build --config Release -j 2
Quantizează la Q4_K_M
/work/llama.cpp-docker/build/bin/llama-quantize \
/work/docker-convert-output/qwen3-8b-bf16.gguf \
/work/docker-convert-output/qwen3-8b-Q4_K_M.gguf \
Q4_K_M
Pentru un model 8B, Q4_K_M este de obicei un compromis bun între dimensiune și calitate. După quantizare, poți păstra doar qwen3-8b-Q4_K_M.gguf
Dupa ce ai obtinut fisierul .gguf pentru a-l putea rula in Ollama ai nevoie de un fișier GGUF, apoi îl imporți cu un Modelfile. Ollama documentează oficial importul modelelor din GGUF prin FROM /path/to/model.gguf + ollama create
Instalează Ollama
ollama --version
ollama serve
mkdir -p ~ollama/models/qwen3-8b # Fa un folder nou si copiaza fisierul .gguf
cd ~/ollama/models/qwen3-8b
cp /Users/user/Downloads/llama.cpp/docker-convert-output/qwen3-8b-Q4_K_M.gguf .
Creează Modelfile
Creeaza fisierul Modelfile : nano Modelfile
Mai departe, completeaza in fisierul Modelfile si salveaza-l:
FROM ./qwen3-8b-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
SYSTEM „””
Ești un asistent AI util. Răspunzi clar, concis și în română dacă utilizatorul scrie în română.
„””
Creează modelul în Ollama
Din folderul ~/ollama-models/qwen3-8b, ruleaza comanda:
ollama create qwen3-8b-local -f Modelfile
Rulează modelul
ollama run qwen3-8b-local
Testeaza: Salut! Spune-mi în română ce model ești și ce poți face.
End