Tutorial: Cum antrenezi un model de inteligenta artificiala ( Qwen3 cu reasoning)

de | aprilie 25, 2026

Cel mai simplu si intuitiv este sa-ti deschizi un cont la together.ai, si sa-l alimentezi cu 10 USD. Eu am antrenat Qwen3-8b cu o baza de date specializata in reasoning descarcata de pe Huggingface.

Interfata este foarte intuitiva, alegi modelul ( ex: Qwen3-8b), incarci baza de date descarcata de pe Huggingface, alegi aceeasi baza de date si pentru validare. Ulterior esti invitat sa alegi parametrii pentru antrenarea modelului. Eu i-am ales astfel:

Base model:Qwen/Qwen3-8B
Output model: doreloprisan/Qwen3-8B-456-af5376b2
Training file: together_reasoning_cleaned.jsonl
Training type: LoRA
Training method: SFT
Created at: 4/14/2026, 6:36 PM
Updated at: 4/14/2026, 6:43 PM
Runtime: 6m 55s
Price: $4.00
Epochs: 1
Checkpoints: 1
Evaluations: 0
Batch size: 8
Sequence packing: true
LoRA rank: 8
LoRA alpha: 16
LoRA trainable modules: all-linear
Train on inputs: auto

Costa 4 USD si dureza circa 6 minute.

Rezultatul antrenarii il gasesti in pagina Fine tunning Jobs, sub denumirea Merged checkpoint si este un fisier arhivat, de genul ft-79b00c6e-f0d2-2026-04-14-15-41-46.tar.zst. Arhiva contine modelul in format safetensors.

Safetensors este un format de fișier modern, sigur și rapid, dezvoltat de Hugging Face, conceput special pentru a stoca tensori (greutățile (weights) modelelor de inteligență artificială, precum LLM-uri sau Stable Diffusion).

Mai departe, ne propunem sa rulam modelul antrenat de noi, local, folosind Ollama. Sistemul de operare este MacOS pe Macbook Pro cu Intel, 32GB RAM.

Primul pas este de a converti modelul descarcat din format .safetensors (compatibil Huggingface) in format .gguf compatibil Ollama.

Dupa dezarhivarea fisierului tar.zst de pe Together.ai avem un folder cu modelul in format .safetensors. Arata asa:

config.json
generation_config.json
merges.txt
model-0001-of-0005.safetensors
model-0002-of-0005.safetensors
model-0003-of-0005.safetensors
model-0004-of-0005.safetensors
model-0005-of-0005.safetensors
model.safetensors.index.json
tokenizer_config.json
tokenizer.json
vocab.json

Pentru a coverti modelul din format .safetensors in format .gguf pe un laptop Intel, vom apela la un Docker cu linux, pe care vom instala llama.cpp.

Instalează Docker Desktop

docker --version
docker run hello-world

Pregătește folderul de lucru pe Mac

cd /Users/user/Downloads/llama.cpp
mkdir -p docker-convert-output

Pornește un container Linux cu folderul montat

cd /Users/user/Downloads/llama.cpp

docker run –rm -it \
–platform linux/amd64 \
–mount type=bind,src=”$(pwd)”,dst=/work \
python:3.11-bookworm bash

Dacă ai Apple Silicon, se poate folosi linux/arm64

Instalează llama.cpp și dependențele în container

cd /work

apt-get update
apt-get install -y git cmake build-essential

git clone https://github.com/ggml-org/llama.cpp.git llama.cpp-docker
cd llama.cpp-docker

python -m pip install --upgrade pip setuptools wheel
python -m pip install -r requirements/requirements-convert_hf_to_gguf.txt

llama.cpp folosește scriptul convert_hf_to_gguf.py pentru conversia modelelor Hugging Face în GGUF, iar fișierul de requirements dedicat conversiei este abordarea potrivită pentru acest pas.

Convertește modelul în GGUF

Tot în container, din /work/llama.cpp-docker, rulează:

python convert_hf_to_gguf.py \
  /work/Qwen3-8B-456-af5376b2 \
  --outfile /work/docker-convert-output/qwen3-8b-bf16.gguf \
  --outtype bf16

La final, fișierul apare pe Mac în:

/Users/user/Downloads/llama.cpp/docker-convert-output/

Pentru a putea rula modelul la o viteza acceptabila pe un laptop, ai nevoie de quantizarea modelului.

Compilează llama.cpp în container pentru quantizare

cd /work/llama.cpp-docker

cmake -B build
cmake --build build --config Release -j 2

Quantizează la Q4_K_M

/work/llama.cpp-docker/build/bin/llama-quantize \
  /work/docker-convert-output/qwen3-8b-bf16.gguf \
  /work/docker-convert-output/qwen3-8b-Q4_K_M.gguf \
  Q4_K_M

Pentru un model 8B, Q4_K_M este de obicei un compromis bun între dimensiune și calitate. După quantizare, poți păstra doar qwen3-8b-Q4_K_M.gguf

Dupa ce ai obtinut fisierul .gguf pentru a-l putea rula in Ollama ai nevoie de un fișier GGUF, apoi îl imporți cu un Modelfile. Ollama documentează oficial importul modelelor din GGUF prin FROM /path/to/model.gguf + ollama create

Instalează Ollama

https://ollama.com/download

ollama --version
ollama serve
mkdir -p ~ollama/models/qwen3-8b # Fa un folder nou si copiaza fisierul .gguf
cd ~/ollama/models/qwen3-8b
cp /Users/user/Downloads/llama.cpp/docker-convert-output/qwen3-8b-Q4_K_M.gguf .

Creează Modelfile

Creeaza fisierul Modelfile : nano Modelfile

Mai departe, completeaza in fisierul Modelfile si salveaza-l:

FROM ./qwen3-8b-Q4_K_M.gguf

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

SYSTEM „””
Ești un asistent AI util. Răspunzi clar, concis și în română dacă utilizatorul scrie în română.
„””

Creează modelul în Ollama

Din folderul ~/ollama-models/qwen3-8b, ruleaza comanda:

ollama create qwen3-8b-local -f Modelfile

Rulează modelul

ollama run qwen3-8b-local

Testeaza: Salut! Spune-mi în română ce model ești și ce poți face.

End