Ghid privind seturile de date pentru antrenarea modelelor de IA

de | aprilie 17, 2026

Această raportare comprehensivă examinează o colecție selectată de seturi de date public disponibile, concepuțe pentru antrenarea și fine-tunarea unor modele LLM, alături de un portofoliu diversificat de modele open-source potrivite pentru astfel de eforturi de antrenare. Obiectivul principal al acestei analize este clarificarea caracteristicilor, aplicațiilor metodologice și compatibilității practice dintre anumite seturi de date și modele, astfel încât practicienii să poată lua decizii informate în cadrul construirii fluxurilor lor de antrenare în domeniul învățării automate.

Prin examinarea detaliată a compoziției seturilor de date, a arhitecturii modelului și a cerințelor de antrenare, acest raport oferă orientări concrete pentru optimizarea procesului de finetunning în diverse domenii de aplicare, de la conversația cu scop general până la sarcini specializate de raționament și programare.

Înțelegerea landscape-ului seturilor de date pentru antrenarea LLM-urilor

Eco-sistemul seturilor de date disponibile pentru antrenarea modelelor LLM a evoluat semnificativ, reflectând abordări metodologice diverse și obiective specifice de optimizare. Seturile de date pentru finetunning-ul LLM-urilor se încadrează în mai multe categorii generale, în funcție de caracteristicile structurale, de sursele de conținut și de metodologiile de antrenare prevăzute.

Condiția fundamentală pentru orice set de date de antrenare este ca datele textuale să fie formate într-o structură tokenizabilă, astfel încât sistemele de învățare automată să poată procesa și să învețe din informații în mod eficient. În timpul colectării și pregătirii datelor pentru finetunning, practicienii trebuie să echilibreze multiple factori, inclusiv mărimea setului de date, calitatea datelor, resursele computaționale și alinierea specifică sarcinii.

Abordarea pregătirii seturilor de date a evoluat, trecând de la simpla acumulare a unor cantități mari de text la curățarea atentă a exemplelor de înaltă calitate, aliniere cu sarcina specifică.

Cercetările demonstrează că un set de date mai mic, dar bine curățat, depășește adesea unul mai mare, dar organizat în mod inadecvat; studiile arată că aproximativ optzeci la sută din îmbunătățirea performanței provine din primele douăzeci la sută de exemple bine selectate și de înaltă calitate. Acest principiu schimbă fundamental modul în care practicienii abordează selecția și pregătirea seturilor de date pentru obiectivele lor specifice de finetunare. Relația dintre mărimea setului de date, mărimea modelului și resursele computaționale urmează modele stabilite de scalare în formă de functie a puterii, ceea ce înseamnă că performanța optimă rezultă din echilibrarea acestor trei factori, nu din maximizarea vre-unei singure dimensiuni.

Catalog și specificații comprehensive ale seturilor de date

Seturi de date de instruire bazate pe Alpaca

Familia de seturi de date Alpaca reprezintă una dintre cele mai influente colecții pentru antrenarea bazată pe urmărirea instrucțiunilor, născută din proiectul Stanford Alpaca, care a fost pionier în utilizarea datelor de urmărire a instrucțiunilor pentru o adaptare eficientă a modelelor. Setul de date unsloth/alpaca-cleaned oferă o versiune îmbunătățită a datelor originale de urmărire a instrucțiunilor Alpaca, curățate și formatate pentru o compatibilitate sporită cu framework-urile moderne de fine-tuning.

Acest set de date conține de obicei aproximativ 52.000 de perechi instrucțiune-raspuns generate prin metoda Self-Instruct, în care sarcinile inițiale de de inceput sunt extinse prin promptarea unor modele mai mari, precum GPT-4. Formatul Alpaca propriu-zis a devenit un standard în industrie, structura sa constând într-un câmp al instrucțiunii care descrie sarcina, un câmp opțional al input-ului care furnizează context, și un câmp al output-ului care conține răspunsul prevăzut.

Varianta FreedomIntelligence/alpaca-gpt4-korean extinde conceptul Alpaca în contexte legate de limba coreeană, abordând dimensiunea multilingvă a sistemelor moderne de IA. Acest set de date demonstrează cum seturile de date fundamentale pot fi adaptate și traduse pentru a sprijini învățarea limbilor neanglofone, extinzând astfel aplicabilitatea modelelor care urmează instrucțiuni peste granițele lingvistice. Procesul de traducere implică adesea utilizarea unor modele avansate, precum ChatGPT, pentru a menține fidelitatea semantică și pragmatică între limbi, păstrând în același timp caracteristicile de urmare a instrucțiunilor care fac seturile de date de tip Alpaca atât de valoroase.

Seturi de date matematice și de raționament

Raționamentul matematic reprezintă un domeniu deosebit de provocator pentru modelele de limbaj, necesitând atât precizie computatională, cât și capacități de raționament logic. Setul de date openai/gsm8k oferă 8.500 de probleme verbale de matematică de nivel primar, de înaltă calitate și cu structuri lingvistice diverse, concepute special pentru a evalua și antrena rezolvarea problemelor matematice în cadrul modelelor de limbaj.

Acest set de date a devenit un benchmark standard pentru evaluarea abilității modelelor de a urma procese de raționament multi-etapă și de a ajunge la concluzii numerice corecte. Setul GSM8K folosește un model de răsplată care acordă un punct pentru răspunsurile corecte, zero pentru cele incorecte și zero și pentru cazurile în care modelul nu oferă niciun răspuns.

Setul de date open-r1/DAPO-Math-17k-Processed se specializează în furnizarea de seturi de date matematice prelucrate, cu tipare de raționament în lanț de gândire, cuprinzând aproximativ 17.000 de exemple structurate astfel încât să învețe modelele pașii intermediari de raționament, și nu doar răspunsurile finale. Acest set de date beneficiază în special de abordări precum Optimizarea Directă a Preferințelor (DPO) și învățarea prin întărire (Reinforced learning) pe baza feedback-ului uman, prin care modelul învață să genereze urmări ale raționamentului care conduc la soluții corecte.

Setul unsloth/OpenMathReasoning-mini oferă un subset mai mic și mai focalizat de exemple de raționament matematic, util pentru practicieni cu resurse computaționale limitate sau pentru subdomenii specifice ale matematicii.

Seturi de date multimodale și multilingve

Setul de date HuggingFaceH4/Multilingual-Thinking reprezintă o abordare inovatoare în pregătirea unor modele multilingve, oferind lanțuri de raționament traduse în mai multe limbi, printre care franceza, spaniola, germana și italiană. Acest set de date permite modelelor nu numai să înțeleagă raționamentele în diferite limbi, ci și să-și exprime procesele de gândire peste limitele lingvistice. La fine-tunarea pe astfel de seturi de date, modelele învață să genereze explicații bazate pe lanțuri de gândire care pot fi înțelese de utilizatori indiferent de limba lor nativă, ceea ce îmbunătățește semnificativ accesibilitatea și utilitatea sistemelor de IA în medii multilingve.

Setul de date mlabonne/FineTome-100k oferă o colecție diversificată de 100.000 de exemple, curate din multiple surse de înaltă calitate și formatate conform stilului ShareGPT, care reprezintă conversații multi-tur cu un caracter natural. Formatul ShareGPT capturează modelul de conversație care se dezvoltă în dialogurile reale, în care modelul trebuie să continue firul conversației, în loc să răspundă doar la prompturi izolate. Acest format s-a dovedit a fi valoros pentru antrenarea unor modele capabile să mențină conversații coerente pe mai multe tururi, cu o conștientizare adecvată a contextului și continuitatea temei.

Seturi de date privind preferințe și aliniere

Seturile de date de preferință au apărut ca componente esențiale ale fluxurilor moderne de antrenare a LLM-urilor, permisând tehnici precum Optimizarea Directă a Preferinței (DPO) și învățarea prin întărire pe baza feedback-ului uman (RLHF.

Setul de date HuggingFaceH4/ultrafeedback_binarized oferă perechi binare de preferințe pentru mai mult de 60.000 de prompturi, incluzând dimensiuni precum urmărirea instrucțiunilor, adevărul, onestitatea și utilitatea. Aceste anotații binare de preferință permit abordări de antrenare în care modelele învață să facă diferența între răspunsurile de calitate superioară și cele de calitate inferioară, îmbunătățind treptat capacitatea lor de a genera output-uri preferate.

Setul de date HuggingFaceH4/no_robots cuprinde 10.000 de perechi instruire-răspuns de înaltă calitate, create de anotatori umani experimentați, reprezentând standardele curatate de oameni pentru urmărirea instrucțiunilor. Spre deosebire de seturile de date sintetice generate prin abordări bazate pe modele, seturile de date anotate de oameni, precum No Robots, oferă preferințe și stiluri de scriere autentice, care se transferă adesea mai bine în aplicațiile din lumea reală.

Setul de date reciperesearch/dolphin-sft-v0.1-preference oferă, la rândul său, date de preferință structurate pentru fine-tunare supravegheată, cu un scor de încredere menționat, care îi sfătuiește pe practicieni să evalueze cu atenție calitatea setului de date.

Magpie-Align/Magpie-Air-300K-Filtered reprezintă un progres recent în metodologia de generare a seturilor de date sintetice, în care datele de aliniere de înaltă calitate sunt generate prin încurajarea modelelor LLM deja aliniate să folosească șablonurile lor predefinite pentru întrebări, în loc să se depindă de ingineria manuală a prompt-urilor sau de întrebările de pornire. Această abordare a demonstrat că modelele fine-tuned cu date Magpie ating o performanță comparabilă cu modelele oficiale ajustate la instrucțiuni, deși au fost antrenate pe o cantitate semnificativ mai mică de date, sugerând că metodologia de generare și calitatea filtrării contează mult mai mult decât mărimea brută a setului de date.

Seturi de date specializate pe domeniu

Seturile de date pentru instruirea în matematică beneficiază de o atenție specializată în ecosistemul seturilor de date. Setul microsoft/orca-math-word-problems-200k conține aproximativ 200.000 de probleme verbale de matematică pentru școala primară, cu răspunsuri generate folosind GPT-4-Turbo. Acest set de date se potrivește în mod deosebit modelelor care vor întâlni aplicații practice ale matematicii și necesită abordări de finetunare care să păstreze capacitățile de raționament într-o varietate de tipuri de probleme și complexități.

Setul Open-Orca/OpenOrca reprezintă o categorizare mai largă a seturilor de date care reproduc metodologia articolului Microsoft Research Orca, în cadrul căruia modelele învață din explicații complexe oferite de modele mai mari, în loc să se bazeze doar pe răspunsurile finale.

Goedel-LM/SFT_dataset_v2 abordează raționamentul matematic formal și demonstrarea teoremelor, conținând aproximativ 1,64 milioane de enunțuri formale create prin antrenarea formalizatorilor de enunțuri pentru a traduce matematica în limbaj natural din setul de date Numina în limbajul formal Lean 4. Acest set de date specializat permite antrenarea unor modele pentru demonstrarea automată a teoremelor, o domeniu deosebit de provocator care necesită capacități de raționament logic formal. Structura setului de date păstrează relația dintre matematica în limbaj natural și reprezentările formale, ceea ce permite modelelor să învețe să traducă între aceste domenii.

Seturi de date comprehensiv și mixte

Colectia Allenai/Tulu-3-SFTmixture reprezintă practicile de curățare a seturilor de date la nivel de vârf, dezvoltate de Institutul Allen, combinând amestecuri atent selectate din multiple surse de înaltă calitate. Această abordare bazată pe amestecuri transformă combinația seturilor de date într-o problemă de multi-bandit inarmat, în care proporțiile seturilor sunt optimizate în mod dinamic în timpul antrenării, pentru a maximiza performanța pe diverse benchmarkuri. Abordarea Tulu cu amestecuri demonstrează că o combinație rațională a seturilor de date și o optimizare dinamică a raporturilor de amestec pot depăși performanța unor seturi de date individuale de scală mare.

openbmb/UltraInteract_sft oferă interacțiuni și conversații structurate provenite din surse diverse, elaborate prin procese iterative de perfecționare care asigură atât diversitatea, cât și calitatea. Seturile de date construite folosind strategii evolutive în mai multe etape, în care instrucțiunile inițiale sunt perfecționate și extinse prin multiple iterații, au tendința de a genera exemple de antrenament de o calitate superioară față de abordările de generare într-o singură pasă.

tatsu-lab/alpaca reprezintă setul de date de bază Stanford Alpaca, care a fost pionier în fine-tuning-ul axat pe urmărirea instrucțiunilor, cuprinzând cele 52.000 de exemple originale care au demonstrat eficacitatea antrenării axate pe urmărirea instrucțiunilor pentru adaptarea modelelor pretrainate.

Seturi de date specializate și minime

Setul de date roneneldan/TinyStories adoptă o abordare deliberat restrânsă în design, cuprinzând povești scurte limitate la un vocabular adecvat copiilor între trei și patru ani. Acest set de date demonstrează că chiar modele foarte mici, cu mai puțin de 10 milioane de parametri, pot genera povești fluente, gramatical corecte și compuse din mai multe paragrafe atunci când sunt antrenate pe date suficient de restrânse. TinyStories permite cercetarea legilor de scalare și a interpretabilității modelului în condiții controlate, oferind informații despre cerințele minime de date pentru generarea coerentă a limbajului.

teknium/OpenHermes-2.5 reprezintă un set de date comprehensiv pentru urmărirea instrucțiunilor, care a demonstrat o performanță competitivă față de modele semnificativ mai mari decât cele antrenate pe acesta; modelul antrenat pe 900.000 de instrucțiuni depășește performanța precedentelor modele cu 13 miliarde de parametri. Acest set de date obține abilități puternice de conversație în multiple runde și capacități avansate de promptare a sistemului, sugerând că o acoperire comprehensivă a tipurilor de instrucțiuni, împreună cu o curățare atentă, dă naștere unor modele capabile să realizeze modele sofisticate de interacțiune.

databricks/databricks-dolly-15k oferă perechi de instrucțiuni-răspuns generate de oameni, create de angajații Databricks, reprezentând exemple autentice, realizate de oameni, și nu date generate de modele. Acest set de date, compus din 15.000 de exemple, demonstrează că seturi de date anotate de oameni, de dimensiuni rezonabile, pot furniza semnale eficiente de antrenare, în special atunci când anotatorii umani dețin experiență tehnică relevantă pentru tipurile de instrucțiuni pe care le execută.

garage-bAInd/Open-Platypus se bazează pe ajustarea instrucțiunilor în stil Alpaca, folosind tehnici LoRA, combinând seturi de date deschise în modele combinate care obțin performanțe competitive față de modele cu dimensiuni semnificativ mai mari.

Prezentare a ecosistemului de modelare și a capacităților

Colecția de modele open-source potrivite pentru fine-tunare acoperă o gamă largă de număr de parametri, abordări arhitecturale și capacități specializate. Intelegerea caracteristicilor modelelor este esențial pentru a asocia seturile de date adecvate cu acestea, întrucât diferite modele au fost proiectate și pre-trainate având în vedere anumite obiective specifice.

Modelele moderne folosesc în mod crescut arhitecturi Mixture-of-Experts (MoE), care activează doar un subset de parametri pentru fiecare token de input, ceea ce permite o scalare mai eficientă față de arhitecturile tradiționale dense ale transformatorilor.

Modele mici și eficiente

unsloth/Qwen3-0.6B, unsloth/Qwen3.5-2B și unsloth/Qwen3.5-9B reprezintă familia Qwen a companiei Alibaba, optimizată pentru diferite scări de parametri: varianta de 0,6 miliarde de parametri este orientată spre implementarea pe dispozitive cu cerințe extrem de scazute în ceea ce privește resursele, în timp ce varianta de 9 miliarde de parametri oferă o capacitate semnificativ mai mare, menținând totuși cerințe gestionabile din punct de vedere al memoriei. Aceste modele folosesc optimizări avansate ale arhitecturii, inclusiv embedinguri legate, atenție cu întrebări grupate și, în unele cazuri, abordări bazate pe mixtură de experți, care asigură un randament competitiv chiar și în condițiile unei reducții a numărului de parametri.

unsloth/NVIDIA-Nemotron-3-Nano-4B oferă modelul specializat de limbaj mic al lui NVIDIA, optimizat pentru implementarea la marginea rețelei și pentru medii cu cerințe restrânse.

unsloth/Llama-3.2-3B-Instruct aduce capacitățile ajustate la instrucțiuni ale lui Meta în clasa modelelor cu 3 miliarde de parametri, făcând modelele capabile să urmeze instrucțiuni accesibile pentru implementare locală.

unsloth/gemma-3-4b-it reprezintă modelul compact al lui Google, ajustat la instrucțiuni, care menține capacități generale solide în ciuda mărimii sale reduse.

Modele specializate și multimodale

unsloth/embeddinggemma-300m se diferențiază fundamental de modelele standard de limbaj prin faptul că este specializat în generarea de încorporări textuale, în loc să genereze tokeni. Acest model multilingv de încorporări textuale cu 308 de milioane de parametri produce reprezentări numerice potrivite pentru căutarea similarității semantice, recuperarea informațiilor și pentru sarcinile de clustering. Potrivirea fină a modelelor de încorporări necesită tehnici diferite față de potrivirea fină a LLM-urilor standard, concentrându-se pe învățarea unor reprezentări semantice mai bune, aliniate cu sarcinile specifice de downstream.

unsloth/orpheus-3b-0.1-ft reprezintă un model specializat de conversie text‑cuvânt, bazat pe o arhitectură în două etape care combină modelarea cauzală a limbajului cu sinteza audio prin codec neural. Această familie de modele demonstrează extinderea finetunării bazate pe transformatori către aplicații multimodale, depărtându-se astfel de generația tradițională text‑text.

Modele de gamă medie și performante

unsloth/Llama-3.1-8B-Instruct și unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit oferă modelele Meta adaptate la instrucțiuni la scara de 8 miliarde de parametri, reprezentând un echilibru practic între performanță și accesibilitate computatională[23]. Aceste modele folosesc o fereastră de context de 128.000 de tokeni și suportă utilizarea avansată a instrumentelor, precum și capacități multilingve. Varianta BNB cu 4 biți obține aceeași funcționalitate prin quantizare, reducând semnificativ cerințele de memorie, în timp ce menține performanța.

unsloth/mistral-7b-v0.3-bnb-4bit reprezintă modelul de instruire al Mistral cu 7 miliarde de parametri, cu quantizare pe 4 biți, folosind atenție cu întrebări grupate și atenție cu fereastră glisantă pentru o procesare eficientă a contextelor lungi.

unsloth/Qwen2.5-7B-Instruct aduce cele mai recente capacități ale Alibabă, cu 7 miliarde de parametri, optimizate în domeniile cunoașterii generale, programării și raționamentului matematic.

Modele avansate cu open weights

unsloth/gpt-oss-20b și unsloth/gpt-oss-20b-unsloth-bnb-4bit reprezintă modelele cu greutăți libere ale OpenAI, lansate în cadrul angajamentului acesteia față de dezvoltarea open-source a inteligenței artificiale. Aceste modele folosesc arhitectura de tip „mixture-of-experts”, cu un total de 21 de miliarde de parametri și 3,6 miliarde de parametri activi per token, obținând performanțe competitive comparativ cu modele dense mult mai mari. Ele au fost antrenate folosind tehnici avansate de învățare prin întărire, inspirate de modelele de frontieră ale OpenAI, demonstrând abilități puternice de raționament, utilizare a instrumentelor și apelare la funcții în contextul few-shot.

unsloth/gpt-oss-120b-BF16 reprezintă unul dintre cele mai performante modele open-source disponibile, cu 117 miliarde de parametri totali și aproximativ 5,1 miliarde de parametri activi per token. Acest model atinge o performanță apropiată de cea a modelului o4-mini al OpenAI pe benchmarkurile de raționament, funcționând totodată pe echipamente de nivel consumator, ceea ce reprezintă o etapă semnificativă în dezvoltarea capacităților open-source.

unsloth/GLM-4.7-Flash de la Zhipu AI oferă un model de mixtură de experți cu 30 de miliarde de parametri, dintre care aproximativ 3,6 miliarde sunt activi, optimizat pentru implementare locală și capabil să ofere performanțe solide în domeniul programării, a fluxurilor de lucru agențiale și a sarcinilor de raționament. Acest model păstrează o fereastră de context de 200.000 de tokeni și poate fi finetunat astfel încât să-și mențină capacitățile de raționament, respectând o compoziție a setului de date de aproximativ 75% exemple de raționament și 25% exemple cu răspuns direct.

Concluzii Fine tunning modele Open source

  • Pentru un chat generalist: cele mai utile sunt alpaca-cleaned, FineTome-100k, tulu-3-sft-mixture, OpenHermes-2.5, OpenOrca, no_robots, Dolly-15k.
  • Pentru matematică / reasoning matematic: cele mai potrivite sunt OpenMathReasoning-mini, gsm8k, DAPO-Math-17k-Processed, orca-math-word-problems-200k, Open-Platypus, UltraInteract_sft.
  • Pentru alignment pe preferințe: ultrafeedback_binarized și dolphin-sft-v0.1-preference sunt cele mai directe.
  • Pentru multilingv: Multilingual-Thinking și alpaca-gpt4-korean; pentru modele, Q2.5 și Aya8 sunt cele mai naturale alegeri dintre cele listate mai sus.
  • Pentru formal theorem proving: Goedel-LM/SFT_dataset_v2 cere practic un model orientat pe Lean 4, deci GP sau DSP sunt mult mai bune decât un chat model generic.
DatasetCe este pe scurtTip training potrivitModele open-weight potrivite
unsloth/alpaca-cleanedVersiune curățată a Alpaca, cu exemple de instruction-following în engleză; Unsloth spune explicit că a reparat halucinații și artefacte din varianta originală. Are ~51.8k exemple. (Hugging Face)SFT / LoRA pentru chat generalistL3.1, Mis7, Q2.5, Gemma2
unsloth/OpenMathReasoning-miniMic dataset de matematică cu probleme, soluții generate și răspunsuri așteptate; cardul arată ~19.3k exemple și câmpuri de tip problem, generated_solution, expected_answer, inclusiv soluții în stil <think>. (Hugging Face)SFT pe chain-of-thought matematicQ2.5-Math, DeepSeekMath, L3.1, Mis7
mlabonne/FineTome-100kSubset de 100k exemple extras din The-Tome, re-filtrat cu fineweb-edu-classifier; autorul îl recomandă pentru finetuning eficient pe Llama 3.1. (Hugging Face)SFT generalist de calitateL3.1, Mis7, Q2.5, Gemma2
openai/gsm8kDataset clasic de ~8.5k probleme de matematică de nivel școlar, cu soluții în limbaj natural pe mai mulți pași. Este atât benchmark, cât și sursă de SFT pentru reasoning matematic. (Hugging Face)SFT matematic și evaluareQ2.5-Math, DeepSeekMath, L3.1, Mis7
philschmid/guanaco-sharegpt-styleConversații Guanaco convertite în format ShareGPT, utile pentru multi-turn chat; cardul arată ~9k exemple și format conversațional. (Hugging Face)SFT conversaționalQ2.5, L3.1, Mis7, Aya8
open-r1/DAPO-Math-17k-ProcessedVersiune procesată a DAPO-Math-17k, deduplicată și reformatată special pentru compatibilitate cu TRL GRPO trainer; include subseturi engleză și chineză. (Hugging Face)GRPO / RLVR pe matematică, eventual warm-start SFTQ2.5-Math, DeepSeekMath, Q2.5, L3.1
HuggingFaceH4/Multilingual-ThinkingDataset de reasoning în care chain-of-thought-ul a fost tradus din engleză în spaniolă, franceză, italiană și germană; folosește format cu câmp de thinking. (Hugging Face)SFT multilingv pentru reasoningQ2.5, Aya8, L3.1
HuggingFaceH4/ultrafeedback_binarizedVariantă pre-procesată din UltraFeedback cu perechi chosen/rejected; H4 spune clar că a fost folosită pentru Zephyr-7B-beta și că este potrivită pentru DPO / reward modeling, plus există și split SFT. (Hugging Face)DPO / ORPO / reward modeling, plus SFTMis7, L3.1, Q2.5, Gemma2
reciperesearch/dolphin-sft-v0.1-preferenceDataset de preferințe (~16k) construit din răspunsuri „accepted” vs „rejected”, descris de autori ca material pentru testarea metodologiei SPIN. (Hugging Face)Preference tuning: DPO / ORPO / SPINMis7, L3.1, Q2.5, Gemma2
roneneldan/TinyStoriesColecție sintetică foarte mare de povești scurte cu vocabular controlat; cardul are ~2.14M rânduri și menționează explicit modelele TinyStories 1M/3M/8M/28M/33M antrenate pe ea. (Hugging Face)Pretraining de la zero sau continued pretraining pentru modele miciTinyStories-1M/3M/8M/28M/33M, TinyLlama, SmolLM2
FreedomIntelligence/alpaca-gpt4-koreanVersiune în coreeană a setului Alpaca-GPT4-style, în format conversațional, ~50k exemple; proiectul este legat de linia de lucru MultilingualSIFT. (Hugging Face)SFT în coreeanăQ2.5, Aya8
Goedel-LM/SFT_dataset_v2Dataset mare pentru Lean 4 / theorem proving formal; cardul indică domenii theorem-proving, lean4, code, iar preview-ul arată exerciții de completare de proof/code în Lean 4. Are ~1.75M exemple. (Hugging Face)SFT specializat pentru proveri formaliGP, DSP; secundar Q2.5 sau Mis7 dacă le adaptezi pe Lean 4
allenai/tulu-3-sft-mixtureAmestec SFT mare, ~939k exemple din multe seturi publice; AllenAI spune explicit că este folosit pentru modelele Tulu 3 și listează sursele din mixture. (Hugging Face)SFT generalist la scară mareL3.1 în primul rând; explicit: Tulu-3-8B-SFT și Tulu-3-70B-SFT
HuggingFaceH4/no_robotsDataset de ~10k instrucțiuni și demonstrații scrise de oameni, H4 subliniază că nu au fost generate de GPT-uri. Bun când vrei date mici, curate, cu mai puțin „synthetic flavor”. (Hugging Face)SFT curat, human-writtenL3.1, Mis7, Q2.5, Gemma2
Magpie-Align/Magpie-Air-300K-Filtered300k conversații sintetice filtrate dintr-un set Magpie mai mare; cardul descrie filtre de calitate, dificultate și eliminare de repetiții/incomplet. (Hugging Face)SFT conversațional de volum mareL3.1, Mis7, Q2.5, Gemma2; natural pentru familia Magpie-Align
teknium/OpenHermes-2.5Datasetul din spatele OpenHermes 2.5 / Nous Hermes 2, descris ca o compilație și curatare majoră de date open-source + sintetice. (Hugging Face)SFT generalist / instructL3.1, Mis7, Q2.5, Gemma2; istoric, a stat la baza OpenHermes / Nous Hermes
databricks/databricks-dolly-15kSet open de ~15k exemple de instruction-following, creat de mii de angajați Databricks, cu taskuri ca brainstorming, clasificare, QA, IE și sumarizare. (Hugging Face)SFT mic pentru instruct baselineL3.1, Mis7, Q2.5, Gemma2
tatsu-lab/alpacaAlpaca original: ~52k instrucțiuni și demonstrații generate cu text-davinci-003, conceput explicit pentru instruction tuning. (Hugging Face)SFT de bazăL3.1, Mis7, Q2.5, Gemma2
garage-bAInd/Open-PlatypusMixture orientat pe reasoning logic, compus din surse ca PRM800K, MATH, ScienceQA, ReClor, TheoremQA, LeetCode etc.; cardul spune că a fost folosit pentru modelele Platypus2. (Hugging Face)SFT pentru reasoningL3.1, Mis7, Q2.5, Q2.5-Math
microsoft/orca-math-word-problems-200k~200k probleme de matematică de tip word problem, cu răspunsuri generate cu Azure GPT-4 Turbo, conform cardului și lucrării Orca-Math. (Hugging Face)SFT matematic la scară mareQ2.5-Math, DeepSeekMath, L3.1, Mis7
Open-Orca/OpenOrcaColecție mare de date augmentate FLAN în stil Orca, cu ~1M completări GPT-4 și ~3.2M completări GPT-3.5; utilă pentru explicații și reasoning asistat. (Hugging Face)SFT generalist + reasoningL3.1, Mis7, Q2.5, Gemma2
openbmb/UltraInteract_sftDataset mare pentru complex reasoning, cu arbori de preferințe, traiectorii multi-turn și perechi pentru preference learning; cardul menționează 86k instrucțiuni, 286k răspunsuri corecte și 219k perechi. (Hugging Face)SFT pentru reasoning și, parțial, preference tuningQ2.5, L3.1, Mis7, Q2.5-Math

Legenda:

L3.1 = Llama 3.1 8B/70B, familie publică de bază pentru chat/instruction tuning.
Mis7 = Mistral-7B-v0.3, bază generalistă ușor de finetune-uit.
Q2.5 = Qwen2.5 7B/14B, foarte bun pentru multitask și 29+ limbi, inclusiv coreeană.
Gemma2 = Gemma 2 9B, familie open-weight ușoară pentru QA/sumarizare/reasoning.
Aya8 = Aya Expanse 8B, foarte potrivită pentru multilingv, inclusiv română și coreeană.
Q2.5-Math = Qwen2.5-Math 7B, specializată pe matematică și reasoning matematic.
DeepSeekMath = familie specializată pe matematică.
TinyLlama = model compact 1.1B, bun pentru experimente ieftine.
SmolLM2 = familie compactă 135M/360M/1.7B.
DSP = DeepSeek-Prover-V1.5-SFT, specializat pe Lean 4 / theorem proving.
GP = Goedel-Prover-SFT, specializat pe theorem proving formal.