H Company tocmai a lansat ceva extraordinar. Se numește Runner H, un framework de agent AI nativ pentru browser și este open source. Nu numai atât, au publicat o lucrare de cercetare care detaliază arhitectura și au lansat două noi modele de limbaj vizual care fac totul să funcționeze.
Nu au lansat doar un produs.
Au lansat un ecosistem.
Ce este Runner H?
Runner H este un agent web nativ care vă permite să dați sarcini în limbaj natural — apoi să le execute efectiv folosind un browser, la fel cum ar face-o o ființă umană.
Cum functioneaza?
În centrul Runner H se află un framework puternic numit Surfer H, un agent web eficient din punct de vedere al costurilor, bazat pe Holo 1, o familie de modele de limbaj vizual concepute pentru navigarea web.
Aceste modele sunt ușoare, accesibile și incredibil de eficiente.
Le puteți chiar încerca pe HuggingFace chiar acum. Trebuie doar să încărcați o captură de ecran a oricărei interfețe de utilizator și să o rugați să finalizeze o sarcină, cum ar fi:
Anuleaza-mi abonamentul la Spotify.
Va returna un plan pas cu pas pentru a face exact asta: identificarea butoanelor, derularea prin filele și clicul pe elementele potrivite, totul folosind contextul vizual.
Fără DOM. Fără API-uri. Doar capturi de ecran.
De ce sunt importanti agentii de tip Browser ?
Trăim într-o lume construită pentru oameni. Site-urile web sunt optimizate pentru clicuri, nu pentru API-uri lizibile de mașini. Așadar, atunci când agenții încearcă să interacționeze cu lumea reală, de obicei se lovesc de un zid.
Asta schimbă Surfer H.
Imită comportamentul uman, analizând vizual interfețele, luând decizii cu ajutorul limbajului și acționând cu precizie la nivel de pixel.
Acest lucru îl face perfect pentru sarcini precum:
- Extragerea anunțurilor actuale de închiriere de pe Olx și rezumarea tendințelor.
- Rezervarea spațiilor de coworking în Bucuresti pe baza recenziilor utilizatorilor.
- Monitorizarea stocului de produse și a prețurilor în magazinele Shopify.
- Și spre deosebire de framework-urile mai vechi pentru agenți, Surfer H nu necesită fluxuri de lucru hardcoded sau integrări fragile. Învață singur ce să facă.
Arhitectura modelului

Există trei module de bază:
Politică: Propune secvența de pași (derulare, clic, tastare).
Localizator: Găsește exact unde pe ecran trebuie să faceți clic.
Validator: Confirmă dacă sarcina este finalizată.
De exemplu, când am dat această solicitare:
„Solicitați o programare pentru viză pe portalul guvernului indian pentru luna august în New York.”
Politica a generat un plan:
Deschideți portalul → Navigați la secțiunea de vize → Selectați NYC → Alegeți august → Trimiteți.
Localizatorul a identificat ce meniuri derulante și butoane se potriveau vizual cu acești pași.
Și validatorul a continuat să se repete până când sarcina a avut succes sau a atins un plafon de cost/timp.
Aceasta este o automatizare completă, în lumea reală.
Performanta
Surfer H, bazat pe Holo 1, a avut o precizie de 92,2% în testul de performanță WebVoyager, mult peste integrările OpenAI bazate pe GPT-4o.

Iar din punct de vedere al costurilor
Holo1-7B: 0,13 USD per sarcină
GPT-4: 0,71 USD per sarcină
Dacă construiți fluxuri de lucru native pentru inteligență artificială, acest compromis cost-performanță schimbă regulile jocului.
Iar testele de performanță vorbesc de la sine.
În mai multe sarcini, cum ar fi înregistrarea conturilor, compararea produselor și gestionarea inboxului de e-mail, Holo a depășit în mod constant modelele mai mari și mai scumpe.
Use cases pe care le puteti testa singuri:
- Cauta un Tesla Model 3 la mâna a doua pe Olx, găsește primele 10 anunturi, salveava intr-o în Foaie de calcul Google, kilometrajul, prețul și anul de fabricație.
- Găsește finanțare prin granturi pe site-uri guvernamentale pentru startup-uri de inteligență artificială și rezumă cerințele de eligibilitate.
- Rezervă o masa pe site-ul unui restaurant.
- Explorează subiecte de pe Reddit despre „mutarea în Amsterdam” și rezumă principalele preocupări și resurse.
Nu mai este vorba despre teorie, ci despre utilitate.