LLM modely pro tvorbu vlastních AI agentů

Co to znamená?

Když k nám v roce 2020 poprvé přišel nový kolega, který v té době studoval a specializoval se na hluboké neuronové sítě, téměř nikdo v místnosti mu zpočátku nerozuměl. Diskuse a vývoj vlastní AI nabraly rychlé obrátky a o pár měsíců na to jsme vydali vlastní Chatbot, vlastní AI Recommender a v roce 2025 i první interní verzi AI agenta, jehož knowledge base byla, samozřejmě, ještě někde úplně jinde, než je dnes.

Více info

Dnes máme tedy za sebou ne měsíc, ale roky vývoje AI řešení a naše dnešní (opět vlastní)  je přímo napojené na API od Anthropicu a to bez frameworků, jednoduše na vlastním kódu s vlastním SKILL.md, ve kterém si ukládá poznatky, kontext i chyby, kterým se má vyvarovat. Momentálně připravujeme procesy a postupy na to, kdo a jak může předávat know-how AI agentovi, aby se učil skutečně od těch nejlepších, a toto know-how dále šířil.

A právě proto víme říct, co v roce 2026 při stavbě agentů skutečně funguje a kde jsou jejich limity.

Pokud si dnes chcete postavit vlastního AI agenta, klíčová otázka už není zda, ale na jakém modelu ho postavit, protože výběr LLM (Large Language Modelu) zásadně ovlivňuje:

  • kvalitu výstupů
  • míru autonomie
  • náklady
  • i to, jak moc budete muset agenta „hlídat“

Jak se porovnávají LLM modely?

Aktuálně je na trhu dostupných několik předních tvůrců světových LLM modelů. Téměř každý měsíc se navzájem předhánějí v tom, kdo vydá lepší, kvalitnější a rychlejší jazykový model. Jak se ale dá určit jeho kvalita bez toho, abyste ho testovali v praxi?

LLM modely se porovnávají přes benchmarky jako:

  • MMLU (všeobecné znalosti)
  • HumanEval (kódování)
  • GSM8K (logika, matematika)
  • bar exam / právnické testy v USA (argumentace, práce s komplexním textem)

Je důležité ale říct, že benchmark, tedy to, co funguje v testu, nemusí fungovat stejně i v realitě. Zejména rychlost zpracování maximálního počtu požadavků za sekundu se ukazuje často až v praxi. Platí však minimálně trend a jednotlivé hodnocení modelů.

1. Anthropic (Claude Opus)

Nejlepší pro komplexní agenty a reasoning. Velmi oblíbený pro developery, protože je přehledný, všechny nástroje má v sobě nativně

Claude dokáže velmi kvalitně zhodnocovat aktuální kontext, podle potřeby si dokáže volat nástroje (externí nástroje jako GA4, GSC a podobně), od kterých dotazuje informace. Dokáže zpracovat dodané informace, zhodnotit jejich objem a pokud nemá dostatek dat, dokáže se dotázat jiného nástroje na dozbírání dostatku dat na vyhodnocení. 

Je to jeden z dražších modelů. Jeho cena se v čase může měnit, ale aktuálně se to pohybuje při inputu na $10–15 / 1M tokenů, při outputu $30–75 / 1M tokenů

2. OpenAI (GPT-4.1 / GPT-4o)

Je to nejuniverzálnější ekosystém. OpenAI byl dlouho považován za nejlepšího tvůrce LLM modelů, přičemž z trůnu ho sesadil Anthropic díky výše zmíněným výhodám claude, které jsou přirozeně nevýhodou GPT. Mezi největší výhody patří výborný poměr ceny vs kvalita, silný coding performance a široká škála integrace.

Cena se orientačně (podle modelu) pohybuje v inputu $5–10 / 1M tokenů, v outputu ~ $15–30 / 1M tokenů.

Mezi jeho nevýhody patří zejména to, že pro programátory neposkytuje vlastní nativní infrastrukturu a využívá například Copilota od Microsoftu.

3. Google DeepMind (Gemini)

Je určitě nejlepší pro multimodální agent systémy (text, obraz, video) a poskytuje silné napojení na Google stack

Cenově patří k těm levnějším řešením: input ~ $3–10 / 1M tokenů a output: ~ $10–30 / 1M tokenů

4. Open-source modely (LLaMA, Mistral, Mixtral)

Nejlepší pro kontrolu a infra, open source - tedy si je můžeš rozběhnout u nich, ale i u sebe na lokále, přičemž pokud je rozběhneš u sebe, tak jsou násobně pomalejší. V případě, že to běží na infrastruktuře silných serverů, statistické přepočty.

Výhoda je, že je to uzavřený systém na lokálním počítači bez přístupu na internet, pokud běží jen na lokální síti, nic nikam nepouštíš, je to jediný způsob jak držet bezpečnost.

Proč:

  • plná kontrola nad daty
  • on-premise nasazení

Cena:

  • žádná přímá cena za model
  • ale: infra náklady (GPU, hosting)
    → od stovek po tisíce € měsíčně

- levné při velkém scale, drahé při malém

- V praxi: enterprise, citlivá data


Jsme ONE-STOP SHOP pro růst vašeho byznysu. Propojujeme vývoj webů a e-shopů, UX a CX design, budování značky, marketing i AI řešení do jednoho funkčního celku. Protože jen tak dokáže digitál dlouhodobě přinášet výkon i růst.

Kontaktujte nás

Naše agentura se řídí pravidly a principy Férového tendru.

Vše pro růst vašeho podnikání na jednom místě

V ui42 spojujeme kreativitu, technologie a marketing do jednoho týmu.
Budujeme značky a vizuální identity, tvoříme weby a e-shopy, navrhujeme UX a CRO, produkujeme video a kreativitu a následně přinášíme výsledky skrze performance marketing.
Díky tomu získáte partnera, který dokáže pokrýt celý digitální ekosystém vašeho byznysu – od prvního kontaktu se značkou až po konverzi.

Webový vývoj, Výkonnostní marketing, Budování značky, UX/CX

 

Děkujeme za odběr!
Ups! Tento email už je registrován
Email už máme v databázi, zkontrolujte si schránku nebo použijte jiný mail
Ups! Tento email je nesprávný
Email nemá správný formát
Ups! Neznámá chyba
Prosím, zkuste to později