---
title: "AI ügynökök produkcióban: ne demó legyen, hanem rendszer"
description: "Hogyan szállítunk olyan LLM-alapú ügynököket, amelyek nem csak bemutatóban működnek? Retrieval, eval, guardrails és költségmenedzsment egy helyen."
date: 2026-04-08
updated: 2026-04-15
author: "Mező Dezső"
tags: "AI, LLM, RAG, Produkció"
slug: ai-ugynokok-produkcioban
canonical: https://dfieldsolutions.hu/blog/ai-ugynokok-produkcioban
---

# AI ügynökök produkcióban: ne demó legyen, hanem rendszer

LLM-demóból élet-rendszer: retrieval-pipeline, kiértékelés, guardrails és költségkontroll, ahogy mi csináljuk a projekteken.
A legtöbb „AI agent” project, amit látunk, úgy kezdődik, hogy valaki ChatGPT-n legyárt egy ígéretes demót, aztán három hónap múlva senki nem tudja, miért hallucinál, miért drága, és miért esik szét az első valódi felhasználónál. A probléma nem az LLM-mel van. A probléma a rendszerszemlélet hiányával van.

Az alábbi cikkben végigvesszük, hogyan szállítunk mi olyan AI-ügynököket, amelyek valódi produkciós rendszerként működnek: minden release előtt eval-el átmennek, van rájuk költség-SLA, és monitorozható, hogy mikor tér el a viselkedés a várt trendtől.

## 1. Retrieval: ha csak ez van, már nyertél

A legtöbb hallucinációs problémát nem a „nagyobb modell” oldja meg, hanem a retrieval. Ha a kontextus benne van a promptban, a modellnek nincs dolga kitalálni dolgokat. Hibrid retrieval (BM25 + vector + reranker) és gondos chunk-stratégia 80%-ban lefedi az ügyfélhibák halmazát.

- Chunk méret 300-800 token, overlap 15-20%.
- Reranker (bge-reranker, Cohere rerank-3) drasztikus minőségugrás.
- Mindig küldünk forráshivatkozást · ha nincs találat, refuse.

## 2. Eval: a „úgy néz ki, jó” már nem jó

Építünk egy golden-set-et az ügyfél adataiból, 50-200 kérdéssel, és ezt futtatjuk CI-ben minden release előtt. LLM-as-judge + faktuális regressziós tesztek. Ha a minőség-trend megtörik, nem deploy-olunk.

```ts
// Eval CI step
import { runEvals } from "@dfield/eval";

const result = await runEvals({
  suite: "support-copilot",
  model: process.env.MODEL_VERSION,
  thresholds: { accuracy: 0.88, factual: 0.95, latencyP95Ms: 1800 },
});

if (!result.passed) {
  throw new Error(`Eval failed: ${result.failures.join(", ")}`);
}
```

## 3. Guardrails: PII, prompt injection, output-schema

Input oldalon PII-scrubber, prompt-injection-detektor (kulcsszó + LLM-classifier). Output oldalon JSON-schema validáció, tiltott témák szűrése. Ez nem cosmetic, ez megvédi a brand-et.

> **TIP:** A guardrails a legolcsóbb biztosítás: alig növeli a latency-t, viszont a sértő / nem-biztonságos kimenetek 99%-át kiszűri.

## 4. Költségmenedzsment: LLM-router + cache

Nem minden kérdésre kell GPT-4o-s válasz. Routing a kérdés tipusa szerint: egyszerű FAQ → kis modell + cache. Komplex reasoning → nagy modell. 3-5x költségcsökkentés reálisan elérhető.

## 5. Megfigyelés: minden kérdés mérve

OpenTelemetry + saját dashboard: tokens in/out, latency P50/P95/P99, minőségi metrikák (accuracy, refusal rate), költség per user. Ha egy metrika elromlik, azonnal látjuk és riadó szól.

## Zárszó

Az AI rendszer nem különbözik egy rendes backend-szolgáltatástól abban, hogy ugyanolyan mérnöki fegyelmet igényel. Ha ennek a cikknek a keretei szerint szeretnél indulni · írj, egy hét alatt futó prototípust tudunk mutatni a te adataidon.

---

Source: https://dfieldsolutions.hu/blog/ai-ugynokok-produkcioban
Author: Mező Dezső · Alapító, DField Solutions
Site: https://dfieldsolutions.hu