DField SolutionsMérnöki stúdió · Budapest
Loading · Töltődik
Ugrás a tartalomhoz

Prompt caching

Kapcsolódó szolgáltatás AI fejlesztés

MEGHATÁROZÁS

A nagy modell-szolgáltatók (Anthropic, OpenAI, Google) támogatják, hogy a prompt elejére tett, ritkán változó blokkot (rendszerprompt, dokumentum-kontextus, eszközdefiníció) a szerver oldalán cache-eljék. A következő hívás ugyanazzal a prefix-szel 5 perc alatt akár 90 százalék input-token árcsökkenést és kétszer gyorsabb time-to-first-token-t ad. Akkor éri meg, ha a prefix legalább pár ezer token, és sok hívás osztja meg, például egy support-bot, egy RAG-pipeline vagy egy code-review agent. Akkor nem éri meg, ha a prompt minden hívásnál egyedi (például user-level personalizáció a prefix közepén), vagy ha a kontextus alig néhány száz token. A cache-t úgy kell felépíteni, hogy a stabil rész elöl legyen, a változó (felhasználói üzenet) hátul.

KAPCSOLÓDÓ FOGALMAK06
  • Kontextus-tervezés (Context Engineering)

    A prompt engineering utódja: tudatosan állítjuk össze, mi kerül a modell kontextusába - rendszerprompt, lekért dokumentumok, eszközök, memória. A cél a maximális pontosság a lehető legkevesebb tokenből. A modell csak annyit tud, amennyit beletettünk.

  • AI Gateway

    Proxy-réteg az app és az LLM-szolgáltatók (OpenAI, Anthropic) között: routing, újrapróbálás, cache, rate-limit, kulcskezelés, költségkövetés és átkapcsolás kiesés esetén. Egy helyen látod a teljes AI-számládat, és nem ragadsz be egy szállítóhoz.

  • Modell-routing (Model Routing)

    Minden kérést a legolcsóbb modellhez küldünk, ami még megbirkózik vele: kis modell az egyszerű kérdéseknek, frontier modell a nehezeknek - gyakran egy osztályozó dönt. A drága hívásokat 5-10×-esére csökkenti az inference-költséget.

  • Graph RAG

    RAG-változat, amely tudásgráfon (entitások + kapcsolatok) keres, nem lapos szövegdarabokon. Így megválaszolja a több lépéses kérdéseket („hogyan kapcsolódik X-hez Y?”), amiket a tisztán vektoros keresés elszalaszt.

  • Ágens-memória (Agent Memory)

    Ahogy egy AI-ágens megőrzi az állapotát a fordulók és munkamenetek között: rövid távú (kontextusablak), hosszú távú (vektortár/DB tényekkel) és epizodikus. Ez a különbség egy felejtő ágens és egy olyan közt, amely tanulja a cégedet.

  • Szintetikus adat (Synthetic Data)

    Modell által generált tanító- és teszt-adat, ha a valódi szűkös, érzékeny (GDPR) vagy kiegyensúlyozatlan. Hasznos, de a minőséget és diverzitást ellenőrizni kell - különben a modell saját vakfoltjait sütöd bele a rendszerbe.

EMLÍTÉSEK A BLOGON08