Prompt caching

Kapcsolódó szolgáltatás AI megoldások

MEGHATÁROZÁS

A nagy modell-szolgáltatók (Anthropic, OpenAI, Google) támogatják, hogy a prompt elejére tett, ritkán változó blokkot (rendszerprompt, dokumentum-kontextus, eszközdefiníció) a szerver oldalán cache-eljék. A következő hívás ugyanazzal a prefix-szel 5 perc alatt akár 90 százalék input-token árcsökkenést és kétszer gyorsabb time-to-first-token-t ad. Akkor éri meg, ha a prefix legalább pár ezer token, és sok hívás osztja meg, például egy support-bot, egy RAG-pipeline vagy egy code-review agent. Akkor nem éri meg, ha a prompt minden hívásnál egyedi (például user-level personalizáció a prefix közepén), vagy ha a kontextus alig néhány száz token. A cache-t úgy kell felépíteni, hogy a stabil rész elöl legyen, a változó (felhasználói üzenet) hátul.

KAPCSOLÓDÓ FOGALMAK06

RAG (Retrieval-Augmented Generation)→
Olyan AI-architektúra, ahol a modell minden válasz előtt lekér releváns dokumentumokat a saját adattáradból, és csak a kontextusra támaszkodva válaszol. 80%-ban kivédi a hallucinációt.
LLM (Nagy nyelvi modell)→
Milliárdos paraméterszámú neurális modell (GPT-4, Claude, Mistral), ami szöveget generál. Produkcióban ritkán használjuk csupaszon · mindig retrieval és guardrails rétegbe csomagolva.
Embedding→
Szöveg vektoros reprezentációja (pl. 1536 dimenziós float). Ha két szöveg embeddingje közel van, jelentésük is közel van. RAG-ben ez alapján választjuk ki a releváns chunkokat.
Vector adatbázis→
Adatbázis, ami embedding-vektorok gyors közelséges keresésére specializálódott (pgvector, Qdrant, Weaviate). A RAG retrieval-rétegének mérnöki alapja.
Eval (LLM-kiértékelés)→
Automatizált tesztkészlet, ami minden release előtt lefuttat ~50–200 arany (golden) kérdést a modellen, és megnézi hogy a válasz minőségmetrikái (pontosság, faktualitás, latency) átmentek-e a küszöbön.
Guardrail→
Input- vagy output-réteg, ami szűri a modell kérdést/válaszát (PII-scrubber, prompt-injection-detektor, JSON-schema validáció, tiltott témák). Nem kerül a modell-hívás elé/után, hanem azok körül.

EMLÍTÉSEK A BLOGON08