Prompt caching
Kapcsolódó szolgáltatás AI megoldások
MEGHATÁROZÁS
A nagy modell-szolgáltatók (Anthropic, OpenAI, Google) támogatják, hogy a prompt elejére tett, ritkán változó blokkot (rendszerprompt, dokumentum-kontextus, eszközdefiníció) a szerver oldalán cache-eljék. A következő hívás ugyanazzal a prefix-szel 5 perc alatt akár 90 százalék input-token árcsökkenést és kétszer gyorsabb time-to-first-token-t ad. Akkor éri meg, ha a prefix legalább pár ezer token, és sok hívás osztja meg, például egy support-bot, egy RAG-pipeline vagy egy code-review agent. Akkor nem éri meg, ha a prompt minden hívásnál egyedi (például user-level personalizáció a prefix közepén), vagy ha a kontextus alig néhány száz token. A cache-t úgy kell felépíteni, hogy a stabil rész elöl legyen, a változó (felhasználói üzenet) hátul.
- RAG (Retrieval-Augmented Generation)→
Olyan AI-architektúra, ahol a modell minden válasz előtt lekér releváns dokumentumokat a saját adattáradból, és csak a kontextusra támaszkodva válaszol. 80%-ban kivédi a hallucinációt.
- LLM (Nagy nyelvi modell)→
Milliárdos paraméterszámú neurális modell (GPT-4, Claude, Mistral), ami szöveget generál. Produkcióban ritkán használjuk csupaszon · mindig retrieval és guardrails rétegbe csomagolva.
- Embedding→
Szöveg vektoros reprezentációja (pl. 1536 dimenziós float). Ha két szöveg embeddingje közel van, jelentésük is közel van. RAG-ben ez alapján választjuk ki a releváns chunkokat.
- Vector adatbázis→
Adatbázis, ami embedding-vektorok gyors közelséges keresésére specializálódott (pgvector, Qdrant, Weaviate). A RAG retrieval-rétegének mérnöki alapja.
- Eval (LLM-kiértékelés)→
Automatizált tesztkészlet, ami minden release előtt lefuttat ~50–200 arany (golden) kérdést a modellen, és megnézi hogy a válasz minőségmetrikái (pontosság, faktualitás, latency) átmentek-e a küszöbön.
- Guardrail→
Input- vagy output-réteg, ami szűri a modell kérdést/válaszát (PII-scrubber, prompt-injection-detektor, JSON-schema validáció, tiltott témák). Nem kerül a modell-hívás elé/után, hanem azok körül.
- 012026. szept. 30.DField Q3 2026 roundup · ami megváltozott, amit szállítottunk, ami eltört→
- 022026. júl. 01.DField Q2 2026 roundup · ami megvaltozott, ami szallitottuk, ami eltort→
- 032026. jún. 30.DField hirek · 2026 junius · negyedev veg, jelek a gyepre→
- 042026. máj. 31.DField hirek · 2026 majus · ami az iparban es a magyar piacon mozdul→
- 052026. ápr. 30.DField hirek · 2026 aprilis · ipari pulzus es ami a blogon kijott→
- 062026. ápr. 26.Next.js 16 teljesítmény csapdák, amibe minden Vercel projekt belesétál→
- 072026. ápr. 26.Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre→
- 082026. ápr. 26.OWASP LLM Top 10 v2 · mi változott és mit szállítsunk→