2026. április 26.·9 perc olvasás

AI LLM Prompt cache Anthropic OpenAI Költség

Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre

Az ügynököd havi LLM számlájának 60-80%-a elvész, ha nem cache-eled. 6 minta, valós előtte/utána számok, ezen a héten élesíthető.

Legutóbb ellenőrizve2026. április 26.

Szerző Mező DezsőAlapító, DField Solutions

MegosztásX LinkedIn#

Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre

Az utóbbi három hónapban hat különböző AI ügynök kódját nyitottuk meg azzal a kéréssel, hogy 'csökkentsük a havi LLM számlát'. Mind a hatban ugyanaz volt a baj: a system prompt és a tool definíciók minden hívásban újra elküldve, frissen számolva. A cache vagy egyáltalán nem volt bekapcsolva, vagy csak a system prompt egy részén futott.

Ez a hat pattern stackelhető. Külön külön mindegyik 10-30%, együtt 60-80% megtakarítás. Egy ügynöknél (kb. 18 ezer prompt token, napi 4000 hívás, Sonnet 4.5) a havi számla 980 EUR ról 240 EUR ra esett vissza, két nap fejlesztéssel.

1. System prompt cache breakpoint

A legolcsóbb nyeremény. Az Anthropic SDK ben a system prompt utolsó blokkját jelölöd cacheable nek (`cache_control: { type: 'ephemeral' }`), és kész. 5 perces TTL alatt minden további hívás a cache prefixet használja. Tipikus megtakarítás: 30-50% a teljes token költségen, ha a system prompt nagyobb, mint 2000 token.

2. Tool sémák cache-elése

Egy 12 toolos agentben a tool definíciók szépen 4-6 ezer tokent foglalnak. Statikusak, soha nem változnak hívásról hívásra. A tool blokk végére tett cache breakpoint 10-15%-ot levesz a számláról.

const response = await anthropic.messages.create({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  tools: [
    ...toolDefinitions,
  ].map((t, i, arr) => i === arr.length - 1
    ? { ...t, cache_control: { type: "ephemeral" } }
    : t),
  system: [
    { type: "text", text: STATIC_INSTRUCTIONS },
    { type: "text", text: COMPANY_KNOWLEDGE, cache_control: { type: "ephemeral" } },
  ],
  messages,
});

3. Files API · a 2026 os új belépő

Az Anthropic Files API val nagy statikus dokumentumokat (cég wiki, termékkatalógus, PDF kézikönyv) feltöltesz egyszer, kapsz egy file_id t, és minden hívásban file referenciaként használod. A háttérben automatikusan cache elt prefixként kezelődik. Egy 60 oldalas PDF nél napi szinten 6-8 EUR ról 0.40 EUR ra estek a kontextus tokenek.

4. Conversation prefix cache long running agentnél

Egy hosszú beszélgetés (chatbot, párhuzamos fejlesztői ügynök) alatt minden új user üzenetnél az egész múlt visszaküldésre kerül. Ha a beszélgetés egy stabil prefixre épül (system + few shot + retrieved context), tedd a breakpointot a stabil rész végére, ne mindig a legutolsó turn re. Tipikus megtakarítás: 20-40% chat ügynököknél.

5. Few shot példák külön cache rétegben

Klasszifikáló vagy extractor ügynöknél a few shot példák 3-5 ezer token, soha nem változnak. Tedd külön blokkba, jelöld cacheable nek. A példákon plusz 10-20% jön le, fontos hogy stabil hash el legyenek (rendezés, whitespace számít).

6. Pre warm cron alacsony forgalmú ügynöknél

A cache TTL Anthropic nál ~5 perc, OpenAI nál ~10 perc. Ha napi 200 hívásod van, szétszórva, a cache hit ratio nyomorult lesz. Egy 1 perces cron, ami egy üres user üzenetet küld a stabil prefixre, a cache et folyamatosan melegen tartja. Költség: napi 0.10 EUR alatt; megtakarítás: 30-50% a normál hívások token áraiban.

Valós előtte/utána számla · 1 hónap

Egy magyar ügyfélnek épített support ügynök. 3800 napi hívás, 14 ezer token átlagos prompt méret, Sonnet 4.5.

Előtte (cache nincs): havi token költség 1 120 EUR, válaszidő p95 4.8s.
1 pattern (system cache): havi 720 EUR, p95 3.9s.
1+2 pattern (system + tools): havi 540 EUR, p95 3.2s.
1+2+5 pattern (+ few shot): havi 380 EUR, p95 2.7s.
Mind a 6 pattern: havi 220 EUR, p95 2.1s. Megtakarítás: 80%.

Két csapdát érdemes ismerni

Az első cache write Anthropic nál +25% extra (a tárolás díja). Alacsony forgalomnál ez fájhat. 50 hívás/óra felett mindig megéri.
A cache breakpoint sorrendje számít. Ha bárhol a prefixben változik egy karakter, az összes utána lévő blokk újraszámolódik. A stabil tartalmat tedd a legelejére, az instabilt a végére.

Mérd 1000 produkciós hívás előtte/utána. Ha a számlád nem 50% alá ment, kihagytál egy patternt. A 60-80% reális, nem marketing.

MegosztásX LinkedIn#

Szerző

Mező Dezső

Alapító, DField Solutions

Pénzügyi cégeknél és kreátor-eszközöknél is építettem már olyan rendszereket, amik nap mint nap élesben futnak. Budapesttől San Franciscóig · startupoknak és nagyobb vállalatoknak egyaránt.

RÓLUNK Beszéljünk

Folytatás

2026. szept. 30.·11 perc olvasás

DField Q3 2026 roundup · ami megváltozott, amit szállítottunk, ami eltört

Három hónap. SZÉP 2.0 él, NAV v3 átállás, AI Act enforcement, OWASP LLM Top 10 v2. Kemény számok, egy erős vélemény a tanácsadói rétegről.

Tovább

2026. júl. 01.·11 perc olvasás

DField Q2 2026 roundup · ami megvaltozott, ami szallitottuk, ami eltort

Negy honap eredmeny, opinion-evidence keverek. Mit szallitottunk, mit szallitott a piac, mi tort el, es mit figyelunk Q3-ra.

Tovább

2026. jún. 30.·6 perc olvasás

DField hirek · 2026 junius · negyedev veg, jelek a gyepre

Juniusi havi digest · ami a Q2 vegere kemeny tanulsag lett, es ami julius-augusztusban a kepre kerul.

Tovább

HASONLÓ TÉMÁJÚ PROJEKTEK

AI megoldások · Weboldal és webshop · Mobilapp (iPhone és Android) · 2026AIHealthIQOkos-óra és wearable adataidat olvassa az AI · figyelmeztet, javaslatot tesz, életmódot javít.

AI megoldások · Weboldal és webshop · 20263D AI PropertyAI által generált 3D-s ingatlan- és belsőépítészet, bejárható módban · manuális szerkesztővel és drón-nézettel.

AI megoldások · Kiberbiztonság · Weboldal és webshop · 2026Use AI EasilyEgy AI-cég weboldala · Magyarország első dedikált AI-biztonsági szolgáltatásával.

Beszéljünk

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.

Beszéljünk