Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre
Az ügynököd havi LLM számlájának 60-80%-a elvész, ha nem cache-eled. 6 minta, valós előtte/utána számok, ezen a héten élesíthető.
Az ügynököd havi LLM számlájának 60-80%-a elvész, ha nem cache-eled. 6 minta, valós előtte/utána számok, ezen a héten élesíthető.
Az utóbbi három hónapban hat különböző AI ügynök kódját nyitottuk meg azzal a kéréssel, hogy 'csökkentsük a havi LLM számlát'. Mind a hatban ugyanaz volt a baj: a system prompt és a tool definíciók minden hívásban újra elküldve, frissen számolva. A cache vagy egyáltalán nem volt bekapcsolva, vagy csak a system prompt egy részén futott.
Ez a hat pattern stackelhető. Külön külön mindegyik 10-30%, együtt 60-80% megtakarítás. Egy ügynöknél (kb. 18 ezer prompt token, napi 4000 hívás, Sonnet 4.5) a havi számla 980 EUR ról 240 EUR ra esett vissza, két nap fejlesztéssel.
A legolcsóbb nyeremény. Az Anthropic SDK ben a system prompt utolsó blokkját jelölöd cacheable nek (`cache_control: { type: 'ephemeral' }`), és kész. 5 perces TTL alatt minden további hívás a cache prefixet használja. Tipikus megtakarítás: 30-50% a teljes token költségen, ha a system prompt nagyobb, mint 2000 token.
Egy 12 toolos agentben a tool definíciók szépen 4-6 ezer tokent foglalnak. Statikusak, soha nem változnak hívásról hívásra. A tool blokk végére tett cache breakpoint 10-15%-ot levesz a számláról.
const response = await anthropic.messages.create({
model: "claude-sonnet-4-5",
max_tokens: 1024,
tools: [
...toolDefinitions,
].map((t, i, arr) => i === arr.length - 1
? { ...t, cache_control: { type: "ephemeral" } }
: t),
system: [
{ type: "text", text: STATIC_INSTRUCTIONS },
{ type: "text", text: COMPANY_KNOWLEDGE, cache_control: { type: "ephemeral" } },
],
messages,
});Az Anthropic Files API val nagy statikus dokumentumokat (cég wiki, termékkatalógus, PDF kézikönyv) feltöltesz egyszer, kapsz egy file_id t, és minden hívásban file referenciaként használod. A háttérben automatikusan cache elt prefixként kezelődik. Egy 60 oldalas PDF nél napi szinten 6-8 EUR ról 0.40 EUR ra estek a kontextus tokenek.
Egy hosszú beszélgetés (chatbot, párhuzamos fejlesztői ügynök) alatt minden új user üzenetnél az egész múlt visszaküldésre kerül. Ha a beszélgetés egy stabil prefixre épül (system + few shot + retrieved context), tedd a breakpointot a stabil rész végére, ne mindig a legutolsó turn re. Tipikus megtakarítás: 20-40% chat ügynököknél.
Klasszifikáló vagy extractor ügynöknél a few shot példák 3-5 ezer token, soha nem változnak. Tedd külön blokkba, jelöld cacheable nek. A példákon plusz 10-20% jön le, fontos hogy stabil hash el legyenek (rendezés, whitespace számít).
A cache TTL Anthropic nál ~5 perc, OpenAI nál ~10 perc. Ha napi 200 hívásod van, szétszórva, a cache hit ratio nyomorult lesz. Egy 1 perces cron, ami egy üres user üzenetet küld a stabil prefixre, a cache et folyamatosan melegen tartja. Költség: napi 0.10 EUR alatt; megtakarítás: 30-50% a normál hívások token áraiban.
Egy magyar ügyfélnek épített support ügynök. 3800 napi hívás, 14 ezer token átlagos prompt méret, Sonnet 4.5.
Mérd 1000 produkciós hívás előtte/utána. Ha a számlád nem 50% alá ment, kihagytál egy patternt. A 60-80% reális, nem marketing.

Alapító, DField Solutions
Pénzügyi cégeknél és kreátor-eszközöknél is építettem már olyan rendszereket, amik nap mint nap élesben futnak. Budapesttől San Franciscóig · startupoknak és nagyobb vállalatoknak egyaránt.
Beszéljünk a projektedről. 30 perc, nincs kötelezettség.