---
title: "LLM eval-as-code: a CI-kapu minden RAG-deployra"
description: "A valódi eval-keretrendszer, amit szállítunk · metrikák, regresszió-blokkoló küszöbök, gold-set kezelés, és a diff-jelentés, ami minden PR-en fut."
date: 2026-04-22
updated: 2026-04-22
author: "Mezo Dezso"
tags: "AI, LLM, RAG, Eval, CI, Produkcio"
slug: llm-evals-as-code-produkcioban
canonical: https://dfieldsolutions.hu/blog/llm-evals-as-code-produkcioban
---

# LLM eval-as-code: a CI-kapu minden RAG-deployra

Egy manuálisan futtatott eval nem eval · ez a workflow kapja el a regressziót release elott.
Egy release elott manuálisan futtatott eval nem eval · remeny. A produkcióban megálló RAG-rendszereknek evals-as-code van: fix gold-set, metrikák CI-ben, regresszió-blokkolás, PR-enkénti diff-jelentés.

## Ot metrika-osztály

- Faithfulness · a válasz a retrieval kontextuson belül maradt-e
- Context precision · a retrieval a jó chunkot hozta-e
- Answer relevance · a válasz a kérdést célozza-e
- Bias · semleges kontextusra semleges válasz
- Injection resistance · 80+ ismert támadási mintára ellenáll-e

## Gold-set fegyelem

A gold-set a repo-ban verziozva · nem táblázatban, nem megosztott Notion-oldalon. Változáshoz PR kell reviewerrel. Az eval harness konkrét gold-set-verzióra pinol · így az eval-futások összehasonlíthatók az időben.

## Regresszió-blokkolás

A CI elbukik, ha bármelyik metrika 5 pontnál többet esik a baseline alól. A baseline-updatek csak explicit human approval-lal merge-ölnek · nem automatikusan minden javulásra. Megállítja azt a drift-et, ahol 'kis' regressziók halmozódnak.

```python
if current_score < baseline_score - 0.05:
    raise AssertionError(
        f'Regressziu · {metric}: {current_score:.3f} < {baseline_score:.3f} - 0.05'
    )
```

## Heti kanári az élő modell ellen

A PR-blokkoló evalokon túl hetente futtatjuk ugyanazt a suite-ot a produkciós forgalmon · elkapja a driftet a merge-időbeli CI és a vadonbeli valóság között (query-eloszlás-változás, prompt-drift, adat-avulás).

> **TIP:** A leggyorsabb eval-as-code win: mutass a promptfoo-nak 20 valódi ügyfélkérdést + amit a jó válasznak fogadsz el. Ship CI-ba. Ez elott minden LLM-minoségi beszélgetés érzés.

---

Source: https://dfieldsolutions.hu/blog/llm-evals-as-code-produkcioban
Author: Mezo Dezso · Alapito, DField Solutions
Site: https://dfieldsolutions.hu