system-prompts-and-models-o.../dealix/docs/EVALS_RUNBOOK.md

# تشغيل التقييمات (Evals) — Dealix

## الهدف

فحوصات **شكل وسلامة ثابتة** بعد كل نشر، بدون استدعاء LLM إنتاجي (انظر [`scripts/run_evals.py`](../scripts/run_evals.py)).

## الأمر

```bash
python scripts/run_evals.py
python scripts/run_evals.py --suite personal_operator
```

الخرج `EVAL_OK` أو `EVAL_FAIL` مع سبب.

## الملفات

- [`evals/personal_operator_cases.jsonl`](../evals/personal_operator_cases.jsonl)
- [`evals/revenue_os_cases.jsonl`](../evals/revenue_os_cases.jsonl)

## Gate مقترح للإطلاق

بعد `pytest`، `smoke_inprocess`، و`print_routes`، شغّل `run_evals.py` في CI اختياري أو على الفرع قبل الدمج إلى `main`.

## التوسع لاحقاً

أضف حالات واقعية من staging (بدون بيانات شخصية)؛ يمكن ربط Langfuse كما في [`AI_OBSERVABILITY_AND_EVALS.md`](AI_OBSERVABILITY_AND_EVALS.md).