system-prompts-and-models-o.../dealix/docs/EVALS_RUNBOOK.md
2026-05-01 14:03:52 +03:00

982 B

تشغيل التقييمات (Evals) — Dealix

الهدف

فحوصات شكل وسلامة ثابتة بعد كل نشر، بدون استدعاء LLM إنتاجي (انظر scripts/run_evals.py).

الأمر

python scripts/run_evals.py
python scripts/run_evals.py --suite personal_operator

الخرج EVAL_OK أو EVAL_FAIL مع سبب.

الملفات

Gate مقترح للإطلاق

بعد pytest، smoke_inprocess، وprint_routes، شغّل run_evals.py في CI اختياري أو على الفرع قبل الدمج إلى main.

التوسع لاحقاً

أضف حالات واقعية من staging (بدون بيانات شخصية)؛ يمكن ربط Langfuse كما في AI_OBSERVABILITY_AND_EVALS.md.