mirror of
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools.git
synced 2026-06-18 15:29:36 +00:00
982 B
982 B
تشغيل التقييمات (Evals) — Dealix
الهدف
فحوصات شكل وسلامة ثابتة بعد كل نشر، بدون استدعاء LLM إنتاجي (انظر scripts/run_evals.py).
الأمر
python scripts/run_evals.py
python scripts/run_evals.py --suite personal_operator
الخرج EVAL_OK أو EVAL_FAIL مع سبب.
الملفات
Gate مقترح للإطلاق
بعد pytest، smoke_inprocess، وprint_routes، شغّل run_evals.py في CI اختياري أو على الفرع قبل الدمج إلى main.
التوسع لاحقاً
أضف حالات واقعية من staging (بدون بيانات شخصية)؛ يمكن ربط Langfuse كما في AI_OBSERVABILITY_AND_EVALS.md.