mirror of
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools.git
synced 2026-06-17 23:09:35 +00:00
28 lines
982 B
Markdown
28 lines
982 B
Markdown
# تشغيل التقييمات (Evals) — Dealix
|
|
|
|
## الهدف
|
|
|
|
فحوصات **شكل وسلامة ثابتة** بعد كل نشر، بدون استدعاء LLM إنتاجي (انظر [`scripts/run_evals.py`](../scripts/run_evals.py)).
|
|
|
|
## الأمر
|
|
|
|
```bash
|
|
python scripts/run_evals.py
|
|
python scripts/run_evals.py --suite personal_operator
|
|
```
|
|
|
|
الخرج `EVAL_OK` أو `EVAL_FAIL` مع سبب.
|
|
|
|
## الملفات
|
|
|
|
- [`evals/personal_operator_cases.jsonl`](../evals/personal_operator_cases.jsonl)
|
|
- [`evals/revenue_os_cases.jsonl`](../evals/revenue_os_cases.jsonl)
|
|
|
|
## Gate مقترح للإطلاق
|
|
|
|
بعد `pytest`، `smoke_inprocess`، و`print_routes`، شغّل `run_evals.py` في CI اختياري أو على الفرع قبل الدمج إلى `main`.
|
|
|
|
## التوسع لاحقاً
|
|
|
|
أضف حالات واقعية من staging (بدون بيانات شخصية)؛ يمكن ربط Langfuse كما في [`AI_OBSERVABILITY_AND_EVALS.md`](AI_OBSERVABILITY_AND_EVALS.md).
|