Mengapa “faithfulness ≥ 0,90” harus jadi gate deploy Anda
Demo yang kedengarannya benar dan sistem yang memang benar itu dua hal berbeda. Yang memisahkan keduanya adalah eval yang benar-benar Anda jalankan. Faithfulness — apakah jawaban tetap berpijak pada konteks yang diambil — adalah satu angka paling berguna untuk jadi gate sebuah rilis.
Ubah skor jadi gate
Nilai set yang representatif di tiap perubahan, bandingkan dengan ambang yang disepakati (kami mulai dari ≥ 0,90), dan gagalkan pipeline begitu skornya turun. Angka itu berhenti jadi sekadar pajangan begitu build merah memblokir merge.
Saat sebuah rilis tak lolos gate, ada tiga langkah yang jujur: perbaiki retrieval, batasi generasi, atau abstain. Tetap merilis jelas bukan salah satunya.
Pasang di CI berdampingan dengan test Anda, laporkan trennya tiap sprint, dan percakapannya bergeser dari "rasanya sudah bagus" jadi "lolos atau tidak".