Accuracy — ระบบ vs คน
เทียบผล auto-decision กับ human_decision (คน = เฉลย)
รัน Benchmark
ดึงสลิปที่คนตรวจไปแล้ว (status=success/reject) มา process ใหม่ แล้วเทียบกับคน
เทียบผล auto-decision กับ human_decision (คน = เฉลย)
ดึงสลิปที่คนตรวจไปแล้ว (status=success/reject) มา process ใหม่ แล้วเทียบกับคน