Accuracy — ระบบ vs คน

เทียบผล auto-decision กับ human_decision (คน = เฉลย)

รัน Benchmark

ดึงสลิปที่คนตรวจไปแล้ว (status=success/reject) มา process ใหม่ แล้วเทียบกับคน