Latensi mengukur waktu inferensi yang diperlukan untuk memproses satu input jika inferensi sinkron.
Saat menjalankan OpenVINO™ Benchmark dengan parameter bawaan, hal ini merupakan inferensi dalam mode asynchronous. Oleh karena itu, latensi yang dihasilkan mengukur total waktu inferensi yang diperlukan untuk memproses jumlah permintaan inferensi.
Selain itu, saat menjalankan Aplikasi Benchmark di CPU dengan parameter bawaan, 4 permintaan inferensi dibuat sedangkan 16 permintaan inferensi dibuat jika menjalankan Aplikasi Benchmark pada GPU dengan parameter bawaan. Oleh karena itu, latensi inferensi pada GPU yang dihasilkan lebih tinggi dibandingkan pada CPU.
Tentukan jumlah permintaan inferensi yang sama saat menjalankan Aplikasi Benchmark pada CPU dan GPU untuk perbandingan yang adil:
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4