Trade-off menggunakan format data dan bobot yang berbeda
- Menghasilkan dua file IR (berkas .xml identik tetapi file .bin yang berbeda)
- Model serupa dengan bobot yang berbeda berjalan pada fps yang berbeda ( 27 fps dan 6 fps)
- Apakah bobot yang lebih beragam memengaruhi performa inferensi pada Myriad X?
Bobot dan presisi model (FP32, FP16, INT8) memengaruhi performa inferensi.
Menggunakan format FP32 akan menghasilkan distribusi berat penuh dan dikenal sebagai Titik Ambang Presisi Tunggal.
Sementara itu, format FP16 dan INT8 keduanya adalah format bobot terkompresi dengan ukuran yang lebih kecil. Trade-off untuk kompresi ini adalah akurasi model atau disebut juga Quantization Error.
Semakin banyak bit yang dialokasikan untuk mewakili data, jangkauan yang lebih luas dapat mewakili dan berpotensi, akurasi model yang lebih baik. Namun, data yang lebih besar memerlukan ruang memori yang lebih besar untuk penyimpanannya, bandwidth memori yang lebih tinggi yang diperlukan untuk mentransfernya, dan lebih banyak sumber daya komputasi dan waktu penggunaannya.
Hasil Benchmark Intel® Distribution of OpenVINO™ toolkit menggambarkan perbedaan yang jelas dalam hal performa antara format berat atau presisi yang berbeda.