Mengamati throughput inferensi yang berbeda saat menjalankan arsitektur model yang sama dengan file bobot yang berbeda. Meskipun struktur modelnya identik, performa inferensi sangat bervariasi tergantung pada presisi bobot dan representasi yang digunakan.
Bobot dan presisi model (FP32, FP16, INT8) memengaruhi performa inferensi.
Menggunakan format FP32 akan menghasilkan distribusi berat penuh dan dikenal sebagai Single Precision Floating Point.
Sementara itu, format FP16 dan INT8 keduanya adalah format bobot terkompresi di mana mereka diperas agar ukurannya lebih kecil. Trade-off untuk kompresi ini adalah akurasi model, juga dikenal sebagai kesalahan kuantisasi.
Semakin banyak bit yang dialokasikan untuk mewakili data, semakin luas jangkauan yang dapat mereka wakili dan berpotensi, akurasi model yang lebih baik. Namun, data yang lebih besar memerlukan ruang memori yang lebih besar untuk penyimpanannya, bandwidth memori yang lebih tinggi diperlukan untuk mentransfernya, dan lebih banyak sumber daya komputasi dan waktu yang digunakan.
Hasil Benchmark Intel® Distribution of OpenVINO™ toolkit menggambarkan perbedaan yang jelas dalam hal performa antara format atau presisi bobot yang berbeda.