Jaringan Neural Kuantisasi untuk Inferensi FPGA

Kuantisasi presisi rendah untuk jaringan neural mendukung spesifikasi aplikasi AI dengan memberikan throughput yang lebih besar untuk footprint yang sama atau mengurangi penggunaan sumber daya. Block floating point (BFP) sangat berguna dalam skenario ini karena rentang dinamisnya yang tinggi yang memungkinkan presisi yang lebih rendah sambil mempertahankan akurasi. Setiap penurunan akurasi dapat diperoleh kembali dengan pelatihan ulang menggunakan perangkat lunak open source kami.