Lewatkan ke Konten Utama
Dasar Pengetahuan Dukungan

Mengapa Format Model Terkuantisasi Tetap FP32 Alih-alih INT8?

Jenis Konten: Informasi & Dokumentasi Produk   |   ID Artikel: 000095064   |   Terakhir Ditinjau: 13/06/2023

Deskripsi

  • Model ONNX terkuantisasi dengan format presisi FP32.
  • Menjalankan fungsi compress_model_weights untuk mengurangi ukuran berkas bin setelah melakukan Post-Training Quantization.
  • Mengkompilasi model dan melihat bahwa keluaran model ada di FP32 alih-alih INT8.

Resolusi

Selama kuantisasi hanya diperlukan operasi dalam perspektif performa sedang diukur. Operasi yang tersisa akan tetap sebagai FP32 dalam keluaran.

Informasi tambahan

Produk Terkait

Artikel ini berlaku untuk 3 produk.
Perangkat Lunak Prosesor Intel® Xeon Phi™ OpenVINO™ toolkit Pustaka Kinerja

Pelepasan Tanggung Jawab

Isi halaman ini adalah kombinasi terjemahan manusia dan komputer dari konten berbahasa Inggris. Konten ini diberikan hanya untuk kenyamanan Anda serta sebagai informasi umum dan tidak bisa dianggap sebagai lengkap atau akurat. Jika terdapat kontradiksi antara versi bahasa Inggris halaman ini dan terjemahannya, versi bahasa Inggris akan didahulukan. Lihat versi bahasa Inggris halaman ini.