Memuat Representasi Menengah (IR) model input ke GPU membutuhkan waktu lebih lama daripada memuat model yang sama ke CPU.
Buat direktori cl_cache secara manual di direktori kerja aplikasi Anda.
Driver akan menggunakan direktori ini untuk menyimpan representasi biner dari kernel yang dikompilasi. Ini akan berfungsi pada semua OS yang didukung.
Atau, atur variabel lingkungan:
export INTEL_OPENCL_CACHE=1
Lihat artikel ini untuk Ikhtisar Caching Model guna mengoptimalkan latensi.
Memuat model input Anda dalam format Representasi Menengah (IR) ke GPU membutuhkan waktu lebih lama daripada memuat model yang sama ke CPU karena tumpukan GPU didasarkan pada OpenCL*. Waktu muat tergantung pada waktu kompilasi kernel OpenCL*.
Saat Anda mengaktifkan cl_cache, saat pertama kali Anda memuat model, masih akan memakan waktu lama karena kernel OpenCL* akan dikompilasi. Namun, setiap pemuatan berikutnya dari model yang sama akan jauh lebih cepat.
Untuk konfigurasi cache terprogram di OpenVINO™ 2026.0:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})