Intel® Distribution dari OpenVINO™ Toolkit

753640
4/25/2024

Pendahuluan

Paket ini berisi Intel® Distribution perangkat lunak OpenVINO™ Toolkit versi 2024.1 untuk Linux*, Windows*, dan macOS*.

Unduhan Tersedia

  • CentOS 7 (1908)*
  • Ukuran: 51.2 MB
  • SHA256: 8F1D8B7D51DD8364BEB330B8364C8C98B15AE70164E5D2843C6D0D71375B83FD
  • Debian Linux*
  • Ukuran: 25 MB
  • SHA256: 916C33CA6902665F62DE80F25309E0B5BDC252225DA33213164C8E2000ABF035
  • Red Hat Enterprise Linux 8*
  • Ukuran: 44.3 MB
  • SHA256: A6EB3A623B1AEB252A10AC57AAD118871E2907B87C4DBE318CAEBC04519C7B5B
  • Ubuntu 18.04 LTS*
  • Ukuran: 44.3 MB
  • SHA256: BAC6A147EBD6D32A9E097C56652553663191FD5D784E5C11EE16A8D3C35A0718
  • Ubuntu 20.04 LTS*
  • Ukuran: 47.2 MB
  • SHA256: F6DAF300D235458B22A03789F8CB4BC81CA9108A0B72C18480090B4EF84BF751
  • Ubuntu 20.04 LTS*
  • Ukuran: 33.3 MB
  • SHA256: 7B8A88ACC9EF8E65E6B896D4BE4BCCCB9FEE7AC19FC20C62B4F99DB18BF15084
  • Ubuntu 22.04 LTS*
  • Ukuran: 48.3 MB
  • SHA256: 69F15878F54D7B61EB54EB5B2631741F147E85383539F5436A6672FB07C459D2
  • macOS*
  • Ukuran: 126.4 MB
  • SHA256: 4FEB824F610D65D8218183D3453C8DA6DB5EA641F858B5CB98413B675554898F
  • macOS*
  • Ukuran: 30.8 MB
  • SHA256: 6997E398DC14F0E52B7A286374CC7A02FE6B3285CE52E2F6324FB5D928050A95
  • Windows 11*, Windows 10, 64-bit*
  • Ukuran: 99.1 MB
  • SHA256: 4EE0C4036C91A3C1423C14F47E31B5B4C15082A6CFF3A5B7A63CF12DA39B70E6

Detail Deskripsi

Apa yang baru

Lebih banyak cakupan AI Generasi dan integrasi kerangka kerja untuk meminimalkan perubahan kode.

  • Model Mixtral* dan URLNet* dioptimalkan untuk peningkatan performa pada prosesor Intel® Xeon®.
  • Model Difusi Stabil* 1,5, ChatGLM3-6B*, dan Qwen-7B* dioptimalkan untuk meningkatkan kecepatan inferensi pada prosesor Intel® Core™ Ultra dengan GPU terintegrasi.
  • Dukungan untuk Falcon-7B-Instruct*, model obrolan/instruksi GenAI Large Language Model (LLM) yang siap digunakan dengan metrik performa unggul.
  • Jupyter* Notebooks baru ditambahkan: YOLO V9*, YOLO V8* Oriented Bounding Boxes Detection (OOB), Stable Diffusion in Keras*, MobileCLIP*, RMBG-v1.4* Background Removal, Magika*, TripoSR*, AnimateAnyone*, LLaVA-NeXT*, dan sistem RAG dengan OpenVINO™ dan LangChain*.

Dukungan model LLM yang lebih luas dan lebih banyak teknik kompresi model.

  • Waktu kompilasi LLM dikurangi melalui optimalisasi tambahan dengan penyematan terkompresi. Peningkatan performa token LLM ke-1 pada prosesor Intel® Xeon® generasi ke-4 dan ke-5 dengan Intel® Advanced Matrix Extensions (Intel® AMX).
  • Kompresi LLM yang lebih baik dan peningkatan kinerja dengan dukungan oneDNN, INT4, dan INT8 untuk GPU Intel® Arc™.
  • Pengurangan memori yang signifikan untuk model GenAI tertentu yang lebih kecil pada prosesor Intel® Core™ Ultra dengan GPU terintegrasi.

Portabilitas dan performa yang lebih baik untuk menjalankan AI di edge, di cloud, atau secara lokal.

  • Plugin NPU pratinjau untuk prosesor Intel® Core™ Ultra kini tersedia di repositori GitHub* sumber terbuka OpenVINO, selain paket OpenVINO utama di PyPI*.
  • API JavaScript* kini lebih mudah diakses melalui repositori npm, memungkinkan akses tanpa batas pengembang JavaScript ke API OpenVINO.
  • Inferensi FP16 pada prosesor ARM* kini diaktifkan untuk Convolutional Neural Network (CNN) secara default.

OpenVINO™ Runtime

Umum

  • Jalur file Unicode untuk model cache kini didukung pada Windows*.
  • API prapemrosesan pad untuk memperluas tensor input pada edge dengan konstanta.
  • Perbaikan untuk kegagalan inferensi model pembuatan gambar tertentu telah diterapkan (nama port I/O menyatu setelah transformasi).
  • Opsi peringatan-sebagai-kesalahan kompiler sekarang aktif, meningkatkan kriteria dan kualitas pengkodean. Peringatan build tidak akan diizinkan untuk kode OpenVINO baru dan peringatan yang ada telah diperbaiki.

Mode Inferensi AUTO

  • Mengembalikan nilai ov::enable_profiling dari ov::CompiledModel sekarang didukung.

Plugin Perangkat CPU

  • Kinerja token ke-1 LLM telah ditingkatkan pada prosesor Intel® Xeon® generasi ke-4 dan ke-5 dengan Intel® Advanced Matrix Extensions (Intel® AMX).
  • Waktu kompilasi LLM dan jejak memori telah ditingkatkan melalui optimalisasi tambahan dengan penyematan terkompresi.
  • Kinerja MoE (seperti Mixtral), Gemma*, dan GPT-J telah ditingkatkan lebih lanjut.
  • Performa telah ditingkatkan secara signifikan untuk berbagai model pada perangkat ARM.
  • Presisi inferensi FP16 kini menjadi default untuk semua jenis model pada perangkat ARM.
  • Build agnostik arsitektur CPU telah diterapkan, untuk memungkinkan distribusi biner terpadu pada perangkat ARM yang berbeda.

Plugin Perangkat GPU

  • Latensi token pertama LLM telah ditingkatkan pada platform GPU terintegrasi dan diskrit.
  • Untuk model ChatGLM3-6B*, latensi token rata-rata telah ditingkatkan pada platform GPU terintegrasi.
  • Untuk presisi Difusi Stabil 1,5 FP16, performa telah ditingkatkan pada prosesor Intel® Core™ Ultra.

Plugin Perangkat NPU

  • Plugin NPU sekarang menjadi bagian dari repositori GitHub OpenVINO. Semua perubahan plugin terbaru akan segera tersedia di repo. Perhatikan bahwa NPU adalah bagian dari prosesor Intel® Core™ Ultra.
  • Buku catatan OpenVINO™ baru "Halo, NPU!" memperkenalkan penggunaan NPU dengan OpenVINO telah ditambahkan.
  • Versi 22H2 atau yang lebih baru diperlukan untuk Microsoft Windows® 11 64-bit untuk menjalankan inferensi pada NPU.

OpenVINO Python* API

  • Pembuatan RemoteTensors bebas GIL sekarang digunakan - menahan GIL berarti prosesnya tidak cocok untuk multithreading dan melepas kunci GIL akan meningkatkan kinerja yang sangat penting untuk konsep RemoteTensors.
  • Tipe data paket BF16 pada level API Python telah ditambahkan, membuka cara baru untuk mendukung tipe data yang tidak ditangani oleh NumPy*.
  • Dukungan operator 'pad' untuk ov::p reprocess::P rePostProcessorItem telah ditambahkan.
  • Ov. Definisi PartialShape.dynamic(int) telah disediakan.

OpenVINO C API

  • Dua API prapemrosesan baru untuk skala dan rata-rata telah ditambahkan.

OpenVINO Node.js API

  • Metode baru untuk menyelaraskan JavaScript API dengan CPP API telah ditambahkan, seperti CompiledModel.exportModel(), core.import_model(), Core set/get property dan Tensor.get_size(), dan Model.is_dynamic().
  • Dokumentasi telah diperluas untuk membantu pengembang mulai mengintegrasikan aplikasi JavaScript dengan OpenVINO™.

Dukungan Framework TensorFlow

  • tokenizer tf.keras.layers.TextVectorization sekarang didukung.
  • Konversi model dengan sumber daya Variabel dan HashTable (kamus) telah ditingkatkan.
  • 8 operasi BARU telah ditambahkan (lihat daftar di sini, ditandai sebagai BARU).
  • 10 operasi telah menerima dukungan tensor yang kompleks.
  • Nama tensor input untuk model TF1 telah disesuaikan agar memiliki satu nama per input.
  • Cakupan dukungan model Hugging Face* telah meningkat secara signifikan, karena:
    • ekstraksi tanda tangan input model dalam memori telah diperbaiki,
    • Pembacaan nilai variabel untuk model dalam memori telah diperbaiki.

Dukungan Framework PyTorch*

  • ModuleExtension, jenis ekstensi baru untuk model PyTorch sekarang didukung (PR #23536).
  • 22 operasi BARU telah ditambahkan.
  • Dukungan eksperimental untuk model yang dihasilkan oleh torch.export (grafik FX) telah ditambahkan (PR #23815).

OpenVINO Model Server

  • OpenVINO™ backend Runtime yang digunakan sekarang adalah 2024.1
  • Model OpenVINO™ dengan tipe data String pada output didukung. Sekarang, OpenVINO™ Model Server dapat mendukung model dengan input dan output dari jenis String, sehingga pengembang dapat memanfaatkan tokenisasi yang dibangun ke dalam model sebagai lapisan pertama. Pengembang juga dapat mengandalkan postprocessing apa pun yang disematkan ke dalam model yang hanya mengembalikan teks. Periksa demo pada data input string dengan model universal-sentence-encoder dan demo model output String.
  • Kalkulator MediaPipe* Python telah diperbarui untuk mendukung jalur relatif untuk semua konfigurasi terkait dan file kode Python. Sekarang, folder konfigurasi grafik lengkap dapat diterapkan di jalur arbitrer tanpa perubahan kode apa pun.
  • Dukungan KServe* REST API telah diperluas untuk menangani format string dengan benar di badan JSON, seperti format biner yang kompatibel dengan NVIDIA Triton*.
  • Demo yang menampilkan algoritma RAG lengkap yang sepenuhnya didelegasikan ke server model telah ditambahkan.

Kerangka Kerja Kompresi Jaringan Neural

  • Subgraf model sekarang dapat didefinisikan dalam lingkup yang diabaikan untuk Kuantisasi Pasca Pelatihan INT8, nncf.quantize(), yang menyederhanakan pengecualian lapisan sensitif akurasi dari kuantisasi.
  • Ukuran batch lebih dari 1 sekarang sebagian didukung untuk Kuantisasi Pasca Pelatihan INT8, mempercepat proses. Perhatikan bahwa ini tidak disarankan untuk model berbasis transformator karena dapat memengaruhi akurasi. Berikut adalah contoh demo.
  • Sekarang dimungkinkan untuk menerapkan fine-tuning pada model INT8 setelah Kuantisasi Pasca-pelatihan untuk meningkatkan akurasi model dan membuatnya lebih mudah untuk beralih dari kuantisasi pasca-pelatihan ke kuantisasi pelatihan-aware. Berikut adalah contoh demo.

OpenVINO Tokenizer

  • Dukungan TensorFlow telah diperluas - terjemahan lapisan TextVectorization:
    • Menyelaraskan operasi yang ada dengan operasi TF dan menambahkan penerjemah untuk mereka.
    • Menambahkan ops tensor compang-camping baru dan op string.
  • Jenis tokenizer baru, RWKV sekarang didukung:
    • Menambahkan tokenizer Trie dan Fuse op untuk tensor compang-camping.
    • Cara baru untuk mendapatkan OV Tokenizers: membangun kosakata dari file.
  • Caching tokenizer telah didesain ulang untuk bekerja dengan mekanisme caching model OpenVINO™.

Perubahan Lain dan Masalah yang Diketahui

Jupyter Buku Catatan

Cabang default untuk repositori OpenVINO™ Notebooks telah diubah dari 'utama' menjadi 'terbaru'. Cabang 'utama' dari repositori notebook sekarang tidak digunakan lagi dan akan dipertahankan hingga 30 September 2024.

Cabang baru, 'terbaru', menawarkan pengalaman pengguna yang lebih baik dan menyederhanakan pemeliharaan karena refactoring yang signifikan dan struktur penamaan direktori yang ditingkatkan.

Gunakan file README.md lokal dan OpenVINO™ Buku Catatan di GitHub Pages untuk menavigasi konten.

Buku catatan berikut ini telah diperbarui atau baru ditambahkan:

Masalah yang Diketahui

Komponen - Plugin CPU

ID - N/A

Deskripsi:

Kebijakan penyematan CPU default pada Windows telah diubah untuk mengikuti kebijakan Windows alih-alih mengontrol penyematan CPU di plugin OpenVINO. Ini membawa varians dinamis atau kinerja tertentu pada Windows. Pengembang dapat menggunakan ov::hint::enable_cpu_pinning untuk mengaktifkan atau menonaktifkan penyematan CPU secara eksplisit.

Komponen - Konfigurasi Perangkat Keras

ID - N/A

Deskripsi:

Penurunan performa LLM dapat diamati pada CPU yang lebih baru. Untuk mengurangi, ubah pengaturan default di BIOS untuk mengubah sistem menjadi 2 sistem node NUMA:

1. Masuk ke menu konfigurasi BIOS.

2. Pilih Menu EDKII -> Socket Configuration -> Uncore Configuration -> Uncore General Configuration -> SNC.

3. Pengaturan SNC diatur ke AUTO secara default. Ubah pengaturan SNC ke nonaktif untuk mengonfigurasi satu node NUMA per soket prosesor saat boot.

4. Setelah reboot sistem, konfirmasikan pengaturan node NUMA menggunakan: numatcl -H. Berharap untuk melihat hanya node 0 dan 1 pada

Sistem 2 soket dengan pemetaan sebagai berikut:

Simpul - 0 - 1

0 - 10 - 21

1 - 21 - 10

Persyaratan Sistem

Disclaimer. Perangkat keras tertentu (termasuk namun tidak terbatas pada GPU dan NPU) memerlukan instalasi manual driver tertentu dan/atau komponen perangkat lunak lainnya agar berfungsi dengan benar dan/atau memanfaatkan kemampuan perangkat keras sebaik mungkin. Ini mungkin memerlukan pembaruan untuk sistem operasi, termasuk namun tidak terbatas pada kernel Linux, silakan lihat dokumentasi mereka untuk detailnya. Modifikasi ini harus ditangani oleh pengguna dan bukan merupakan bagian dari instalasi OpenVINO. Modifikasi ini harus ditangani oleh pengguna dan bukan merupakan bagian dari instalasi OpenVINO. Untuk persyaratan sistem, periksa bagian Persyaratan Sistem di Catatan Rilis.

Instruksi instalasi

Anda dapat memilih cara menginstal OpenVINO™ Runtime sesuai dengan sistem operasi Anda:

Yang disertakan dalam paket unduhan

  • Mesin Runtime/Inferensi OpenVINO™ untuk C/C++

Tautan Bermanfaat

CATATAN: Link terbuka di jendela baru.

Unduhan ini valid untuk produk yang tercantum di bawah ini.

Isi halaman ini adalah kombinasi terjemahan manusia dan komputer dari konten berbahasa Inggris. Konten ini diberikan hanya untuk kenyamanan Anda serta sebagai informasi umum dan tidak bisa dianggap sebagai lengkap atau akurat. Jika terdapat kontradiksi antara versi bahasa Inggris halaman ini dan terjemahannya, versi bahasa Inggris akan didahulukan. Lihat versi bahasa Inggris halaman ini.