Akselerasi RAG dan Kesuksesan AI Generatif Anda
Penerapan model bahasa besar (LLM), seperti chatbot, memberikan manfaat besar di seluruh industri. Organisasi menggunakan LLM untuk mengurangi biaya operasional, meningkatkan produktivitas karyawan, dan menghadirkan pengalaman pelanggan yang lebih dipersonalisasi.
Saat organisasi seperti organisasi Anda berlomba untuk mengubah teknologi revolusioner ini menjadi keunggulan kompetitif, sebagian besar organisasi harus menyesuaikan LLM siap pakai dengan data organisasi mereka sehingga model dapat menghadirkan hasil AI spesifik bisnis. Namun, investasi biaya dan waktu yang diperlukan untuk melakukan menyempurnakan model dapat menjadi hambatan besar yang menghalangi banyak calon inovator.
Untuk mengatasi hambatan ini, retrieval-augmented generation (RAG) menawarkan pendekatan yang lebih hemat biaya untuk kustomisasi LLM. Dengan mengizinkan Anda mendasarkan model pada data eksklusif Anda tanpa melakukan penyempurnaan, RAG dapat membantu Anda secara cepat meluncurkan aplikasi LLM yang disesuaikan dengan bisnis atau pelanggan Anda. Alih-alih memerlukan pelatihan ulang atau penyempurnaan, pendekatan RAG memungkinkan Anda menghubungkan LLM siap pakai ke basis pengetahuan eksternal yang telah dikurasi yang dibangun berdasarkan data eksklusif organisasi Anda yang khas. Basis pengetahuan ini memberikan konteks dan informasi spesifik organisasi kepada output model.
Dalam artikel ini, Anda akan mempelajari cara menyiapkan komponen utama implementasi RAG, mulai dari memilih landasan perangkat keras dan perangkat lunak hingga membangun basis pengetahuan serta mengoptimalkan aplikasi dalam produksi. Kami juga akan membagikan alat dan sumber daya yang dapat membantu Anda mendapatkan daya dan efisiensi maksimal dari setiap fase alur.
Kapan RAG Menjadi Pendekatan yang Tepat?
Sebelum mulai mengevaluasi blok pembangun alur, penting untuk mempertimbangkan apakah RAG atau melakukan penyempurnaan merupakan pilihan terbaik untuk aplikasi LLM Anda.
Kedua pendekatan tersebut dimulai dengan LLM dasar yang menawarkan jalur lebih pendek untuk mencapai LLM yang dikustomisasi dibandingkan dengan melatih model dari awal. Model dasar telah dilatih sebelumnya dan tidak memerlukan akses ke set data masif, tim pakar data, atau daya komputasi tambahan untuk pelatihan.
Namun, setelah memilih model dasar, Anda masih perlu menyesuaikannya dengan bisnis Anda, sehingga model dapat menghadirkan hasil yang menjawab tantangan dan kebutuhan Anda. RAG sangat sesuai untuk aplikasi LLM jika Anda tidak memiliki waktu atau anggaran untuk berinvestasi dalam melakukan penyempurnaan. RAG juga mengurangi risiko halusinasi, dapat memberikan sumber untuk outputnya untuk meningkatkan penjelasan, dan menawarkan manfaat keamanan karena informasi sensitif dapat disimpan dengan aman di basis data pribadi.
Pelajari lebih lanjut tentang manfaat yang dapat diberikan RAG untuk inisiatif AI generatif Anda
Pilih Perangkat Keras yang Memprioritaskan Performa dan Keamanan
Alur RAG mencakup banyak komponen intensif komputasi, dan pengguna akhir mengharapkan respons dengan latensi rendah. Hal ini membuat pemilihan platform komputasi menjadi salah satu keputusan paling penting saat Anda berusaha mendukung alur secara keseluruhan.
Prosesor Intel® Xeon® memungkinkan Anda mendukung dan mengelola alur RAG secara lengkap pada satu platform, sehingga menyederhanakan pengembangan, penerapan, dan pemeliharaan. Prosesor Intel® Xeon® dilengkapi mesin AI terintegrasi untuk mengakselerasi operasi utama di seluruh alur—termasuk mengambil, menyerap data, dan inferensi AI—pada CPU tanpa memerlukan perangkat keras tambahan.
Untuk aplikasi RAG yang memerlukan throughput paling tinggi atau latensi paling rendah, Anda dapat mengintegrasikan akselerator AI Intel® Gaudi® untuk memenuhi tuntutan performa tinggi dengan biaya yang rendah. Akselerator Intel® Gaudi® dibuat dengan tujuan khusus untuk mengakselerasi inferensi dan bahkan dapat menggantikan CPU serta akselerator lainnya untuk inferensi RAG.
Karena organisasi sering menggunakan RAG ketika bekerja dengan data rahasia, mengamankan alur Anda selama pengembangan dan dalam produksi menjadi hal yang sangat penting. Prosesor Intel® Xeon® menggunakan teknologi keamanan bawaan—Intel® Software Guard Extensions (Intel® SGX) dan Intel® Trust Domain Extensions (Intel® TDX) —untuk mendukung pemrosesan AI yang aman di seluruh alur melalui enkripsi data dan komputasi rahasia.
Setelah diterapkan, aplikasi Anda mungkin mengalami peningkatan latensi karena naiknya tuntutan pengguna akhir. Perangkat keras Intel® sangat dapat diskalakan, sehingga Anda dapat dengan cepat menambahkan sumber daya infrastruktur untuk memenuhi penggunaan yang semakin meningkat. Anda juga dapat mengintegrasikan optimasi untuk mendukung operasi penting di seluruh alur, seperti vektorisasi data, pencarian vektor, dan inferensi LLM.
Anda dapat menguji performa RAG pada prosesor AI Intel® Gaudi® dan Intel® Xeon® melalui Intel® Tiber™ Developer Cloud
Gunakan Kerangka Kerja RAG untuk Mengintegrasikan Toolchain AI dengan Mudah
Untuk menghubungkan banyak komponen, alur RAG menggabungkan beberapa toolchain AI untuk penyerapan data, database vektor, LLM, dan banyak lagi.
Saat Anda mulai mengembangkan aplikasi RAG, kerangka kerja RAG terintegrasi seperti LangChain, fastRAG dari Intel Lab, dan LlamaIndex dapat menyederhanakan pengembangan. Kerangka kerja RAG sering kali memberikan API untuk mengintegrasikan toolchain AI di seluruh alur dengan lancar dan menawarkan solusi berbasis templat untuk kasus penggunaan sebenarnya.
Intel menawarkan optimasi untuk membantu memaksimalkan performa alur keseluruhan pada perangkat keras Intel®. Misalnya, fastRAG mengintegrasikan Intel® Extension untuk PyTorch dan Optimum Habana untuk mengoptimalkan aplikasi RAG pada prosesor Intel® Xeon® dan akselerator Intel® Gaudi® AI.
Intel juga telah berkontribusi dalam optimasi terhadap LangChain untuk meningkatkan performa pada perangkat keras Intel®. Temukan cara untuk dapat dengan mudah menyiapkan alur kerja ini menggunakan akselerator AI LangChain dan Intel® Gaudi® 2
Bangun Basis Pengetahuan Anda
RAG memungkinkan organisasi memberikan informasi eksklusif yang penting tentang bisnis dan pelanggan kepada LLM. Data ini disimpan dalam database vektor yang dapat Anda bangun sendiri.
Identifikasi Sumber Informasi
Bayangkan menggunakan RAG untuk menerapkan asisten pribadi AI yang dapat membantu menjawab pertanyaan karyawan tentang organisasi Anda. Anda dapat memasukkan data penting seperti informasi produk, kebijakan perusahaan, data pelanggan, dan protokol spesifik departemen kepada LLM. Karyawan dapat bertanya ke chatbot yang didukung RAG dan mendapatkan jawaban spesifik organisasi, sehingga membantu karyawan menyelesaikan tugas dengan lebih cepat, dan memberdayakan mereka untuk fokus pada pemikiran strategis.
Tentu saja, basis pengetahuan akan berbeda di berbagai industri dan aplikasi. Perusahaan farmasi mungkin akan menggunakan arsip hasil pengujian dan riwayat pasien. Produsen dapat memberikan informasi spesifikasi peralatan dan data performa historis ke lengan robot berbasis RAG sehingga dapat mendeteksi potensi masalah peralatan sejak dini. Institusi keuangan mungkin akan menghubungkan LLM ke strategi keuangan eksklusif dan tren pasar real-time agar chatbot dapat memberikan saran keuangan yang dipersonalisasi.
Pada akhirnya, untuk membangun basis pengetahuan, Anda harus mengumpulkan data penting yang akan diakses LLM. Data ini dapat berasal dari berbagai sumber berbasis teks, yang mencakup PDF, transkrip video, email, slide presentasi, dan bahkan data tabular dari berbagai sumber seperti halaman Wikipedia dan spreadsheet. RAG juga mendukung solusi AI multimodal, yang menggabungkan beberapa model AI untuk memproses data dari segala modalitas, termasuk suara, gambar, dan video.
Misalnya, peritel dapat menggunakan solusi RAG multimodal untuk mencari kejadian penting pada rekaman kamera pengawas dengan cepat. Untuk melakukan hal ini, peritel harus membuat database rekaman video dan menggunakan perintah teks—seperti “seseorang meletakkan sesuatu di sakunya”—untuk mengidentifikasi klip yang relevan tanpa harus mencari ratusan jam video secara manual.
Siapkan Data Anda
Guna mempersiapkan data agar pemrosesan lebih efisien, Anda terlebih dahulu harus membersihkan data, seperti menghapus informasi ganda atau noise, dan memecahnya menjadi potongan yang mudah dikelola. Anda dapat membaca lebih banyak tips untuk membersihkan data di sini
Selanjutnya, Anda harus menggunakan kerangka kerja AI yang disebut model penyematan (embedding model) untuk mengonversi data menjadi vektor, atau representasi matematika dari teks yang dapat membantu model memahami konteks yang lebih luas. Model penyematan dapat diunduh dari pihak ketiga—seperti yang ditampilkan di papan peringkat model penyematan sumber terbuka Hugging Face—dan sering kali dapat diintegrasikan dengan mudah ke kerangka kerja RAG Anda melalui API Hugging Face. Setelah vektorisasi, Anda dapat menyimpan data di database vektor agar dapat diambil secara efisien oleh model.
Tergantung pada volume dan kompleksitas data, pemrosesan data dan pembuatan penyematan dapat sama intensifnya dengan inferensi LLM secara komputasi. Prosesor Intel® Xeon® dapat secara efektif menangani semua penyerapan, penyematan, dan pembuatan vektor data pada node berbasis CPU tanpa memerlukan perangkat keras tambahan.
Selain itu, prosesor Intel® Xeon® dapat dipasangkan dengan model penyematan yang terkuantisasi untuk mengoptimalkan proses vektorisasi, meningkatkan throughput encoding hingga 4x dibandingkan dengan model yang tidak terkuantisasi1.
Optimalkan Kueri dan Pengambilan Konteks
Ketika pengguna mengirimkan kueri ke model berbasis RAG, mekanisme pengambil mencari data eksternal yang relevan di basis pengetahuan untuk memperkaya output akhir LLM. Proses ini bergantung pada operasi pencarian vektor untuk menemukan dan mengurutkan informasi yang paling relevan.
Operasi pencarian vektor sangat dioptimalkan pada prosesor Intel® Xeon®. Intel® Advanced Vector Extensions 512 (Intel® AVX-512) yang tertanam dalam prosesor Intel® Xeon® meningkatkan operasi penting dalam pencarian vektor dan mengurangi jumlah instruksi, sehingga menghadirkan peningkatan throughput dan performa yang signifikan.
Anda juga dapat memanfaatkan solusi Pencarian Vektor yang Dapat Diskalakan/Scalable Vector Search (SVS) dari Intel Lab untuk meningkatkan performa database vektor. SVS mengoptimalkan kemampuan pencarian vektor pada CPU Intel® Xeon® untuk meningkatkan waktu pengambilan dan performa alur secara keseluruhan.
Optimalkan Pembuatan Respons LLM
Setelah dilengkapi dengan data tambahan dari database vektor, LLM dapat membuat respons yang akurat secara kontekstual. Hal ini melibatkan inferensi LLM, yang umumnya secara komputasi merupakan fase yang paling berat dari alur RAG.
Prosesor Intel® Xeon® menggunakan Intel® Advanced Matrix Extensions (Intel® AMX), yaitu akselerator AI bawaan, agar operasi matriks dan pengelolaan memori yang ditingkatkan menjadi lebih efisien, sehingga membantu memaksimalkan performa inferensi. Untuk LLM berukuran sedang dan besar, gunakan akselerator AI Intel® Gaudi® untuk mengakselerasi inferensi dengan performa dan efisiensi AI yang dibuat dengan tujuan khusus.
Intel juga menawarkan beberapa pustaka optimasi untuk membantu Anda memaksimalkan inferensi LLM pada sumber daya perangkat keras Anda. Pustaka Intel® oneAPI memberikan optimasi tingkat rendah untuk kerangka kerja AI populer, seperti PyTorch dan TensorFlow, yang memungkinkan Anda menggunakan alat sumber terbuka yang sudah dikenal yang dioptimalkan pada perangkat keras Intel®. Anda juga dapat menambahkan ekstensi seperti Intel® Extension for PyTorch agar memungkinkan teknik inferensi terkuantisasi tingkat lanjut untuk meningkatkan performa secara keseluruhan.
Setelah aplikasi diproduksi, Anda mungkin ingin meng-upgrade ke LLM terbaru agar dapat memenuhi permintaan pengguna akhir. Karena RAG tidak melibatkan proses penyempurnaan dan basis pengetahuan Anda berada di luar model, RAG memungkinkan Anda dengan cepat mengganti LLM dengan model baru untuk mendukung inferensi yang lebih cepat.
Akselerasi Perjalanan RAG Anda dengan Intel
RAG dapat membantu Anda menerapkan aplikasi LLM yang dikustomisasi secara cepat dan hemat biaya tanpa perlu melakukan penyempurnaan. Dengan blok pembangun yang tepat, Anda dapat membuat alur RAG yang dioptimalkan hanya dalam beberapa langkah.
Saat mencoba mewujudkan inisiatif AI, pastikan untuk memanfaatkan Intel® AI portfolio untuk menyempurnakan setiap fase alur RAG. Solusi perangkat keras dan perangkat lunak kami dibuat untuk mengakselerasi kesuksesan Anda.
Intel Tiber™ Developer Cloud
Jelajahi dan dapatkan pengalaman langsung dengan teknologi Intel® utama untuk RAG.
Membangun Blok RAG dengan Intel
Pelajari lebih lanjut tentang optimasi Intel di seluruh alur RAG.
Tutorial Developer: RAG pada Intel® Gaudi® 2
Dapatkan panduan langkah demi langkah dengan contoh kode untuk menerapkan aplikasi RAG pada prosesor AI Intel® Gaudi® 2.