Akselerasi RAG dan Kesuksesan AI Generatif Anda
Aplikasi berbasis model bahasa besar (LLM), seperti bot percakapan, menghadirkan manfaat yang luar biasa di seluruh industri. Organisasi menggunakan LLM untuk mengurangi biaya operasional, meningkatkan produktivitas karyawan, dan menghadirkan pengalaman pelanggan yang lebih dipersonalisasi.
Saat organisasi seperti Anda berlomba untuk mengubah teknologi revolusioner ini menjadi keunggulan kompetitif, sebagian besar di antaranya harus menyesuaikan LLM siap pakai dengan data organisasi mereka agar model dapat menghadirkan hasil AI yang spesifik untuk bisnis. Namun, investasi biaya dan waktu yang diperlukan untuk melakukan penyempurnaan model dapat menjadi hambatan besar yang menahan banyak calon inovator.
Untuk mengatasi hambatan ini, generasi yang diperkaya pengambilan (RAG) menawarkan pendekatan yang lebih hemat biaya untuk penyesuaian LLM. Dengan memungkinkan Anda mendasarkan model pada data milik Anda tanpa melakukan penyempurnaan, RAG dapat membantu Anda secara cepat meluncurkan aplikasi LLM yang disesuaikan dengan bisnis atau pelanggan Anda. Alih-alih mengharuskan pelatihan ulang atau penyempurnaan, pendekatan RAG memungkinkan Anda menghubungkan LLM siap pakai ke basis pengetahuan eksternal yang telah dikurasi yang dibangun berdasarkan data eksklusif milik organisasi Anda yang unik. Basis pengetahuan ini memberikan konteks dan informasi spesifik organisasi untuk digunakan dalam output model.
Dalam artikel ini, Anda akan mempelajari cara menyiapkan komponen utama implementasi RAG, mulai dari memilih landasan perangkat keras dan perangkat lunak hingga membangun basis pengetahuan serta mengoptimalkan aplikasi dalam produksi. Kami juga akan membagikan alat dan sumber daya yang dapat membantu Anda mendapatkan performa dan efisiensi maksimal dari setiap fase alur.
Kapan RAG Menjadi Pendekatan yang Tepat?
Sebelum mulai mengevaluasi blok pembangun alur, penting untuk mempertimbangkan apakah RAG atau penyempurnaan yang menjadi pilihan terbaik untuk aplikasi LLM Anda.
Kedua pendekatan tersebut dimulai dengan LLM fondasi yang menawarkan jalur lebih pendek untuk mencapai LLM yang disesuaikan dibandingkan dengan melatih model dari awal. Model fondasi sudah dilatih sebelumnya dan tidak memerlukan akses ke kumpulan data masif, tim pakar data, atau daya komputasi tambahan untuk pelatihan.
Namun, setelah memilih model fondasi, Anda masih perlu menyesuaikannya dengan bisnis Anda, sehingga model dapat menghadirkan hasil yang menjawab tantangan dan kebutuhan Anda. RAG sangat sesuai untuk aplikasi LLM jika Anda tidak memiliki waktu atau anggaran untuk berinvestasi dalam melakukan penyempurnaan. RAG juga mengurangi risiko halusinasi, dapat mencantumkan sumber dalam outputnya untuk meningkatkan keterjelasan, dan menawarkan manfaat keamanan karena informasi sensitif dapat disimpan dengan aman dalam basis data pribadi.
Pelajari lebih lanjut tentang manfaat yang ditawarkan RAG untuk inisiatif AI generatif Anda.
Pilih Perangkat Keras yang Memprioritaskan Performa dan Keamanan
Alur RAG mencakup banyak komponen intensif komputasi, dan pengguna akhir mengharapkan respons dengan latensi rendah. Hal ini membuat pemilihan platform komputasi menjadi salah satu keputusan paling penting saat Anda berusaha mendukung alur secara keseluruhan.
Prosesor Intel® Xeon® memungkinkan Anda mendukung dan mengelola alur RAG secara lengkap dalam satu platform, sehingga menyederhanakan pengembangan, penerapan, dan pemeliharaan. Prosesor Intel® Xeon® dilengkapi mesin AI terintegrasi untuk mengakselerasi operasi utama di seluruh alur—termasuk penyerapan data, pengambilan, dan inferensi AI—pada CPU tanpa memerlukan perangkat keras tambahan.
Untuk aplikasi RAG yang memerlukan throughput paling tinggi atau latensi paling rendah, Anda dapat mengintegrasikan akselerator AI Intel® Gaudi® untuk memenuhi tuntutan performa tinggi secara hemat biaya. Akselerator Intel® Gaudi® dirancang khusus untuk mengakselerasi inferensi dan bahkan dapat menggantikan CPU serta akselerator lainnya untuk inferensi RAG.
Karena organisasi sering menggunakan RAG ketika bekerja dengan data rahasia, mengamankan alur Anda selama pengembangan dan dalam produksi menjadi hal yang sangat penting. Prosesor Intel® Xeon® menggunakan teknologi keamanan bawaan—Intel® Software Guard Extensions (Intel® SGX) dan Intel® Trust Domain Extensions (Intel® TDX)—untuk mendukung pemrosesan AI yang aman di seluruh alur melalui enkripsi data dan komputasi rahasia.
Setelah diterapkan, aplikasi Anda mungkin mengalami peningkatan latensi karena kenaikan permintaan pengguna akhir. Perangkat keras Intel® sangat dapat diskalakan, sehingga Anda dapat dengan cepat menambahkan sumber daya infrastruktur untuk memenuhi penggunaan yang semakin meningkat. Anda juga dapat mengintegrasikan optimasi untuk mendukung operasi penting di seluruh alur, seperti vektorisasi data, pencarian vektor, dan inferensi LLM.
Anda dapat menguji performa RAG pada prosesor AI Intel® Xeon® dan Intel® Gaudi® melalui Intel® Tiber™ Developer Cloud.
Gunakan Kerangka Kerja RAG untuk Mengintegrasikan Rangkaian Alat AI dengan Mudah
Untuk menghubungkan banyak komponen, alur RAG menggabungkan beberapa rangkaian alat AI untuk penyerapan data, basis data vektor, LLM, dan banyak lagi.
Saat Anda mulai mengembangkan aplikasi RAG, kerangka kerja RAG terintegrasi seperti LangChain, fastRAG dari Intel Lab, dan LlamaIndex dapat menyederhanakan pengembangan. Kerangka kerja RAG sering kali menyediakan API untuk mengintegrasikan rangkaian alat AI di seluruh alur dengan lancar dan menawarkan solusi berbasis templat untuk kasus penggunaan dunia nyata.
Intel menawarkan optimasi untuk membantu memaksimalkan performa alur keseluruhan pada perangkat keras Intel®. Misalnya, fastRAG mengintegrasikan Intel® Extension for PyTorch dan Optimum Habana untuk mengoptimalkan aplikasi RAG pada prosesor Intel® Xeon® dan akselerator AI Intel® Gaudi®.
Intel juga telah berkontribusi dalam optimasi untuk LangChain untuk meningkatkan performanya pada perangkat keras Intel®. Temukan cara untuk dapat dengan mudah menyiapkan alur kerja ini menggunakan LangChain dan akselerator AI Intel® Gaudi® 2.
Bangun Basis Pengetahuan Anda
RAG memungkinkan organisasi memberikan informasi milik organisasi yang penting tentang bisnis dan pelanggan kepada LLM. Data ini disimpan dalam basis data vektor yang dapat Anda bangun sendiri.
Identifikasi Sumber Informasi
Bayangkan menggunakan RAG untuk menerapkan asisten pribadi AI yang dapat membantu menjawab pertanyaan karyawan tentang organisasi Anda. Anda dapat memasukkan data penting seperti informasi produk, kebijakan perusahaan, data pelanggan, dan protokol spesifik departemen ke LLM. Karyawan dapat bertanya ke bot percakapan yang didukung RAG dan mendapatkan jawaban spesifik organisasi, sehingga membantu karyawan menyelesaikan tugas dengan lebih cepat, dan memberdayakan mereka untuk fokus pada pemikiran strategis.
Tentu saja, basis pengetahuan akan berbeda di berbagai industri dan aplikasi. Perusahaan farmasi mungkin akan menggunakan arsip hasil pengujian dan riwayat pasien. Produsen manufaktur dapat memberikan informasi spesifikasi peralatan dan data performa historis ke lengan robot berbasis RAG sehingga dapat mendeteksi potensi masalah peralatan sejak dini. Institusi keuangan mungkin akan menghubungkan LLM ke strategi keuangan khusus milik perusahaan dan tren pasar real-time agar bot percakapan dapat memberikan saran keuangan yang dipersonalisasi.
Pada intinya, untuk membangun basis pengetahuan, Anda harus mengumpulkan data penting yang akan diakses LLM. Data ini dapat berasal dari berbagai sumber berbasis teks, yang mencakup PDF, transkrip video, email, slide presentasi, dan bahkan data tabular dari berbagai sumber seperti halaman Wikipedia dan spreadsheet. RAG juga mendukung solusi AI multimodal, yang menggabungkan beberapa model AI untuk memproses beragam jenis data, termasuk suara, gambar, dan video.
Misalnya, peritel dapat menggunakan solusi RAG multimodal untuk mencari kejadian penting pada rekaman kamera pengawas dengan cepat. Untuk melakukannya, peritel harus membuat basis data rekaman video dan menggunakan perintah teks—seperti “seseorang memasukkan sesuatu di sakunya”—untuk mengidentifikasi klip yang relevan tanpa harus mencari ratusan jam video secara manual.
Siapkan Data Anda
Untuk mempersiapkan data agar pemrosesan lebih efisien, Anda terlebih dahulu harus membersihkan data, seperti menghapus informasi ganda atau gangguan, dan memecahnya menjadi potongan yang mudah dikelola. Anda dapat membaca lebih banyak tips untuk membersihkan data di sini.
Selanjutnya, Anda harus menggunakan kerangka kerja AI yang disebut model penyematan (embedding model) untuk mengonversi data menjadi vektor, atau representasi matematis dari teks yang dapat membantu model memahami konteks yang lebih luas. Model penyematan dapat diunduh dari pihak ketiga—seperti yang ditampilkan di papan peringkat model penyematan sumber terbuka Hugging Face—dan sering kali dapat diintegrasikan dengan mudah ke kerangka kerja RAG Anda melalui API Hugging Face. Setelah vektorisasi, Anda dapat menyimpan data di basis data vektor agar dapat diambil secara efisien oleh model.
Tergantung pada volume dan kompleksitas data, komputasi pemrosesan data dan pembuatan penyematan dapat sama intensifnya dengan inferensi LLM. Prosesor Intel® Xeon® dapat secara efektif menangani semua penyerapan, penyematan, dan vektorisasi data pada node berbasis CPU tanpa memerlukan perangkat keras tambahan.
Selain itu, prosesor Intel® Xeon® dapat dipasangkan dengan model penyematan yang terkuantisasi untuk mengoptimalkan proses vektorisasi, meningkatkan throughput encoding hingga 4 kali lipat dibandingkan dengan model yang tidak terkuantisasi1.
Optimalkan Kueri dan Pengambilan Konteks
Ketika pengguna mengirimkan kueri ke model berbasis RAG, mekanisme pengambil mencari data eksternal yang relevan di basis pengetahuan untuk memperkaya output akhir LLM. Proses ini bergantung pada operasi pencarian vektor untuk menemukan dan mengurutkan informasi yang paling relevan.
Operasi pencarian vektor sangat dioptimalkan pada prosesor Intel® Xeon®. Intel® Advanced Vector Extensions 512 (Intel® AVX-512) yang tertanam dalam prosesor Intel® Xeon® meningkatkan operasi penting dalam pencarian vektor dan mengurangi jumlah instruksi, sehingga menghadirkan peningkatan throughput dan performa yang signifikan.
Anda juga dapat memanfaatkan solusi Pencarian Vektor yang Dapat Diskalakan (Scalable Vector Search/SVS) dari Intel Lab untuk meningkatkan performa basis data vektor. SVS mengoptimalkan kemampuan pencarian vektor pada CPU Intel® Xeon® untuk mempersingkat waktu pengambilan dan meningkatkan performa alur secara keseluruhan.
Optimalkan Pembuatan Respons LLM
Setelah diperkaya dengan data tambahan dari penyimpanan vektor, LLM dapat membuat respons yang akurat secara kontekstual. Hal ini melibatkan inferensi LLM, yang umumnya merupakan fase komputasi paling berat dari alur RAG.
Prosesor Intel® Xeon® menggunakan Intel® Advanced Matrix Extensions (Intel® AMX), yakni akselerator AI bawaan, untuk meningkatkan efisiensi operasi matriks dan manajemen memori, sehingga membantu memaksimalkan performa inferensi. Untuk LLM berukuran sedang dan besar, gunakan akselerator AI Intel® Gaudi® untuk mengakselerasi inferensi dengan performa dan efisiensi yang dirancang khusus untuk AI.
Intel juga menawarkan beberapa pustaka optimasi untuk membantu Anda memaksimalkan inferensi LLM pada sumber daya perangkat keras Anda. Pustaka Intel® oneAPI kami memberikan optimasi lapisan bawah untuk kerangka kerja AI populer, seperti PyTorch dan TensorFlow, yang memungkinkan Anda menggunakan alat sumber terbuka yang sudah dikenal yang dioptimalkan pada perangkat keras Intel®. Anda juga dapat menambahkan ekstensi seperti Intel® Extension for PyTorch untuk memungkinkan teknik inferensi terkuantisasi tingkat lanjut untuk meningkatkan performa secara keseluruhan.
Setelah aplikasi berada dalam tahap produksi, Anda mungkin ingin melakukan upgrade ke LLM terbaru agar dapat memenuhi peningkatan permintaan pengguna akhir. Karena RAG tidak melibatkan proses penyempurnaan dan basis pengetahuan Anda berada di luar model, RAG memungkinkan Anda dengan cepat mengganti LLM dengan model baru untuk mendukung inferensi yang lebih cepat.
Akselerasi Perjalanan RAG Anda dengan Intel
RAG dapat membantu Anda menerapkan aplikasi LLM yang disesuaikan secara cepat dan hemat biaya tanpa perlu melakukan penyempurnaan. Dengan blok pembangun yang tepat, Anda dapat membuat alur RAG yang dioptimalkan hanya dalam beberapa langkah.
Dalam upaya Anda mewujudkan inisiatif AI, pastikan untuk memanfaatkan portofolio AI Intel® untuk menyempurnakan setiap fase alur RAG. Solusi perangkat keras dan perangkat lunak kami dibuat untuk mengakselerasi kesuksesan Anda.