Dengan Photon Vectorized Query Engine Diaktifkan, Instans Ini Mengungguli Instans r5a.2xlarge yang Secara Dramatis Dilengkapi Prosesor AMD EPYC™ pada Beban Kerja Dukungan Keputusan dan Memberikan Nilai yang Lebih Baik
Banyak organisasi mengandalkan Platform Databricks Lakehouse untuk menyimpan dan menganalisis data, baik terstruktur maupun tidak terstruktur. Untuk menjalankan kueri dukungan keputusan Anda dengan cepat, penting untuk memilih instans cloud yang didukung oleh perangkat keras yang canggih. Tetapi menentukan contoh mana yang memenuhi kriteria ini dapat menjadi tantangan.
Kami melakukan pengujian untuk membantu perusahaan yang berbelanja instans cloud untuk beban kerja dukungan keputusan mereka. Secara khusus, kami melihat seri instans AWS: Instans R5d yang diaktifkan oleh prosesor Intel® Xeon® Generasi ke-2 yang Dapat Diskalakan dan instans R5a dengan prosesor AMD EPYC. Kami membuat klaster Databricks Runtime 9.0 dari dua jenis instans ini untuk menjalankan beban kerja dukungan keputusan. Pada klaster R5d, kami menggunakan VM yang mengaktifkan mesin kueri vektorisasi yang disebut Photon yang dirancang untuk meningkatkan performa kueri SQL. Pada saat pengujian ini, mesin Foton Databricks tidak didukung pada instans R5a.
Instans R5d Menyelesaikan Beban Kerja Dukungan Keputusan dalam Waktu yang Lebih Singkat
Kami menguji dua instans AWS dengan benchmark dukungan keputusan yang menghasilkan skor yang lebih rendah dan lebih baik yang mencerminkan jumlah waktu yang diperlukan untuk menjalankan serangkaian kueri tertentu. Memilih instans yang membutuhkan waktu lebih sedikit dapat membantu perusahaan Anda dengan dua cara: pertama, dengan mendapatkan informasi berharga lebih cepat dan kedua, mengurangi uptime instans dan biaya terkait, yang dapat membantu Anda menghabiskan lebih sedikit. Seperti yang ditunjukkan pada Gambar 1, instans r5d.2xlarge dengan prosesor Intel Xeon yang DapatDiskalakan Generasi ke-2 dan Photon memungkinkan kueri yang diselesaikan pada kumpulan data 1 TB dalam waktu 74% lebih singkat dibandingkan instans r5a.2xlarge dengan prosesor AMD EPYC. Dengan rangkaian data 10 TB, waktu penyelesaian kueri klaster r5d.2xlarge 76% lebih singkat dibandingkan klaster r5a.2xlarge.
Bagaimana Waktu Kueri yang Lebih Singkat Dapat Membantu Garis Bawah Anda
Seperti halnya dengan sumber daya di mana perusahaan Anda berinvestasi, mendapatkan nilai yang baik untuk dolar Anda adalah prioritas. Kami menghitung berapa biaya yang diperlukan perusahaan untuk melakukan skenario pengujian yang kami diskusikan di halaman sebelumnya. Kami menggunakan harga per jam untuk setiap instans, penyimpanan, dan DPU Databricks pada saat pengujian bersamaan dengan waktu di Gambar 1 untuk menentukan harga per TB untuk keempat skenario. Seperti yang ditunjukkan pada Gambar 2, perusahaan akan menghabiskan lebih sedikit jika menjalankan beban kerja dukungan keputusan pada instans r5d.2xlarge yang didukung Foton. Untuk kumpulan data 1 TB, klaster r5d.2xlarge yang didukung oleh prosesor Intel® Xeon® yang Dapat Diskalakan Generasi ke-2 dapat memberikan harga/performa lebih rendah 46% dibandingkan klaster r5a.2xlarge dengan prosesor AMD EPYC. Untuk kumpulan data 10 TB, klaster r5d.2xlarge yang didukung Photon akan mengurangi biaya harga/performa sebesar 51%.
Kesimpulan
Kami mengukur waktu untuk menyelesaikan serangkaian kueri Databricks untuk dua ukuran rangkaian data yang berbeda pada instans AWS r5d.2xlarge yang didukung Foton yang menampilkan prosesor Intel Xeon Generasi ke-2 yang Dapat Diskalakan dan instans r5a.2xlarge dengan prosesor AMD EPYC. Instans r5d.2xlarge menyelesaikan serangkaian kueri dalam waktu hingga 76%. Ketika kami menggabungkan waktu ini dengan harga per jam untuk dua instans, kami menemukan bahwa instans r5d.2xlarge memerlukan biaya yang jauh lebih murah untuk melaksanakan jumlah kerja yang sama—penghematan biaya hingga 51%. Jika perusahaan Anda ingin mendapatkan wawasan yang dapat ditindaklanjuti sebelumnya dan mengurangi pengeluaran untuk instans AWS, pilih instans r5d.2xlarge yang didukung Foton yang menampilkan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2.
Pelajari lebih lanjut
Untuk mulai menjalankan klaster Databricks Anda pada instans Amazon R5d yang didukung Foton dengan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2, kunjungi https://aws.amazon.com/quickstart/architecture/databricks/.
Untuk mempelajari lebih lanjut tentang Mesin Kueri Photon Vectorized Databricks, kunjungi https://databricks.com/product/photon dan https://docs.databricks.com/runtime/photon.html.
Untuk semua hasil dalam laporan ini, kami menggunakan beban kerja dukungan keputusan yang berasal dari TPC-DS. Semua pengujian dilakukan pada Desember 2021 di wilayah AWS US-east-1. Semua pengujian menggunakan klaster 20-node dengan Ubuntu 18.04.1, kernel versi 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Kedua jenis instans memiliki 8 vCPU dan RAM 64 GB. r5d.2xlarge memiliki SSD NVMe 300 GB, Jaringan BW 10 Gbps, dan Penyimpanan BW 4.750 Mbps. Instans r5a.2xlarge memiliki volume EBS 250 GB, Jaringan BW 10 Gbps, dan Penyimpanan 2.880 Mbps BW.