Menjalankan Kueri Databricks dalam Waktu Yang Lebih Singkat hingga 76% dan Mengurangi Biaya dengan Instans Amazon® R5d yang Dilengkapi Prosesor Intel® Xeon® yang Dapat Diskalakan Generasi ke-2

Trik data:

  • Jalankan Kueri Dukungan Keputusan dalam Waktu Lebih Singkat hingga 76% dengan instans r5d.2xlarge yang menampilkan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2 dengan Photon diaktifkan.

  • Menghabiskan Hingga 51% Lebih Sedikit untuk Menjalankan Kueri Dukungan Keputusan dengan instans r5d.2xlarge yang menampilkan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2 dengan Photon diaktifkan.

author-image

Oleh

Dengan Photon Vectorized Query Engine Diaktifkan, Instans Ini Mengungguli Instans r5a.2xlarge yang Secara Dramatis Dilengkapi Prosesor AMD EPYC™ pada Beban Kerja Dukungan Keputusan dan Memberikan Nilai yang Lebih Baik

Banyak organisasi mengandalkan Platform Databricks Lakehouse untuk menyimpan dan menganalisis data, baik terstruktur maupun tidak terstruktur. Untuk menjalankan kueri dukungan keputusan Anda dengan cepat, penting untuk memilih instans cloud yang didukung oleh perangkat keras yang canggih. Tetapi menentukan contoh mana yang memenuhi kriteria ini dapat menjadi tantangan.

Kami melakukan pengujian untuk membantu perusahaan yang berbelanja instans cloud untuk beban kerja dukungan keputusan mereka. Secara khusus, kami melihat seri instans AWS: Instans R5d yang diaktifkan oleh prosesor Intel® Xeon® Generasi ke-2 yang Dapat Diskalakan dan instans R5a dengan prosesor AMD EPYC. Kami membuat klaster Databricks Runtime 9.0 dari dua jenis instans ini untuk menjalankan beban kerja dukungan keputusan. Pada klaster R5d, kami menggunakan VM yang mengaktifkan mesin kueri vektorisasi yang disebut Photon yang dirancang untuk meningkatkan performa kueri SQL. Pada saat pengujian ini, mesin Foton Databricks tidak didukung pada instans R5a.

Instans R5d Menyelesaikan Beban Kerja Dukungan Keputusan dalam Waktu yang Lebih Singkat

Kami menguji dua instans AWS dengan benchmark dukungan keputusan yang menghasilkan skor yang lebih rendah dan lebih baik yang mencerminkan jumlah waktu yang diperlukan untuk menjalankan serangkaian kueri tertentu. Memilih instans yang membutuhkan waktu lebih sedikit dapat membantu perusahaan Anda dengan dua cara: pertama, dengan mendapatkan informasi berharga lebih cepat dan kedua, mengurangi uptime instans dan biaya terkait, yang dapat membantu Anda menghabiskan lebih sedikit. Seperti yang ditunjukkan pada Gambar 1, instans r5d.2xlarge dengan prosesor Intel Xeon yang DapatDiskalakan Generasi ke-2 dan Photon memungkinkan kueri yang diselesaikan pada kumpulan data 1 TB dalam waktu 74% lebih singkat dibandingkan instans r5a.2xlarge dengan prosesor AMD EPYC. Dengan rangkaian data 10 TB, waktu penyelesaian kueri klaster r5d.2xlarge 76% lebih singkat dibandingkan klaster r5a.2xlarge.

Gambar 1. Waktu pemrosesan relatif untuk menyelesaikan serangkaian kueri benchmark pada klaster instans r5d.2xlarge yang didukung Photon dengan prosesorIntel Xeon Generasi ke-2 yang Dapat Diskalakan dan klaster r5a.2xlarge dengan prosesor AMD EPYC pada rangkaian data 1 TB dan 10 TB.

Bagaimana Waktu Kueri yang Lebih Singkat Dapat Membantu Garis Bawah Anda

Seperti halnya dengan sumber daya di mana perusahaan Anda berinvestasi, mendapatkan nilai yang baik untuk dolar Anda adalah prioritas. Kami menghitung berapa biaya yang diperlukan perusahaan untuk melakukan skenario pengujian yang kami diskusikan di halaman sebelumnya. Kami menggunakan harga per jam untuk setiap instans, penyimpanan, dan DPU Databricks pada saat pengujian bersamaan dengan waktu di Gambar 1 untuk menentukan harga per TB untuk keempat skenario. Seperti yang ditunjukkan pada Gambar 2, perusahaan akan menghabiskan lebih sedikit jika menjalankan beban kerja dukungan keputusan pada instans r5d.2xlarge yang didukung Foton. Untuk kumpulan data 1 TB, klaster r5d.2xlarge yang didukung oleh prosesor Intel® Xeon® yang Dapat Diskalakan Generasi ke-2 dapat memberikan harga/performa lebih rendah 46% dibandingkan klaster r5a.2xlarge dengan prosesor AMD EPYC. Untuk kumpulan data 10 TB, klaster r5d.2xlarge yang didukung Photon akan mengurangi biaya harga/performa sebesar 51%.

Gambar 2. Harga/performa yang dinormalkan untuk menjalankan beban kerja dukungan keputusan terhadap lingkungan Databricks pada instans Amazon r5d.2xlarge yang didukung Foton dibandingkan instans r5a.2xlarge pada kumpulan data 1 TB dan 10 TB.

Kesimpulan

Kami mengukur waktu untuk menyelesaikan serangkaian kueri Databricks untuk dua ukuran rangkaian data yang berbeda pada instans AWS r5d.2xlarge yang didukung Foton yang menampilkan prosesor Intel Xeon Generasi ke-2 yang Dapat Diskalakan dan instans r5a.2xlarge dengan prosesor AMD EPYC. Instans r5d.2xlarge menyelesaikan serangkaian kueri dalam waktu hingga 76%. Ketika kami menggabungkan waktu ini dengan harga per jam untuk dua instans, kami menemukan bahwa instans r5d.2xlarge memerlukan biaya yang jauh lebih murah untuk melaksanakan jumlah kerja yang sama—penghematan biaya hingga 51%. Jika perusahaan Anda ingin mendapatkan wawasan yang dapat ditindaklanjuti sebelumnya dan mengurangi pengeluaran untuk instans AWS, pilih instans r5d.2xlarge yang didukung Foton yang menampilkan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2.

Pelajari lebih lanjut

Untuk mulai menjalankan klaster Databricks Anda pada instans Amazon R5d yang didukung Foton dengan prosesor Intel Xeon yang Dapat Diskalakan Generasi ke-2, kunjungi https://aws.amazon.com/quickstart/architecture/databricks/.

Untuk mempelajari lebih lanjut tentang Mesin Kueri Photon Vectorized Databricks, kunjungi https://databricks.com/product/photon dan https://docs.databricks.com/runtime/photon.html.

Untuk semua hasil dalam laporan ini, kami menggunakan beban kerja dukungan keputusan yang berasal dari TPC-DS. Semua pengujian dilakukan pada Desember 2021 di wilayah AWS US-east-1. Semua pengujian menggunakan klaster 20-node dengan Ubuntu 18.04.1, kernel versi 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12. Kedua jenis instans memiliki 8 vCPU dan RAM 64 GB. r5d.2xlarge memiliki SSD NVMe 300 GB, Jaringan BW 10 Gbps, dan Penyimpanan BW 4.750 Mbps. Instans r5a.2xlarge memiliki volume EBS 250 GB, Jaringan BW 10 Gbps, dan Penyimpanan 2.880 Mbps BW.

Isi halaman ini adalah kombinasi terjemahan manusia dan komputer dari konten berbahasa Inggris. Konten ini diberikan hanya untuk kenyamanan Anda serta sebagai informasi umum dan tidak bisa dianggap sebagai lengkap atau akurat. Jika terdapat kontradiksi antara versi bahasa Inggris halaman ini dan terjemahannya, versi bahasa Inggris akan didahulukan. Lihat versi bahasa Inggris halaman ini.