SigmaX Menerapkan Solusi Pengelolaan Data Real-Time

SigmaX secara signifikan meningkatkan efisiensi data yang dihasilkan ke broker pusat dengan menggabungkan stack pengelolaan data mereka dengan Intel FPGA dan Open FPGA Stack (OFS).

Ikhtisar

  • SigmaX mengembangkan aliran data end-to-end yang sangat cepat dari konsumsi data ke konsumen, di mana keputusan dapat dibuat mendekati real time.

  • SigmaX memperluas dan mengakselerasi perangkat lunak sumber terbuka Apache menggunakan prosesor Intel® Xeon®, Intel Agilex® FPGA, dan Open FPGA Stack (OFS).

  • SigmaX mencapai latensi yang lebih rendah dan meningkatkan konsumsi data dengan akselerasi berbasis FPGA dibandingkan dengan pendekatan berbasis CPU saja.

author-image

Oleh

Ringkasan Penting

SigmaX menangani tantangan terbaru dalam memecahkan masalah pengelolaan data perusahaan dalam skala besar. Pelanggan mendapatkan manfaat dari solusi pengelolaan data mereka tanpa kewajiban mengunci vendor karena penggunaan perangkat lunak Apache sumber terbuka dan sumber daya pengembangan FPGA seperti Open FPGA Stack (OFS). Solusi SigmaX yang didukung oleh akselerasi FPGA memungkinkan data untuk mengalir dengan kecepatan yang sangat tinggi, memungkinkan pengguna untuk membuat keputusan dalam waktu mendekati real time.

 

  • Solusi alur data SigmaX, yang berbasis pada Apache Pulsar dan Apache Arrow, mengurangi latensi sebesar 100x1
  • Dengan hanya menggunakan Apache Pulsar, benchmark SigmaX meningkat 250% secara instan untuk streaming vs kompetisi yang menggunakan Kafka1
  • Integrasi Apache Pulsar dengan Apache Arrow menghasilkan 20x peningkatan throughput, yang dapat diskalakan ke ribuan node1

Latar Belakang dan Tantangan:

Broker data adalah kumpulan data streaming acara, baik publik, pribadi, atau keduanya, yang berfungsi sebagai langganan. Broker data akan memproses, membersihkan, dan menyusun data yang dipublikasikan serta menyajikan data ke bisnis atau konsumen lain di dalam bisnis. Produsen data mengacu pada sumber akar data, baik itu antarmuka pengguna, layanan, atau perangkat edge dan Internet of Things (IoT). Jutaan produsen data dapat mengirimkan informasi secara bersamaan ke broker data. Konsumen kemudian dapat mengambil data terbaru dari broker data setelah data diproses, dibersihkan, dan disusun. Broker data ini dapat menskalakan hingga ribuan, memproses volume data yang sangat besar secara paralel. Industri seperti 5G, kendaraan otonom, pemeliharaan prediktif, serta platform komputasi edge dan transportasi lainnya harus menangani kumpulan data yang semakin besar ini yang dapat diskalakan ke ribuan broker dan produsen data.

Dalam industri ini, membuat keputusan dengan kecepatan nyata dan bereaksi hampir secara bersamaan sering kali menjadi hal yang penting. Industri kendaraan otonom saja diperkirakan menghasilkan data antara 4 TB hingga 40 TB per jamnya. Di samping permintaan besar dalam pemrosesan data ini, jenis struktur data dan bentuk representasi data baru juga muncul, dengan kemajuan performa yang belum dimanfaatkan dalam CPU, GPU, dan pemrosesan paralel.

Apache Arrow adalah kerangka kerja perangkat lunak agnostik bahasa standar yang umum digunakan untuk meningkatkan kecepatan analisis data dengan membuat format memori kolumnar standar di semua wall-clock savings sebesar 80%. Hal ini sering digunakan dalam konteks dengan kumpulan data besar yang dihasilkan oleh sensor di edge, IoT, dan aplikasi berskala besar. Apache Arrow menggabungkan manfaat struktur data kolumnar dengan komputasi dalam memori yang dapat digunakan oleh CPU, GPU, dan FPGA untuk mendukung pertukaran data yang bebas hambatan dan efisien di seluruh platform tanpa menyalin atau memindahkan data.

Dengan memanfaatkan pemrosesan heterogen beserta alat sumber terbuka seperti perangkat lunak Apache dan OFS, SigmaX menghadirkan solusi yang meningkatkan konversi format data dari JSON ke Apache Arrow dengan latensi 100X lebih rendah dan 20X kecepatan konsumsi data lebih cepat ketika dibandingkan dengan penskalaan menggunakan prosesor Intel Xeon saja.

Solusi

SigmaX secara signifikan telah meningkatkan efisiensi data yang dihasilkan ke broker pusat dengan menggabungkan stack pengelolaan data mereka dengan Intel FPGA dan OFS. Berikut adalah perincian tentang solusi SigmaX:

Langkah 1: Bolson mengonversi data sensor ke format Apache Arrow

Pertama, data sensor JSON diterima oleh Bolson yang menggunakan Intel Agilex FPGA menggunakan infrastruktur OFS sumber terbuka. Bolson kemudian mengonversi data sensor JSON ke format data universal, Apache Arrow. Dengan menempatkan data ke Apache Arrow, broker menjadi lebih cepat dan lebih responsif berdasarkan urutan besarannya. Dengan demikian, jalur ini menggabungkan manfaat latensi dan throughput di atas manfaat pendekatan berbasis CPU saja.

Langkah 2: Apache Pulsar memproses dan membersihkan data

Broker data, Apache Pulsar, kemudian akan menerima pesan dalam format Apache Arrow. Data yang diterima oleh Apache Pulsar sekarang dapat dihitung apa adanya. Apache Pulsar kemudian akan memproses, membersihkan, dan menyusun ulang data.

Apache Pulsar adalah platform pesan dan streaming terdistribusi yang sebanding dengan Apache Kafka. Namun, platform ini memberikan manfaat yang signifikan dibandingkan dengan Apache Kafka, seperti keamanan, kecepatan, latensi, dan performa yang lebih baik dengan fitur keandalan data bawaan seperti geo-replikasi. Apache Pulsar umumnya digunakan dalam aplikasi sensitif latensi yang melibatkan skema kompleksitas tinggi atau kebutuhan data real-time.

Langkah 3: Broker data mentransfer informasi ke konsumen

Setelah delegasi dari broker, data kemudian ditransfer ke aplikasi konsumen yang berlangganan.

SigmaX telah memvalidasi beban kerja pengelolaan data ini menggunakan perangkat keras berbasis teknologi Intel. Stack sumber terbuka mereka menggunakan prosesor Intel Xeon yang beroperasi di aplikasi klien dan board Hitek Systems HiPrAcc* NC100 yang berbasis pada Intel Agilex FPGA untuk menjalankan Bolson.

Board HiPrAcc NC100 diaktifkan dengan OFS dan oneAPI. OFS adalah alat dasar utama yang memungkinkan developer FPGA untuk membangun beban kerja dan aplikasi berbasis FPGA kustom. OFS menyediakan semua kode sumber perangkat keras dan perangkat lunak, dokumentasi, contoh referensi, dan alat yang diperlukan untuk memulai pengembangan berbasis FPGA. Kode perangkat lunak dan perangkat keras untuk OFS adalah sumber terbuka di GitHub.

Hasil:

Beban kerja pengelolaan data SigmaX mengakselerasi konversi data ke Apache Arrow menggunakan dua teknologi Intel utama – Intel Agilex FPGA dan OFS. Menggunakan akselerasi FPGA dan OFS, beban kerja konversi data SigmaX 100X lebih cepat dengan 20X lebih banyak data1. Beban kerja pengelolaan data ini dapat diterapkan ke berbagai aplikasi, termasuk perawatan kesehatan, asuransi, 5G, pemeliharaan prediktif, dan banyak lagi.

OFS memungkinkan kita untuk membuat beban kerja yang diakselerasi FPGA dengan menyediakan semua kode sumber perangkat keras dan perangkat lunak, dokumentasi, contoh referensi, dan alat yang kita perlukan untuk memulai – tidak diperlukan tinkering FPGA mendalam.

Robert Morrow, CEO, SigmaX

Bagaimana Memulai dengan Akselerasi FPGA Menggunakan Open FPGA Stack:

Developer FPGA dapat memilih dari berbagai board kustom, yang disediakan oleh Intel, atau pihak ketiga yang mendukung OFS serta menggunakan dokumentasi dan kode sumber dari sumber terbuka untuk mulai membangun beban kerja kustom mereka.

Tabel berikut menguraikan bagaimana developer dapat memulai dengan pengembangan beban kerja berbasis FPGA menggunakan board yang disediakan Intel atau board pihak ketiga.

  Menggunakan board Intel Menggunakan board ekosistem
Langkah 1: Pilih board

Menggunakan platform referensi OFS

Platform referensi dapat mempercepat evaluasi atau penarikan tetapi tidak wajib.

Menggunakan board kustom atau pihak ketiga

Jelajahi katalog board OFS untuk melihat board yang tersedia.

Langkah 2: Evaluasi sumber daya sumber terbuka OFS Dokumentasi teknis dapat ditemukan di GitHub. Vendor board akan menyediakan dokumentasi teknis OFS yang sesuai. 
Langkah 3: Akses kode perangkat keras dan perangkat lunak sumber terbuka Ubah atau gunakan kode perangkat lunak dan perangkat keras OFS yang diberikan yang tersedia di GitHub (OFS). Vendor board akan menyediakan kode perangkat lunak/perangkat keras OFS yang sesuai.
Langkah 4: Kembangkan beban kerja menggunakan RTL atau C/C++ (menggunakan oneAPI)

Ikuti alur OFS RTL

OR

OFS memungkinkan kompilasi kernel oneAPI. Manfaatkan alur pengembangan oneAPI dan bangun beban kerja FPGA di C/C++.

Catatan:

1Angka yang diterbitkan dalam “Puluhan gigabyte per detik konversi JSON-to-Arrow dengan akselerator FPGA.” IEEE Xplore. Desember 2021. ieeexplore.ieee.org/documents/9609833

Konfigurasi uji: Desain akselerator FPGA untuk parsing JSON yang menulis data deserialisasi ke memori host dalam format in-memory kolumnar Apache Arrow. Terdiri dari lima tahap: Menerima dokumen JSON, Menguraikan dokumen JSON dan mendeserialkan data ke Arrow RecordBatch, Mengubah Ukuran Arrow RecordBatch, Menyerikan Arrow RecordBatch ke pesan Arrow IPC, Mempublikasikan pesan IPC ke topik Pulsar melalui broker Pulsar. Semua implementasi menggunakan maksimum delapan byte, yang memberikan setiap parser throughput input teoritis puncak 1,6 GBps ketika beroperasi pada 200 MHz.