Flyslice Technologies Mengakselerasi Aplikasi Perdagangan Latensi Rendah/Low-Latency Trading (LLT) dengan Kartu Akselerator FA728Q

Flyslice Technologies memanfaatkan Intel® Stratix® 10 FPGA dan infrastruktur Open FPGA Stack (OFS) sumber terbuka untuk mengembangkan kartu akselerasi FPGA berperforma tinggi.

Ikhtisar

  • Kartu akselerator berbasis FPGA FA728Q, kartu akselerasi berbasis PCIe* berperforma tinggi, yang dilengkapi dengan Intel® Stratix® 10 FPGA, dikirimkan hari ini.

  • Flyslice menggunakan infrastruktur dasar OFS untuk mempercepat pengembangan Manajer Antarmuka FPGA (FIM) kustom, yang menggabungkan mesin pembongkar TCP/IP terintegrasi.

  • Latensi transmisi TCP kartu akselerator FA728Q berada di bawah 100 ns untuk aplikasi jaringan yang mementingkan waktu seperti LLT.

author-image

Oleh

Logo FlysliceRingkasan Penting

LLT dan aplikasi sensitif waktu lainnya adalah kasus penggunaan yang ideal untuk akselerasi FPGA. Untuk menangani pasar ini, Flyslice Technologies mengembangkan kartu akselerasi berbasis FPGA FA728Q. Platform akselerasi FA728Q menyediakan sumber daya FPGA yang andal, kapasitas penyimpanan yang berlimpah, dan antarmuka yang mudah digunakan untuk pengguna akhir. Untuk mempercepat, menyederhanakan, dan menstandardisasi pengembangan board akselerasi, Flyslice Technologies menggunakan infrastruktur OFS, yang menyediakan metodologi canggih untuk pengembangan solusi FPGA cepat menggunakan pendekatan ‘ambil dan sesuaikan’. Menggunakan infrastruktur OFS, Flyslice Technologies mengintegrasikan mesin offload TCP/IP ke FIM dasar sumber terbuka, yang biasa disebut ‘shell’ FPGA.

Latar belakang dan Tantangan

LLT adalah praktik modern dalam mengeksekusi perdagangan sekuritas keuangan secara elektronik dengan jeda waktu minimal antara entri pesanan dan eksekusi pesanan. Bank investasi besar, pengelola investasi global, dan institusi keuangan lainnya biasanya menggunakan metode ini. Sebelumnya, perdagangan dijalankan secara manual, bukan secara elektronik, dan eksekusi transaksi bervariasi mulai dari detik hingga menit. Namun, dengan kemajuan teknologi dalam perangkat keras dan perangkat lunak yang sesuai, sistem dapat diprogram agar membuat keputusan membeli atau menjual secara otomatis berdasarkan sinyal dan pergerakan pasar tertentu, sehingga mengurangi waktu eksekusi perdagangan hingga milidetik. Dengan ketersediaan produk akselerasi berbasis FPGA yang lebih luas dalam beberapa tahun terakhir, waktu transaksi semakin berkurang menjadi mikrodetik atau submikrodetik.

Pada saat yang sama, sistem LLT makin bergantung pada model algoritma perdagangan kompleks yang unik untuk strategi perdagangan tertentu dari masing-masing perusahaan perdagangan untuk interaksi buku pesanan. Solusi memerlukan prosesor serbaguna dan komputasi prosesor bersama untuk tujuan khusus guna memenuhi persyaratan daya dan performa perusahaan perdagangan, seperti dalam komputasi heterogen. FPGA ideal untuk menerapkan algoritma perdagangan yang disesuaikan; namun pemrograman perangkat akselerasi perangkat keras ini dapat memakan waktu dan sulit untuk dimigrasikan seiring dengan peningkatan dan evolusi rangkaian FPGA.

Flyslice Technologies, perusahaan yang berkantor pusat di Tiongkok, secara aktif menangani permintaan akselerasi heterogen pusat data dan komputasi berperforma tinggi, termasuk segmen LLT. Perusahaan ini menghadirkan platform akselerator perangkat keras berbasis FPGA, fungsi kekayaan intelektual (IP) akselerasi FPGA, dan layanan desain platform berbasis FPGA ke pasar.

Solusi

Untuk memenuhi persyaratan latensi rendah, standardisasi, dan portabilitas aplikasi LLT, Flyslice Technologies mengembangkan kartu akselerasi FA728Q yang menyediakan mesin pembongkar TCP/IP terintegrasi. Untuk melakukan hal ini, Flyslice Technologies memodifikasi FIM dasar yang disediakan dalam rilis OFS sumber terbuka. Karena arsitektur yang dapat dikomposisi dan pendekatan ‘ambil dan sesuaikan’, OFS memungkinkan perusahaan untuk melakukan porting algoritma ke kartu akselerasi FA728Q sekaligus memanfaatkan infrastruktur lain yang disediakan, termasuk driver dan pustaka perangkat lunak OFS, hanya dengan melakukan sedikit modifikasi.

OFS dengan solusi toe yang diimplementasikan pada diagram blok fa728q
Gambar 1. OFS dengan solusi mesin pembongkar TCP/IP / TCP/IP offload engine (TOE) yang diimplementasikan pada FA728Q

 

OFS adalah infrastruktur perangkat keras dan perangkat lunak sumber terbuka yang menyediakan semua komponen desain, perangkat lunak, dan infrastruktur utama yang diperlukan untuk memulai pengembangan board atau beban kerja berbasis FPGA kustom. Infrastruktur OFS terdiri dari FIM, yang biasa disebut ‘shell’, dan wilayah Accelerator Functional Unit (AFU), yang merupakan wilayah yang ditunjuk untuk pengembangan beban kerja. Menggunakan OFS, board FPGA – atau FIM – developer dapat memanfaatkan infrastruktur sumber terbuka – atau FIM dasar – guna mengembangkan FIM kustom yang disesuaikan untuk board dengan cepat berdasarkan aplikasi atau industri target. OFS juga dikirimkan dengan Paket Dukungan Akselerator/Accelerator Support Package (ASP) oneAPI, yang dapat dimanfaatkan untuk mengabstraksi perangkat keras dan alur desain FPGA. OFS menghemat waktu developer, meningkatkan portabilitas di seluruh generasi FPGA, menggunakan antarmuka standar industri, dan menyediakan alur desain tingkat tinggi opsional menggunakan oneAPI.

Kartu akselerasi FA728Q tersedia saat ini dan merupakan board akselerasi FPGA berbasis PCIe kelas atas yang menawarkan memori DDR4 onboard 32 GB dan tiga soket QSFP28 untuk mendukung hingga 100 GbE bagi setiap antarmuka. Kartu akselerasi FA728Q juga diaktifkan dengan oneAPI melalui infrastruktur OFS, sehingga pelanggan dapat menerapkan kernel di RTL atau memigrasikan algoritma dari CPU/GPU ke bahasa desain tingkat tinggi, termasuk C/C++. Intel® oneAPI Base Toolkit juga membantu sintesis dan pengoptimalan kernel ke sumber daya FPGA yang semakin meningkatkan waktu pemasaran.

Flyslice Technologies juga telah memulai pengembangan board berbasis Intel Agilex® FPGA, termasuk kartu FA927S menggunakan Intel Agilex® 7 FPGA Seri I dan kartu FA925E menggunakan Intel Agilex® 7 FPGA Seri F.

Kartu FA927S dilengkapi dengan kecepatan transceiver tinggi hingga 116 Gbps, PCIe 5.0 x16, dan dukungan Compute Express Link (CXL). Kartu ini menargetkan aplikasi intensif bandwidth dan kini tersedia untuk pengembangan berbasis RTL. Kartu FA927S akan mendukung OFS pada kuartal pertama tahun 2024.

Di sisi lain, kartu FA925E menawarkan empat bank 8 GB dan empat bank DDR4 4 GB, dengan total memori onboard 48 GB. Kartu ini dirancang untuk aplikasi dengan kapasitas memori eksternal dan persyaratan bandwidth yang tinggi. Kartu ini menyediakan dukungan lengkap untuk OFS dan akan tersedia pada akhir tahun 2023. Lihat Tabel 1. untuk membandingkan ketiga kartu akselerasi.

Tabel 1. Tabel Perbandingan

 

Board FA728Q

FA728Q

Board FA927S

FA927S

Board FA925E

FA925E

Daya 215 W 200 W 150 W
Persyaratan Pendinginan Aktif/pasif (opsional) Aktif/pasif (opsional) Aktif/pasif (opsional)
Faktor Bentuk dan Ukuran PCIe slot ganda dengan panjang 3/4 dan tinggi penuh PCIe slot ganda dengan panjang setengah dan tinggi penuh PCIe slot ganda dengan panjang 3/4 dan tinggi penuh
Antarmuka Jaringan Tiga Port QSFP28: 3x100 GbE / 40 GbE Port QSFP28 ganda: 2x100 GbE / 40 GbE Port QSFP28 ganda 2x100 GbE / 40 GbE
Antarmuka Memori 4x8 GB DDR4, 2.400 MHz dengan ECC 4x8 GB DDR4, 2.400 MHz dengan ECC 4x8 GB dan 4x4 GB DDR4, 2.400 MHz dengan ECC
Antarmuka PCIe - 5.0 x16 -
Antarmuka Perluasan - 2 x8 konektor SAS ramping untuk perluasan PCIe 4.0 -
Port Pengelolaan Micro-USB Micro-USB Micro-USB
Perangkat FPGA 1SX280HN2F43E2VG AGIB027R29A1E2VR3 AGFB027R25A2E2V

Hasil

Fungsi IP mesin pembongkar yang diterapkan oleh Flyslice Technologies pada kartu FA728Q dioptimalkan untuk latensi dan performa guna memenuhi persyaratan LLT. Dalam mode percepatan, latensi transmisi TCP yaitu kurang dari 100 ns, yang memastikan koneksi latensi yang stabil dan rendah untuk aplikasi jaringan yang mementingkan waktu. Tabel 2. menunjukkan latensi yang diukur untuk berbagai koneksi. Tabel 3. menunjukkan antarmuka PCIe 3.0 x16 dan DDR dengan bandwidth tinggi.

Spesifikasi Nilai
Koneksi TCP/UDP maksimum 63 untuk TCP, 63 untuk UDP
Latensi TCP TX (mode percepatan) 15 clock
Latensi TCP TX (mode non-percepatan) 46 clock
Latensi TCP RX 32 clock
Latensi UDP TX 42 clock untuk paket 512 byte 18, clock untuk paket 128 byte
Latensi UDP RX 23 clock
Latensi loopback untuk kernel oneAPI 18 clock

Tabel 2. Spesifikasi Mesin Offload TCP/IP / TCP/IP Offload Engine (TOE)

Catatan:

1. Satu periode clock adalah 6,4 ns

2. Latensi TX dihitung dari penurunan edge paket EOP hingga data yang valid di XGMII TXC

3. Latensi RX dihitung dari SOP paket hingga data yang valid di XGMII RXC

Jalur Data Bandwidth
Memori tulis host 8.287,68 MBps untuk blok 8.192 KB
Memori baca host 8.241,19 MBps untuk blok 8.192 KB
Memori tulis kernel 16.909,6 MBps untuk blok 4.096 MB
Memori baca kernel 17.340,3 MBps untuk blok 4.096 MB

Tabel 3. Bandwidth yang disediakan oleh setiap antarmuka

Jalur data bandwidth tinggi dalam diagram blok platform ofs
Gambar 2. Jalur data bandwidth tinggi di platform OFS

 

OFS membantu kami membangun platform akselerasi yang diperlukan dengan lebih mudah dan cepat untuk pelanggan, mulai dari driver API perangkat lunak hingga perangkat keras yang mendasarinya sebagai rangkaian peralatan lengkap.

Cheng Ailian, Flyslice Technologies, ltd.

Cara Memulai dengan Akselerasi FPGA Menggunakan OFS

Developer FPGA dapat memanfaatkan kartu akselerator FA728Q dan board yang didukung OFS, menggunakan dokumentasi dan kode sumber terbuka untuk mulai membuat beban kerja kustom.

Tabel berikut menguraikan cara developer dapat memulai pengembangan beban kerja berbasis FPGA menggunakan board akselerasi Flyslice Technologies.

Manfaatkan Akselerasi FPGA untuk Beban Kerja Anda
Langkah 1: Pilih board Lihat board yang didukung OFS dari Flyslice Technologies, kartu akselerator FA728Q
Langkah 2: Evaluasi sumber daya sumber terbuka OFS

Flyslice Technologies akan menyediakan versi dokumentasi teknis OFS yang sesuai.

Langkah 3: Akses kode perangkat keras dan perangkat lunak sumber terbuka

Flyslice Technologies akan menyediakan kode perangkat lunak dan perangkat keras OFS yang sesuai. Ini adalah distribusi khusus mereka dari kode dasar OFS yang disediakan oleh Intel.

Langkah 4: Kembangkan beban kerja menggunakan RTL atau C/C++ (menggunakan oneAPI)

Ikuti alur OFS RTL

OR

OFS memungkinkan kompilasi kernel oneAPI. Manfaatkan alur pengembangan oneAPI dan bangun beban kerja FPGA dalam C/C++.