Strategi komputasi untuk aplikasi AI

Chirag Dekate dan Arun Chandrasekaran
Infrastruktur komputasi pembelajaran mesin terutama diperuntukkan bagi organisasi yang ingin membangun tumpukan infrastruktur on-premise. Ada enam kemampuan inti yang diperlukan dalam infrastruktur komputasi pembelajaran mesin untuk memungkinkan pipeline kecerdasan buatan (AI) dengan produktivitas tinggi yang melibatkan pembelajaran mesin intensif komputasi dan model jaringan saraf dalam (DNN).
Teknologi akselerasi komputasi seperti unit pemrosesan grafis (GPU) dan sirkuit terintegrasi khusus aplikasi (ASIC) dapat secara dramatis mengurangi waktu pelatihan dan inferensi dalam beban kerja AI yang melibatkan teknik pembelajaran mesin intensif komputasi dan DNN. Akselerator harus dipilih agar sesuai dengan kebutuhan aplikasi, dan kerangka kerja harus dikonfigurasi untuk akselerator spesifik tersebut agar dapat menggunakan kemampuannya.
Meskipun ada beragam teknologi akselerator di pasar ini, termasuk NEC Aurora Vector Engine, GPU AMD dan GPU Nvidia, hanya beberapa di antaranya yang memiliki dukungan luas untuk pembelajaran mesin dan kerangka kerja DNN. Saat ini, ekosistem pelatihan DNN didominasi oleh GPU Nvidia karena perangkat keras berkinerja tinggi dapat memanfaatkan kemampuan unik seperti tensor core dan NVLink. Ada juga integrasi perangkat lunak tingkat tinggi mulai dari perpustakaan hingga kerangka kerja.
Kepadatan akselerator
Pembelajaran mesin intensif komputasi dan kerangka kerja DNN berorientasi pada peningkatan skala. Jumlah akselerator yang lebih tinggi di setiap simpul komputasi dapat secara dramatis mengurangi waktu pelatihan untuk DNN besar. Platform komputasi yang menangani pasar ini memiliki tingkat keragaman yang tinggi dalam kepadatan akselerator. Sebagian besar pemasok mendukung empat akselerator per simpul komputasi, sementara konfigurasi berorientasi kinerja menampilkan delapan akselerator per simpul komputasi. Dalam sistem komputasi yang dipercepat GPU, beberapa vendor menawarkan 16 node komputasi GPU.
Sementara pendekatan yang paling umum untuk penskalaan dalam pembelajaran mesin intensif komputasi dan kerangka kerja DNN cenderung berorientasi pada peningkatan skala, pengadopsi awal juga mengkurasi strategi skala-out. Horovod Uber memungkinkan pembelajaran mendalam terdistribusi untuk kerangka kerja DNN seperti TensorFlow dan PyTorch. Distributed Deep Learning dan Elastic Distributed Training IBM juga dirancang untuk memberikan kemampuan scale-out ketika ukuran dan kompleksitas model tumbuh.
Collection Communications Libraries (NCCL) Nvidia juga memungkinkan fondasi penskalaan multi-GPU dan multi-node untuk kerangka kerja DNN. Ketika memilih strategi scale-out, yang terbaik adalah memilih solusi yang sudah dioptimalkan sebelumnya, mudah digunakan dan meminimalkan total biaya kepemilikan.
Karena kepadatan akselerator yang tinggi, cara akselerator terhubung ke simpul komputasi dan bagaimana komponen simpul komputasi berinteraksi dengan akselerator dapat secara dramatis memengaruhi kinerja dalam beban kerja berbasis pembelajaran mesin dan DNN yang intensif komputasi.
Data ingestion dan pertukaran data adalah dua jenis operasi pergerakan data yang umumnya terjadi. Operasi pemasukan data dan penyalinan data untuk memuat data input adalah pergerakan data yang intensif dan biasanya memerlukan keterlibatan langsung CPU. Akibatnya, arsitektur bus pergerakan data bandwidth tinggi antara CPU dan akselerator sangat penting untuk mencegah kemacetan data. Sistem komputasi berbasis x86 menggunakan konektivitas berbasis PCIe Gen3 (PCIe 3.0) antara CPU dan GPU. Prosesor IBM Power secara native mendukung Nvidia NVLink, yang memungkinkan konektivitas bandwidth yang lebih tinggi daripada interkoneksi PCIe 3.0. Hasilnya, sistem yang menampilkan CPU dengan dukungan NVLink asli dapat memberikan konektivitas bandwidth tinggi antara CPU dasar dan GPU Nvidia.
Pertukaran data antara akselerator komputasi selama fase pelatihan biasanya terjadi di antara akselerator, dan, sebagai hasilnya, waktu pelatihan DNN bergantung pada bagaimana akselerator saling berhubungan. Dalam sistem ASIC dan GPU-accelerated, penyatuan akselerator biasanya terjadi melalui PCIe 3.0.
Namun, sistem Nvidia GPU-accelerated juga dapat memanfaatkan SXM Nvidia, yang memungkinkan GPU untuk memanfaatkan teknologi interkoneksi NVLink Nvidia dan, akibatnya, dapat memungkinkan pertukaran data bandwidth yang lebih tinggi di seluruh GPU dalam simpul komputasi.
Konektivitas jaringan
Teknik pembelajaran mesin dan DNN berskala besar dan intensif komputasi juga memerlukan pergerakan cepat sejumlah besar data di seluruh node komputasi. Teknologi jaringan bandwidth tinggi, latensi rendah yang menghubungkan node komputasi dapat mempercepat pergerakan data dan dapat memungkinkan beberapa model DNN untuk menskalakan. Dari perspektif jaringan, lingkungan komputasi pemrosesan DNN mengandalkan bandwidth tinggi dan pengumpulan sumber daya GPU dengan latensi rendah, bersama dengan kemampuan akses memori langsung jarak jauh GPUDirect (RDMA).
Tumpukan jaringan yang kompatibel dengan RDMA memungkinkan akselerator untuk melewati kompleks CPU dan, sebagai hasilnya, memungkinkan pertukaran data berkinerja tinggi antara komponen akselerator. Saat ini, InfiniBand (Mellanox), Ethernet (dengan RoCE v.1/2), Intel Omni-Path, atau teknologi jaringan eksklusif digunakan untuk jaringan.
Pembelajaran mesin dan kerangka kerja DNN yang digunakan pada platform komputasi yang dipercepat perlu dikonfigurasi ulang dengan seperangkat pustaka yang tepat dan teknologi middleware pendukung untuk memungkinkan pemanfaatan akselerator. Mengintegrasikan teknologi-teknologi ini dari awal bisa sangat kompleks dan intensif sumber daya.
Sebagian besar pemasok sistem menyediakan DNN yang telah dioptimalkan sebelumnya dan wadah kerangka kerja pembelajaran mesin (seperti TensorFlow, Caffe, PyTorch, Spark dan H2O.ai) untuk meminimalkan waktu penyebaran dan integrasi. Beberapa di antaranya termasuk:
Nvidia GPU Cloud (NGC): Gratis dan kompatibel dengan platform yang dipercepat GPU Nvidia. Hanya sistem komputasi Nvidia (DGX1, DGX2) dan beberapa ekosistem cloud publik yang ditenagai oleh GPU Nvidia yang disertifikasi dan didukung secara luas. NGC memiliki fitur Horovod, kerangka kerja pelatihan terdistribusi untuk TensorFlow yang mendukung pembelajaran mendalam terdistribusi. NGC dapat digunakan pada sebagian besar sistem Nvidia GPU-accelerated. Kontainer NGC juga berjalan di lingkungan yang diorkestrasi Kubernetes. 
Bright Cluster Manager for Data Science (BCMDS): Kompatibel dengan platform GPU Nvidia dan ditawarkan secara luas oleh sebagian besar pemasok sistem, BCMDS juga mendukung Horovod untuk pembelajaran mendalam terdistribusi. Dari perspektif pengeluaran operasional (opex), kemampuan ini sebagian besar ditawarkan sebagai add-on, dan para pemimpin TI harus mengevaluasi setiap biaya lisensi terkait selama masa pakai sistem. 
Perusahaan IBM PowerAI: Saat ini hanya tersedia untuk IBM Power Systems, PowerAI Enterprise menawarkan tumpukan kerangka kerja AI open source yang telah dioptimalkan sebelumnya, dukungan terintegrasi untuk pembelajaran mendalam terdistribusi dan alat produktivitas ilmuwan data. Alat-alat ini menjangkau seluruh proses pengembangan model, dari data ingest hingga penyebaran inferensi. Meskipun beberapa fitur gratis, penggunaan dan dukungan skala perusahaan mungkin memerlukan lisensi tambahan, dan akibatnya para pemimpin TI harus mengevaluasi biaya lisensi terkait yang diperlukan untuk ekosistem mereka. 
Lenovo intelligent Computin g Orchestration (LiCO): LiCO eksklusif Lenovo adalah perangkat lunak yang dirancang untuk menyediakan manajemen kluster sederhana dan untuk meningkatkan penggunaan infrastruktur untuk pengembangan model AI dalam skala besar pada prosesor Nvidia dan Intel. Meskipun LiCO gratis untuk digunakan, penawaran dukungan untuk LiCO diaktifkan melalui model langganan dan dukungan per-CPU dan per-GPU, sehingga para pemimpin TI harus mengevaluasi biaya lisensi tambahan apa pun. 
Saat menyusun strategi infrastruktur pembelajaran mesin dan DNN, pastikan bahwa ekosistem kontainer yang disediakan pemasok mendukung subset inti dari pembelajaran mesin dan kerangka kerja DNN yang digunakan di organisasi Anda. Pilih ekosistem yang memungkinkan Anda menguji versi GitHub terbaru bersama versi stabil untuk pengujian A/B berulang. Kerangka kerja pembelajaran mesin dan DNN terus meningkat, dan versi GitHub terbaru dapat mengatasi tantangan utama yang mungkin belum ditangani oleh versi stabil. Terakhir, pertimbangkan opex yang terkait dengan manajemen middleware dan optimalkan total biaya kepemilikan.
Artikel ini didasarkan pada kutipan dari panduan Pasar Gartner untuk laporan infrastruktur komputasi pembelajaran mesin oleh Chirag Dekate dan Arun Chandrasekaran.



Posting Komentar

0 Komentar