Sementara AI terus mengubah industri teknologi dengan kecepatan yang belum pernah terjadi sebelumnya, perusahaan semakin menghadapi hambatan seputar konsumsi energi, kenaikan biaya dan kapasitas pusat data.
Di Rakuten Technology Conference 2024, sebuah sesi tentang “Masa Depan AI yang bertanggung jawab” membahas masalah -masalah kritis ini dan menyoroti kebutuhan mendesak untuk solusi berkelanjutan. Kepala Penginjil Komputasi Ampere dan Wakil Presiden Pengembangan Bisnis Sean Varley memberikan gambaran komprehensif tentang keadaan komputasi AI saat ini, dan melihat teknologi inovatif meningkatkan efisiensinya.
Dia kemudian bergabung dengan Direktur Pemasaran Qualcomm Hiroshi Izumi dan Rakuten Group Executive Officer dan divisi CTO dari divisi platform teknologi Rohit Dewan untuk membahas kepadatan instance, akselerator khusus domain dan kebutuhan untuk kolaborasi dalam mencapai inferensi AI yang lebih efisien.
Apa itu komputasi ai?
AI Compute diklasifikasikan oleh dua beban kerja yang berbeda: pelatihan dan inferensi. Pelatihan mengacu pada proses pengajaran model untuk menghasilkan konten dengan pola belajar dari dataset besar, sementara inferensi adalah ketika model yang dilatih menggunakan pola yang dipelajari ini untuk membuat konten baru atau membuat prediksi berdasarkan input baru.
“Pelatihan melibatkan ukuran batch besar, persyaratan presisi tinggi yang ketat, dan tumpukan komputasi seragam yang sering berjalan selama berhari-hari dan bahkan berbulan-bulan pada suatu waktu. Proses ini menuntut sumber daya komputasi berkapasitas tinggi, ”jelas Varley.
“Di sisi lain, inferensi beroperasi pada ukuran batch kecil dengan persyaratan presisi yang santai dan bergantung pada tumpukan komputasi yang beragam dan seringkali ‘kental’. Inferensi juga sangat bias real-time, membutuhkan latensi rendah tetapi efisiensi komputasi yang tinggi. ”
Sementara pelatihan secara historis menjadi fokus dominan insinyur Genai, lanskap ini bergeser.
“Selama dua hingga tiga tahun ke depan, sebagian besar beban kerja AI akan dirancang,” prediksi Varley.
Warisan prosesor yang tidak efisien
“[In the past]Tidak ada yang peduli berapa banyak chip yang benar -benar terbakar, ”kata Varley, merangkum inefisiensi prosesor tradisional.
Dikembangkan di era ketika konsumsi daya bukanlah perhatian utama, infrastruktur penuaan telah memperburuk masalah daya dan kapasitas di pusat data.
“Sekarang, kami memiliki kendala ruang dan daya karena semua komputasi yang kami butuhkan mulai melampaui kapasitas yang tersedia. Banyak utilitas mengalami kesulitan memenuhi permintaan akan kekuasaan, ”kata Varley.
Menambah tantangan ini adalah desain yang tidak fleksibel dari pusat data saat ini.
“Pusat data saat ini memiliki rak dan rak GPU yang hanya baik untuk satu tujuan: pelatihan AI,” jelas Varley.
Spesialisasi ini membatasi kemampuan beradaptasi, karena sistem yang berfokus pada pelatihan ini tidak dapat digunakan kembali untuk inferensi atau beban kerja lainnya.
“Proliferasi AI, yang diharapkan untuk melipatgandakan persyaratan daya di masa depan, hanya memperkuat permintaan untuk solusi yang memadai,” kata Varley.
Jadi bagaimana industri ini bisa mengikuti? Solusinya terletak pada modernisasi infrastruktur.
Paradigma komputasi AI yang bertanggung jawab
“Proliferasi AI, yang diharapkan untuk tiga kali lipat kebutuhan daya di masa depan, hanya memperkuat permintaan untuk solusi yang memadai.”
Sean Varley, Ampere Computing Chief Evangelist dan Wakil Presiden Pengembangan Bisnis
Dalam pencarian untuk meningkatkan efisiensi dan mengembangkan solusi inferensi berkelanjutan, Varley menyoroti dua bahan yang diperlukan: efisiensi pusat data, dan efisiensi kode dan orkestrasi.
Beberapa tahun yang lalu, Ampere memperkenalkan prosesor generasi Gen4 DDR4 mereka, yang “menawarkan 2-5x efisiensi daya yang lebih baik dalam hal kinerja per watt” dibandingkan dengan standar industri. Hal ini menyebabkan pengembangan metrik kunci baru: kinerja per rak.
“Ini benar-benar turun untuk menghemat ruang dan kekuatan, dan cara memaksimalkan jumlah komputasi yang dapat Anda masukkan ke rak terbatas secara inheren. Semakin banyak komputasi yang dapat Anda muat ke rak, semakin banyak ruang dan daya yang Anda hemat untuk kinerja yang sama. “
Efisiensi kode dan orkestrasi juga memainkan peran penting untuk komputasi AI yang bertanggung jawab pada skala. Praktik-praktik utama seperti mengoptimalkan kontainer, eksekusi tanpa kewarganegaraan dan pengkodean yang sadar akan berkontribusi pada pemanfaatan prosesor yang lebih tinggi.
“Mengoptimalkan ukuran wadah membantu memanfaatkan lebih sedikit memori dan menghitung daya, yang sangat penting untuk pengemasan layanan digital yang padat. Kita juga perlu memiliki eksekusi tanpa kewarganegaraan karena membuat sistem lebih mandiri dan lebih mudah untuk dibangun dan dikupas, ”kata Varley.
Rakuten dan Ampere memperluas kolaborasi
Rakuten baru -baru ini mengumumkan rencana untuk memperluas kolaborasinya dengan Ampere untuk lebih mengurangi konsumsi daya dan meningkatkan efisiensi pusat data. Ini menjadikan Rakuten perusahaan pertama di Jepang yang menggunakan produk-produk berbasis Ampere dalam skala besar.
Sejak 2023, perusahaan telah berkolaborasi untuk mencapai penghematan energi 36% per rak dan pengurangan ruang 11% per rak untuk layanan Rakuten Cloud. Uji coba terbaru dari layanan penyeimbang beban pada platform berbasis Ampere juga menunjukkan pengurangan 22% dalam konsumsi daya.
Kemitraan yang berkembang menekankan dedikasi Rakuten untuk lebih meningkatkan efisiensi energi dan mendukung layanan dan inisiatif yang digerakkan oleh AI.
Meningkatkan efisiensi komputasi AI dengan akselerator dan kemitraan khusus domain
Kemudian di sesi itu, Varley bergabung di atas panggung oleh Izumi Qualcomm untuk diskusi panel yang dimoderatori oleh Rakuten’s Dewan.
Varley memperkenalkan metrik kunci lain yang dikenal sebagai kerapatan instan per rak, yang mengukur jumlah instance AI yang dapat berjalan per rak. Metrik ini adalah modifikasi dari paradigma kinerja per rak dan sangat penting untuk memahami efisiensi inferensi AI.
“Konsep kepadatan instance sangat relevan dalam konteks inferensi AI, di mana banyak contoh model AI perlu dijalankan secara bersamaan untuk menangani berbagai tugas seperti interaksi pengguna, operasi bisnis, dan aplikasi AI multimoda. Kepadatan instance yang tinggi memungkinkan pusat data memaksimalkan sumber daya komputasi mereka, yang mengarah pada peningkatan yang signifikan dalam efisiensi dan efektivitas biaya, ”ia menyoroti.
Kepadatan instance yang tinggi ini sangat bermanfaat untuk CPU, tetapi GPU memiliki efisiensi yang terbatas dalam menjalankan banyak instance karena mereka tidak dapat dipartisi atau dapat dibandingkan.
Di sinilah akselerator khusus domain masuk.
Akselerator khusus domain adalah perangkat keras khusus yang dirancang untuk menangani jenis tugas komputasi tertentu secara lebih efisien daripada prosesor tujuan umum.
“Kami menargetkan ekosistem AI hibrida, AI hibrida yang berarti orkestrasi antara awan dan tepi. Untuk mewujudkan ekosistem ini, efisiensi daya dan TCO adalah faktor penting. Akselerator spesifik domain untuk inferensi AI akan membantu mempercepat ekosistem ini, ”jelas Izumi.
Varley dan Izumi mengakhiri sesi dengan berbicara tentang pentingnya berkolaborasi dengan berbagai perusahaan untuk lebih memajukan solusi komputasi AI.
Faktanya, Qualcomm dan Ampere telah berkolaborasi untuk memelopori pergeseran dari arsitektur yang didominasi GPU yang tidak fleksibel ke pengaturan serbaguna yang memadukan platform komputasi dengan akselerator khusus domain. Ampere juga telah memimpin pembentukan AI Platform Alliance, sebuah konsorsium yang bertujuan membuat platform AI lebih terbuka, efisien, dan berkelanjutan.
“Dibutuhkan sebuah desa,” kata Varley. “Dibutuhkan banyak perangkat lunak, perangkat keras, sistem, integrator, penyedia cloud yang berbeda dan lebih banyak lagi untuk menciptakan infrastruktur yang jauh lebih hemat daya, jauh lebih terbuka dan berkelanjutan untuk masa depan inferensi AI.”
Jadwal pertadingan malam ini
Situs berita olahraga khusus sepak bola adalah platform digital yang fokus menyajikan informasi, berita, dan analisis terkait dunia sepak bola. Sering menyajikan liputan mendalam tentang liga-liga utama dunia seperti Liga Inggris, La Liga, Serie A, Bundesliga, dan kompetisi internasional seperti Liga Champions serta Piala Dunia. Anda juga bisa menemukan opini ahli, highlight video, hingga berita terkini mengenai perkembangan dalam sepak bola.
Comments are closed, but trackbacks and pingbacks are open.