google-make-local-ai-3x-faster-no-new-hardware
Google Menemukan Cara Membuat AI Lokal Hingga 3x Lebih Cepat—Tanpa Perlu Perangkat Keras Baru
Pembuat Prediksi Multi-Token baru dari Google dapat membuat Gemma 4 berjalan hingga 3 kali lebih cepat di perangkat keras Anda sendiri—tanpa memerlukan cloud, dan tanpa kehilangan kualitas.
2026-05-07 Sumber:decrypt.co

Singkatnya

  • Google merilis penyusun Multi-Token Prediction (MTP) untuk Gemma 4, menghasilkan percepatan hingga 3x dalam inferensi tanpa degradasi kualitas output.
  • Teknik ini—disebut speculative decoding—menggunakan model "penyusun" yang ringan untuk memprediksi beberapa token sekaligus, yang kemudian diverifikasi secara paralel oleh model utama, melewati hambatan satu token per satu waktu.
  • Penyusun MTP tersedia di Hugging Face, Kaggle, dan Ollama di bawah lisensi Apache 2.0 yang sama dengan Gemma 4, dan berfungsi dengan alat seperti vLLM, MLX, dan SGLang.

Menjalankan model AI di komputer Anda sendiri memang hebat—sampai tidak lagi.

Janjinya adalah privasi, tanpa biaya langganan, dan tidak ada data yang meninggalkan mesin Anda. Kenyataannya, bagi kebanyakan orang, adalah melihat kursor berkedip selama lima detik di antara kalimat.

Hambatan itu punya nama: kecepatan inferensi. Dan itu tidak ada hubungannya dengan seberapa pintar modelnya. Ini masalah perangkat keras. Model AI standar menghasilkan teks satu fragmen kata—disebut token—pada satu waktu. Perangkat keras harus memindahkan miliaran parameter dari memori ke unit komputasinya hanya untuk menghasilkan setiap token tunggal. Ini lambat secara desain. Pada perangkat keras konsumen, ini menyakitkan.

Solusi yang paling sering digunakan orang adalah menjalankan model yang lebih kecil, lebih lemah—atau versi yang sangat terkompresi, disebut model terkuantisasi, yang mengorbankan sebagian kualitas demi kecepatan. Kedua solusi ini tidak bagus. Anda mendapatkan sesuatu yang berjalan, tetapi itu bukan model yang sebenarnya Anda inginkan.

Kini Google punya ide berbeda. Perusahaan baru saja merilis penyusun Multi-Token Prediction (MTP) untuk keluarga model terbuka Gemma 4-nya—sebuah teknik yang dapat memberikan percepatan hingga 3x tanpa menyentuh kualitas atau kemampuan penalaran model sama sekali.

Pendekatan ini disebut speculative decoding, dan telah menjadi konsep selama bertahun-tahun. Peneliti Google menerbitkan makalah fundamentalnya pada tahun 2022. Ide ini tidak menjadi arus utama sampai sekarang karena membutuhkan arsitektur yang tepat agar dapat berfungsi dalam skala besar.

Berikut versi singkat cara kerjanya. Alih-alih membuat model besar dan kuat melakukan semua pekerjaan sendirian, Anda memasangkannya dengan model "penyusun" kecil. Penyusun ini cepat dan murah—ia memprediksi beberapa token sekaligus dalam waktu yang lebih singkat daripada yang dibutuhkan model utama untuk menghasilkan hanya satu. Kemudian model besar memeriksa semua tebakan tersebut dalam satu kali jalan. Jika tebakan benar, maka Anda mendapatkan seluruh urutan dengan harga satu kali forward pass.

Menurut Google, "jika model target setuju dengan draf, ia menerima seluruh urutan dalam satu kali forward pass—dan bahkan menghasilkan token tambahannya sendiri dalam proses tersebut."

Tidak ada yang dikorbankan: Model besar—versi padat 31B Gemma 4, misalnya—masih memverifikasi setiap token, dan kualitas output identik. Anda hanya memanfaatkan daya komputasi yang menganggur selama bagian yang lambat.

Google mengatakan bahwa model penyusun berbagi cache KV model target—struktur memori yang menyimpan konteks yang sudah diproses—sehingga mereka tidak membuang waktu menghitung ulang hal-hal yang sudah diketahui model yang lebih besar. Untuk model edge yang lebih kecil yang dirancang untuk ponsel dan perangkat Raspberry Pi, tim bahkan membangun teknik clustering yang efisien untuk lebih memangkas waktu generasi.

Ini bukan satu-satunya upaya yang dilakukan dunia AI dalam memparalelkan generasi teks. Model bahasa berbasis difusi—seperti Mercury dari Inception Labs—mencoba pendekatan yang sama sekali berbeda: Alih-alih memprediksi satu token pada satu waktu, mereka memulai dengan noise dan secara iteratif menyempurnakan seluruh output. Itu cepat di atas kertas, tetapi LLM difusi telah berjuang untuk menyamai kualitas model transformer tradisional, menjadikan mereka lebih sebagai keingintahuan penelitian daripada alat praktis.

Speculative decoding berbeda karena tidak mengubah model dasarnya sama sekali. Ini adalah optimasi penyajian, bukan penggantian arsitektur. Gemma 4 yang sama yang sudah Anda jalankan menjadi lebih cepat.

Manfaat praktisnya nyata. Model Gemma 4 26B yang berjalan di GPU desktop Nvidia RTX Pro 6000 mendapatkan sekitar dua kali lipat token per detik dengan penyusun MTP diaktifkan, menurut benchmark Google sendiri. Pada Apple Silicon, ukuran batch 4 hingga 8 permintaan membuka percepatan sekitar 2.2x. Tidak persis mencapai batas 3x di setiap skenario, tetapi tetap merupakan perbedaan yang signifikan antara "nyaris tidak dapat digunakan" dan "cukup cepat untuk bekerja dengannya."

Konteks di sini penting. Ketika model Tiongkok DeepSeek mengejutkan pasar pada Januari 2025—menghapus $600 miliar dari kapitalisasi pasar Nvidia dalam satu hari—pelajaran utamanya adalah bahwa peningkatan efisiensi dapat berdampak lebih besar daripada komputasi mentah. Beroperasi lebih cerdas mengalahkan penambahan perangkat keras yang lebih banyak. Penyusun MTP Google adalah langkah lain ke arah itu, kecuali ditujukan langsung ke pasar konsumen.

Seluruh industri AI saat ini adalah segitiga yang mempertimbangkan inferensi, pelatihan, dan memori. Setiap terobosan di salah satu area cenderung mendorong atau mengguncang seluruh ekosistem. Pendekatan pelatihan DeepSeek (mencapai model yang kuat dengan perangkat keras kelas bawah) adalah satu contoh, sementara makalah TurboQuant Google (mengurangi memori AI tanpa kehilangan kualitas) adalah contoh lainnya. Keduanya mengguncang pasar karena perusahaan mencoba mencari tahu apa yang harus dilakukan.

Google mengatakan penyusun tersebut membuka "responsivitas yang ditingkatkan: mengurangi latensi secara drastis untuk obrolan hampir real-time, aplikasi suara imersif, dan alur kerja agen"—jenis tugas yang menuntut latensi rendah agar terasa berguna.

Kasus penggunaan dengan cepat menjadi jelas: Asisten pengkodean lokal yang tidak lag; antarmuka suara yang merespons sebelum Anda lupa apa yang Anda tanyakan; alur kerja agen yang tidak membuat Anda menunggu tiga detik di antara langkah-langkah. Semua ini, pada perangkat keras yang sudah Anda miliki.

Penyusun MTP kini tersedia di Hugging Face, Kaggle, dan Ollama, di bawah lisensi Apache 2.0. Mereka berfungsi dengan vLLM, MLX, SGLang, dan Hugging Face Transformers secara langsung.