Persaingan teknologi kecerdasan buatan untuk pembuatan gambar berbasis teks semakin ketat. Dua perusahaan teknologi besar asal China, Alibaba dan ByteDance, hampir bersamaan memperkenalkan model AI generatif terbaru mereka. Langkah ini dipandang sebagai upaya langsung untuk menantang posisi model Google, Nano Banana Pro, yang selama ini dikenal sebagai salah satu pemain terdepan dalam teknologi image generation.
Peluncuran tersebut menandai babak baru kompetisi global. Jika sebelumnya persaingan lebih banyak berfokus pada model bahasa besar atau large language model, kini perhatian beralih ke kemampuan AI dalam menciptakan visual berkualitas tinggi dari perintah teks yang kompleks.
Qwen-Image-2.0 dari Alibaba
Alibaba memperkenalkan Qwen-Image-2.0 sebagai bagian dari keluarga model Qwen yang dikembangkan melalui Alibaba Cloud. Model ini dirancang untuk menghasilkan gambar berbasis teks dengan kemampuan memahami instruksi panjang dan detail.
Qwen-Image-2.0 diklaim mampu menangani prompt kompleks yang memuat banyak elemen visual sekaligus. Selain menghasilkan gambar baru, model ini juga mendukung proses pengeditan berbasis AI. Artinya, pengguna dapat memodifikasi elemen tertentu dalam gambar dengan instruksi tambahan tanpa harus membuat ulang visual dari awal.
Alibaba memosisikan Qwen-Image-2.0 sebagai komponen penting dalam ekosistem AI mereka. Model ini berpotensi diintegrasikan dengan berbagai layanan digital milik Alibaba, termasuk platform e commerce dan layanan berbasis komputasi awan. Strategi ini memperlihatkan arah pengembangan yang tidak hanya fokus pada teknologi inti, tetapi juga pada pemanfaatan langsung dalam aktivitas bisnis dan konten kreatif.
Hingga kini, belum tersedia skor benchmark resmi dalam format metrik standar seperti FID atau CLIP score yang dipublikasikan secara terbuka. Alibaba juga belum merilis laporan teknis komprehensif mengenai performa numerik model tersebut. Informasi yang beredar masih banyak bersumber dari demonstrasi publik dan pengujian komunitas.
Seedream 5.0 dari ByteDance
Di waktu yang hampir bersamaan, ByteDance meluncurkan Seedream 5.0, model generasi terbaru untuk pembuatan gambar berbasis AI. Perusahaan yang juga dikenal sebagai induk platform video pendek TikTok ini menekankan peningkatan pada aspek reasoning atau pemahaman konteks.
Seedream 5.0 disebut mampu memahami instruksi bertingkat dan panjang dengan lebih mendalam. Model ini juga mendukung keluaran gambar resolusi tinggi hingga 2K dan 4K melalui peningkatan berbasis AI. Kontrol terhadap detail tekstur dan komposisi diklaim lebih presisi dibanding generasi sebelumnya.
Model tersebut mulai diuji coba secara terbatas melalui platform milik ByteDance seperti CapCut, yang memiliki basis pengguna global cukup besar. Integrasi ini memungkinkan pengujian langsung dalam alur kerja kreatif, khususnya di kalangan pembuat konten digital.
Sejumlah pengujian independen menunjukkan bahwa Seedream 5.0 mampu menghasilkan gambar resolusi tinggi yang setara dengan model pesaing. Dalam aspek reasoning, model ini dinilai fleksibel dalam menangani prompt kompleks, termasuk kemampuan mentransfer gaya visual dari satu referensi ke gambar baru.
Selain itu, Seedream 5.0 disebut memiliki integrasi fitur tambahan seperti pemrosesan konteks berbasis data terkini dan pengayaan detail visual melalui teknik peningkatan berbasis AI. Namun, seperti halnya Qwen-Image-2.0, laporan teknis resmi dengan metrik standar belum dipublikasikan secara luas.
Posisi Nano Banana Pro Google
Di sisi lain, Nano Banana Pro dari Google masih menjadi salah satu acuan dalam industri image generation. Model ini dikenal mampu menghasilkan gambar resolusi tinggi hingga 4K dengan konsistensi detail visual yang stabil.
Dalam pengujian berbasis prompt kompleks, Nano Banana Pro dinilai unggul dalam menjaga konsistensi elemen visual, terutama ketika komposisi gambar melibatkan banyak objek dan detail rumit. Kecepatan generasi gambar juga disebut relatif lebih cepat, sehingga mendukung kebutuhan produksi yang menuntut efisiensi waktu.
Meski demikian, beberapa pengujian komunitas menunjukkan bahwa Seedream 5.0 dapat bersaing dalam aspek pemahaman konteks dan fleksibilitas instruksi. Perbandingan yang beredar saat ini sebagian besar masih berbasis uji coba independen, bukan laporan teknis resmi yang distandardisasi.
Eskalasi Persaingan Global
Peluncuran Qwen-Image-2.0 dan Seedream 5.0 memperlihatkan bahwa persaingan AI global semakin merata. China tidak lagi hanya berfokus pada model bahasa besar, tetapi juga agresif dalam pengembangan teknologi visual generatif.
Absennya laporan benchmark resmi dari Alibaba dan ByteDance membuat evaluasi menyeluruh masih terbatas. Untuk saat ini, penilaian performa banyak bergantung pada demonstrasi publik dan pengujian komunitas.
Yang jelas, kompetisi di sektor AI pembuat gambar kini memasuki fase baru. Dengan semakin banyak model yang mampu menghasilkan visual resolusi tinggi dan memahami instruksi kompleks, industri kreatif digital menghadapi pilihan teknologi yang kian beragam. Persaingan ini diperkirakan akan terus berkembang seiring kebutuhan konten visual yang semakin besar di berbagai sektor, mulai dari media sosial hingga e commerce global.
