AI baru dari DeepMind menciptakan musik latar dan dialog untuk video
Laboratorium riset AI Google, DeepMind, mengatakan bahwa mereka sedang mengembangkan teknologi AI untuk menciptakan musik latar untuk video.
Dalam sebuah pos di blog resminya, DeepMind mengatakan bahwa mereka melihat teknologi V2A (singkatan dari 'video-to-audio') sebagai bagian penting dari teka-teki media yang dihasilkan oleh AI. Sementara banyak organisasi termasuk DeepMind telah mengembangkan model AI yang menghasilkan video, model-model ini tidak bisa menciptakan efek suara untuk disinkronkan dengan video yang dihasilkannya.
'Model pembangkit video berkembang dengan pesat, namun banyak sistem saat ini hanya bisa menghasilkan output tanpa suara,' tulis DeepMind. 'Teknologi V2A bisa menjadi pendekatan yang menjanjikan untuk menghidupkan film yang dihasilkan secara AI.'
Teknologi V2A dari DeepMind mengambil deskripsi dari musik latar (misalnya 'ubur-ubur berdenyut di bawah air, kehidupan laut, lautan') dipasangkan dengan video untuk menciptakan musik, efek suara, dan bahkan dialog yang sesuai dengan karakter dan nada dari video, dicap dengan teknologi SynthID dari DeepMind untuk mengatasi deepfakes. Model AI yang menggerakkan V2A, sebuah model difusi, dilatih dengan kombinasi suara dan transkrip dialog serta klip video, kata DeepMind.
'Dengan melatih pada video, audio, dan anotasi tambahan, teknologi kami belajar untuk mengaitkan peristiwa audio spesifik dengan berbagai adegan visual, sambil merespons informasi yang diberikan dalam anotasi atau transkrip,' menurut DeepMind.
Mum’s the word tentang apakah data pelatihan apapun dilindungi hak cipta - dan apakah pencipta data tersebut diberitahu tentang karya DeepMind. Kami telah menghubungi DeepMind untuk klarifikasi dan akan memperbarui pos ini jika kami mendengar balik.
Alat-alat yang didukung AI untuk menghasilkan suara bukanlah hal baru. Startup Stability AI merilis satu minggu lalu, dan ElevenLabs meluncurkan satu pada bulan Mei. Begitu pula model untuk menciptakan efek suara video. Sebuah proyek Microsoft bisa menghasilkan video bicara dan menyanyi dari sebuah gambar diam, dan platform-platform seperti Pika dan GenreX telah melatih model untuk mengambil video dan menebak dengan tepat musik atau efek mana yang sesuai dalam sebuah adegan.
Namun DeepMind mengklaim bahwa teknologi V2A mereka unik karena bisa memahami piksel mentah dari video dan menyinkronkan suara yang dihasilkan dengan video secara otomatis, opsional tanpa deskripsi.
V2A tidak sempurna, dan DeepMind mengakui hal ini. Karena model dasarnya tidak dilatih dengan banyak video dengan artefak atau distorsi, ia tidak menciptakan audio berkualitas tinggi untuk hal-hal tersebut. Dan secara umum, audio yang dihasilkannya tidak begitu meyakinkan; kolega saya Natasha Lomas menggambarkannya sebagai 'platter berbagai suara stereotip,' dan saya tidak bisa tidak setuju.
Untuk alasan-alasan ini, dan untuk mencegah penyalahgunaan, DeepMind mengatakan bahwa mereka tidak akan merilis teknologi ini ke publik dalam waktu dekat, jika pun akan pernah.
'Untuk memastikan teknologi V2A kami bisa memiliki dampak positif pada komunitas kreatif, kami mengumpulkan perspektif-perspektif yang beragam dan wawasan dari pembuat dan pembuat film terkemuka, dan menggunakan umpan balik berharga ini untuk membimbing penelitian dan pengembangan kami yang terus berlangsung,' tulis DeepMind. 'Sebelum kami mempertimbangkan membuka akses ke publik secara luas, teknologi V2A kami akan menjalani evaluasi keamanan dan pengujian yang ketat.'
DeepMind memperkenalkan teknologi V2A mereka sebagai alat yang sangat berguna terutama untuk arsiparis dan mereka yang bekerja dengan rekaman sejarah. Namun AI generatif sejenis ini juga mengancam untuk mengubah industri film dan TV. Diperlukan perlindungan tenaga kerja yang kuat untuk memastikan bahwa alat-alat media generatif tidak menghilangkan pekerjaan - atau, dalam hal ini, profesi secara keseluruhan.