Kecerdasan Buatan VALL-E Boleh Menjana Suara Berasaskan Sampel Klip Sepanjang 3 Saat

TechnologyDigital
10 Jan 2023 • 7:32 PM MYT
Amanz
Amanz

Amanz merupakan laman berita dunia teknologi serta ulasan peranti terkini.

image is not available

Kecerdasan buatan DALL.E boleh menghasilkan gambar berdasarkan input teks yang diberikan oleh pengguna. Kini kecerdasan buatan VALL-E yang dibangunkan oleh Microsoft mempunyai kemampuan menjana klip audio suara berdasarkan sampel audio seseorang selama 3 saat sahaja.

image is not available

Microsoft berkata teknologi ini boleh digunakan untuk menjana klip audio yang sebaik manusia untuk aplikasi teks-ke-suara. VALL-E dilatih selama 60,000 jam menggunakan pustaka audio LibrilLight yang dikumpulkan oleh Meta yang terdiri daripada rakaman suara 7000 individu yang membaca buku audio LibriVox.

Menyedari pelbagai isu yang mungkin timbul sekiranya VALL-E digunakan untuk menghasilkan audio palsu berdasarkan suara individu tertentu, Microsoft tidak memberikan akses terbuka untuk ia digunakan oleh ramai. Ia kini hanya boleh diakses oleh penyelidik di Microsoft sahaja. VALL-E masih lagi dibangunkan untuk meningkatkan kejituan ia mengajuk suara sampel yang diberikan.