top of page
Gambar penulisCornellius Yudha Wijaya

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any

Dalam beberapa tahun terakhir, penelitian Generative AI telah berkembang pesat dan mengubah cara kita bekerja. Mulai dari pengembangan konten, perencanaan kerja, pencarian jawaban, hingga pembuatan karya seni, semuanya kini menjadi mungkin dengan Generative AI. Namun, tiap model biasanya hanya bekerja untuk kasus penggunaan tertentu. Misalnya, GPT untuk text-to-text, Stable Diffusion untuk text-to-image, dan masih banyak lagi.


Model yang mampu menangani berbagai tugas disebut dengan model multimodal. Banyak penelitian mutakhir beralih ke pendekatan multimodal karena terbukti berguna dalam berbagai kondisi. Inilah mengapa salah satu penelitian menarik tentang model multimodal yang perlu diketahui adalah NExT-GPT.


NExT-GPT adalah model multimodal yang dapat mengubah apa saja menjadi apa saja. Jadi, bagaimana cara kerjanya? Mari kita jelajahi lebih lanjut.


Pengenalan NExT-GPT

NExT-GPT adalah LLM multimodal any-to-any yang dapat menangani empat jenis input dan output: teks, gambar, video, dan audio. Penelitian ini diprakarsai oleh kelompok penelitian yang disebut NExT++ dari National University of Singapore.


Representasi keseluruhan model NExT-GPT ditunjukkan pada gambar di bawah ini.

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any
NExT-GPT LLM Model (Wu et al. (2023))

Model NExT-GPT terdiri dari tiga bagian pekerjaan:

  1. Membangun encoder untuk input dari berbagai modalitas dan merepresentasikannya menjadi input seperti bahasa yang dapat diterima oleh LLM.

  2. Memanfaatkan LLM open-source sebagai inti untuk memproses input untuk pemahaman semantik dan penalaran dengan tambahan sinyal modalitas yang unik.

  3. Menyediakan sinyal multimodal ke berbagai encoder dan menghasilkan output ke modalitas yang sesuai.


Contoh proses inferensi NExT-GPT dapat dilihat pada gambar di bawah ini.

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any
Proses inferensi NExT-GPT (Wu et al. (2023))

Kita dapat melihat pada gambar di atas bahwa tergantung pada tugas yang kita inginkan, encoder dan decoder akan beralih ke modalitas yang sesuai. Proses ini hanya bisa terjadi karena NExT-GPT memanfaatkan konsep yang disebut modality-switching instruction tuning sehingga model dapat menyesuaikan dengan keinginan pengguna.


Para peneliti telah mencoba bereksperimen dengan berbagai kombinasi modalitas. Secara keseluruhan, kinerja NExT-GPT dapat diringkas dalam grafik di bawah ini.

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any
Hasil Kinerja Keseluruhan NExT-GPT (Wu et al. (2023))

Kinerja terbaik NExT-GPT adalah input Teks dan Audio untuk menghasilkan output Gambar (T+A => I), diikuti oleh input Teks, Audio, dan Gambar untuk menghasilkan output Gambar (T+A+I => I). Tindakan yang paling tidak berfungsi adalah input Teks dan Video untuk menghasilkan output Video (T+V => V).


Contoh kemampuan NExT-GPT ditunjukkan pada gambar di bawah ini.

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any
Text-to-Text+Image+Audio dari NExT-GPT (Sumber: NExT-GPT web)

Hasil di atas menunjukkan bahwa berinteraksi dengan NExT-GPT dapat menghasilkan Audio, Teks, dan Gambar yang sesuai dengan keinginan pengguna. Terlihat bahwa NExT-GPT dapat berfungsi dengan cukup baik dan cukup andal.


Contoh lain dari NExT-GPT ditunjukkan pada gambar di bawah ini.

Pengenalan NExT-GPT: Model Multimodal Large Language Any-to-Any
Text+Image-to-Text+Audio dari NExT-GPT (Source: NExT-GPT web)

Gambar di atas menunjukkan bahwa NExT-GPT dapat menangani dua jenis modalitas untuk menghasilkan output Teks dan Audio. Terlihat betapa serbagunanya model ini.


Jika Anda ingin mencoba model ini, Anda dapat mengatur model dan lingkungan dari halaman GitHub mereka. Selain itu, Anda dapat mencoba demo pada halaman berikut.


Kesimpulan


NExT-GPT adalah model multimodal yang menerima data input dan menghasilkan output dalam bentuk teks, gambar, audio, dan video. Model ini bekerja dengan memanfaatkan encoder khusus untuk modalitas dan beralih ke modalitas yang sesuai dengan keinginan pengguna. Hasil eksperimen kinerja menunjukkan hasil yang baik dan pekerjaan yang menjanjikan yang dapat digunakan dalam banyak aplikasi.

9 tampilan0 komentar

Postingan Terkait

Lihat Semua

Comments


bottom of page