Penjelasan Large Language Model dalam 3 Tingkat Kesulitan

Kita hidup di era di mana model machine learning sedang berada di puncaknya. Dibandingkan dengan beberapa dekade lalu, kebanyakan orang bahkan belum pernah mendengar tentang ChatGPT atau Artificial Intelligence (AI). Namun, sekarang topik-topik inilah yang terus dibicarakan orang. Mengapa? Karena nilai yang diberikan sangat signifikan dibandingkan dengan usaha yang dikeluarkan.

Terobosan AI dalam beberapa tahun terakhir dapat dikaitkan dengan banyak hal, tetapi salah satunya adalah Large Language Model (LLM). Banyak AI teks generatif yang digunakan orang didukung oleh model LLM; misalnya, ChatGPT menggunakan model GPT mereka. Karena LLM adalah topik penting, maka kita harus mempelajarinya.

Artikel ini akan membahas Large Language Model dalam 3 tingkat kesulitan, tetapi kita hanya akan membahas beberapa aspek LLM. Kita hanya akan menggunakan pendekatan yang berbeda untuk memungkinkan setiap pembaca memahami apa itu LLM. Dengan begitu, mari kita mulai.

Level 1: Penjelasan LLM untuk Tingkat Pemula

Pada tingkat pertama, kita mengasumsikan pembaca tidak tahu tentang LLM dan mungkin hanya tahu sedikit tentang bidang data science atau machine learning. Jadi, saya akan memperkenalkan secara singkat AI dan Machine Learning sebelum pindah ke LLM.

Artificial Intelligence adalah ilmu untuk mengembangkan program komputer yang cerdas. Program ini dirancang untuk melakukan tugas-tugas cerdas yang dapat dilakukan manusia tetapi tidak memiliki keterbatasan pada kebutuhan biologis manusia. Machine learning adalah bidang dalam Artificial Intelligence yang fokus pada studi generalisasi data dengan algoritma statistik. Dengan cara ini, machine learning mencoba mencapai Artificial Intelligence melalui studi data sehingga program dapat melakukan tugas-tugas cerdas tanpa instruksi.

Secara historis, bidang yang berada di antara ilmu komputer dan linguistik disebut bidang Natural Language Processing. Bidang ini berkaitan dengan aktivitas pemrosesan teks manusia yang dilakukan oleh mesin, seperti dokumen teks. Sebelumnya, bidang ini hanya terbatas pada sistem berbasis aturan, tetapi menjadi lebih berkembang dengan diperkenalkannya algoritma semi-supervised dan unsupervised canggih yang memungkinkan model untuk belajar tanpa arahan apa pun. Salah satu model canggih untuk melakukan ini adalah Language Model.

Language Model adalah model NLP probabilistik untuk melakukan banyak tugas manusia seperti penerjemahan, koreksi tata bahasa, dan generasi teks. Bentuk lama language model menggunakan pendekatan statistik murni seperti metode n-gram, di mana asumsi dasarnya adalah bahwa probabilitas kata berikutnya hanya bergantung pada data berukuran tetap dari kata sebelumnya.

Namun, diperkenalkannya Neural Network telah menggantikan pendekatan sebelumnya. Neural Network adalah program komputer yang meniru struktur neuron otak manusia. Pendekatan Neural Network bagus untuk digunakan karena dapat menangani pengenalan pola yang kompleks dari data teks dan menangani data berurutan seperti teks. Itulah sebabnya Language Model saat ini biasanya didasarkan pada Neural Network.

Large Language Models, atau LLM, adalah model machine learning yang belajar dari sejumlah besar dokumen data untuk melakukan generasi bahasa serbaguna. Ini masih merupakan language model, tetapi banyaknya parameter yang dipelajari oleh Neural Network membuatnya dianggap sebagai model besar. Dalam istilah awam, model ini dapat meniru cara menulis manusia dengan memprediksi kata berikutnya dari kata input yang diberikan dengan sangat baik.

Contoh tugas LLM termasuk penerjemahan bahasa (language translation), chatbot (machine chatbot), menjawab pertanyaan (question answering), dan masih banyak lagi. Dari urutan data input apa pun, model ini dapat mengidentifikasi hubungan antara kata-kata dan menghasilkan output yang sesuai dengan instruksi.

Hampir semua produk AI generatif yang menawarkan sesuatu dengan generasi teks didukung oleh LLM. Produk besar seperti ChatGPT, Google Gemini, dan masih banyak lagi menggunakan LLM sebagai dasar produk mereka.

Level 2: Penjelasan LLM untuk Tingkat Menengah

Pada tingkat ini, pembaca memiliki pengetahuan data science tetapi perlu mempelajari lebih lanjut tentang LLM. Setidaknya, pembaca dapat memahami istilah-istilah yang digunakan dalam bidang data. Pada tingkat ini, kita akan menyelami lebih dalam arsitektur dasar.

Seperti yang dijelaskan sebelumnya, LLM adalah model Neural Network yang dilatih pada sejumlah besar data teks. Untuk memahami konsep ini lebih jauh, akan bermanfaat untuk memahami bagaimana Neural Network dan Deep Learning bekerja.

Pada tingkat sebelumnya, kita menjelaskan bahwa neural neuron adalah model yang meniru struktur neuron otak manusia. Elemen utama dari Neural Network adalah neuron, yang sering disebut node. Untuk menjelaskan konsepnya dengan lebih baik, lihat arsitektur Neural Network pada gambar di bawah ini.

Seperti yang dapat kita lihat pada gambar di atas, Neural Network terdiri dari tiga lapisan:

Lapisan input di mana ia menerima informasi dan mentransfernya ke node lain di lapisan berikutnya.
Lapisan node tersembunyi di mana semua perhitungan dilakukan.
Lapisan node output di mana hasil perhitungan berada.

Disebut deep learning ketika kita melatih model Neural Network kita dengan dua atau lebih lapisan tersembunyi. Disebut deep (mendalam) karena menggunakan banyak lapisan didalamnya. Keuntungan dari model deep learning adalah mereka secara otomatis belajar dan mengekstrak fitur dari data yang tidak mampu dilakukan oleh model machine learning tradisional.

Deep Learning sangat penting dalam Large Language Model karena model ini dibangun di atas arsitektur neural network yang mendalam. Jadi, mengapa disebut LLM? Itu karena miliaran lapisan dilatih pada sejumlah besar data teks. Lapisan-lapisan ini akan menghasilkan parameter model yang membantu model mempelajari pola bahasa yang kompleks, termasuk tata bahasa (grammar), gaya penulisan, dan masih banyak lagi.

Penyederhanaan proses pelatihan model ditunjukkan pada gambar di bawah ini.

Proses ini menunjukkan bahwa model dapat menghasilkan teks yang relevan berdasarkan kemungkinan setiap kata atau kalimat dari data input. Dalam LLM, pendekatan canggih menggunakan self-supervised learning dan semi-supervised learning untuk mencapai kemampuan serbaguna.

Self-supervised learning adalah teknik di mana kita tidak memiliki label, sebaliknya, data training memberikan training feedback-nya sendiri. Ini digunakan dalam proses pelatihan LLM karena data biasanya tidak memiliki label. Dalam LLM, seseorang bisa menggunakan konteks sekitar sebagai petunjuk untuk memprediksi kata berikutnya. Sebaliknya, Semi-supervised learning menggabungkan konsep supervised dan unsupervised learning dengan sejumlah kecil data berlabel untuk menghasilkan label baru untuk sejumlah besar data yang tidak berlabel. Semi-supervised learning biasanya digunakan untuk LLM dengan kebutuhan konteks atau domain tertentu.

Level 3: Penjelasan LLM untuk Tingkat Lanjut

Pada tingkat ketiga, kita akan membahas LLM lebih dalam, terutama menangani struktur LLM dan bagaimana ia dapat mencapai kemampuan generasi seperti manusia.

Kita telah membahas bahwa LLM didasarkan pada model Neural Network dengan teknik Deep Learning. LLM biasanya dibangun berdasarkan arsitektur berbasis transformer dalam beberapa tahun terakhir. Transformer didasarkan pada mekanisme multi-head attention yang diperkenalkan oleh Vaswani et al. (2017) dan telah digunakan dalam banyak LLM.

Transformer adalah arsitektur model yang mencoba menyelesaikan tugas berurutan yang sebelumnya ditemui dalam RNN dan LSTM. Cara lama Language Model adalah menggunakan RNN dan LSTM untuk memproses data secara berurutan, di mana model akan menggunakan setiap output kata dan mengulanginya kembali sehingga model tidak lupa. Namun, mereka memiliki masalah dengan data urutan panjang saat transformer baru diperkenalkan.

Sebelum kita membahas lebih dalam tentang Transformer, saya ingin memperkenalkan konsep encoder-decoder yang sebelumnya digunakan dalam RNN. Struktur encoder-decoder memungkinkan teks input dan output tidak memiliki panjang yang sama. Contoh kasus penggunaannya adalah penerjemahan bahasa, yang sering kali memiliki ukuran urutan yang berbeda.

Struktur ini dapat dibagi menjadi dua. Bagian pertama disebut Encoder, yang merupakan bagian yang menerima urutan data dan membuat representasi baru berdasarkan input. Representasi ini akan digunakan di bagian kedua model, yaitu decoder.

Masalah pada RNN adalah model mungkin kesulitan mengingat urutan yang lebih panjang, bahkan dengan struktur encoder-decoder di atas. Di sinilah mekanisme attention dapat membantu menyelesaikan masalahnya, lapisan yang dapat menyelesaikan masalah input panjang. Mekanisme attention diperkenalkan dalam paper dari Bahdanau et al. (2014) untuk menyelesaikan tipe encoder-decoder RNN dengan fokus pada bagian penting dari input model saat memiliki prediksi output.

Struktur transformer terinspirasi oleh tipe encoder-decoder dan dibangun dengan teknik mekanisme attention, sehingga tidak perlu memproses data secara berurutan. Model transformer secara keseluruhan disusun seperti gambar di bawah ini.

Dalam struktur di atas, transformer meng-encode urutan vektor data menjadi embedding kata, sementara menggunakan decoding untuk mengubah data kembali ke bentuk aslinya. Encoding dapat memberikan nilai penting pada input tertentu dengan mekanisme attention.

Kita telah membahas sedikit tentang transformer yang meng-encode vektor data, tetapi apa itu vektor data?

Mari kita bahas. Dalam model machine learning, kita tidak dapat memasukkan data bahasa alami mentah ke dalam model, jadi kita perlu mengubahnya menjadi bentuk numerik. Proses transformasi ini disebut embedding kata, di mana setiap kata input diproses melalui model embedding kata untuk mendapatkan vektor data. Kita bisa menggunakan banyak embedding kata awal, seperti Word2vec atau GloVe, tetapi banyak pengguna tingkat lanjut mencoba memperbaikinya menggunakan kosakata mereka sendiri. Dalam bentuk dasar, proses embedding kata dapat ditunjukkan dalam gambar di bawah ini.

Transformer dapat menerima input dan memberikan konteks yang lebih relevan dengan menyajikan kata-kata dalam bentuk numerik seperti vektor data di atas. Dalam LLM, embedding kata biasanya tergantung pada konteks, umumnya disempurnakan berdasarkan kasus penggunaan dan output yang diinginkan.

Kesimpulan

kita telah membahas Large Language Model dalam tiga tingkat kesulitan, mulai dari pemula hingga tingkat lanjut. Dari penggunaan umum LLM hingga bagaimana struktur LLM, Anda dapat menemukan penjelasan yang menjelaskan konsep ini dengan lebih detail.

Penjelasan Large Language Model dalam 3 Tingkat Kesulitan

Level 1: Penjelasan LLM untuk Tingkat Pemula

Level 2: Penjelasan LLM untuk Tingkat Menengah

Level 3: Penjelasan LLM untuk Tingkat Lanjut

Kesimpulan

Postingan Terkait

Comments