Apakah Kita Terlalu Meremehkan Model Sederhana?

Tren terkini di dunia machine learning adalah selalu tentang model-model canggih.

Gerakan ini terutama didorong oleh banyak kursus yang menggunakan model kompleks sebagai andalannya, dan terlihat jauh lebih keren ketika menggunakan model seperti Deep Learning atau LLM. Orang-orang bisnis juga tidak terlalu membantu dalam masalah ini karena mereka hanya melihat tren populer.

Kesederhanaan bukan berarti hasil yang mengecewakan. Model sederhana hanya berarti langkah-langkah yang digunakannya untuk memberikan solusi lebih tidak rumit dibandingkan model canggih. Model ini mungkin menggunakan parameter yang lebih sedikit atau metode optimasi yang lebih sederhana, tetapi model sederhana tetap valid.

Merujuk pada prinsip filosofi, Occam’s Razor atau Law of Parsimony menyatakan bahwa penjelasan yang paling sederhana biasanya yang terbaik. Ini menyiratkan bahwa sebagian besar masalah biasanya dapat diselesaikan melalui pendekatan yang paling sederhana. Itulah mengapa nilai model sederhana terletak pada sifat sederhananya dalam menyelesaikan masalah.

Model sederhana sama pentingnya dengan jenis model lainnya. Itulah pesan penting yang ingin saya sampaikan di artikel ini, dan kita akan mengeksplorasi alasannya. Jadi, mari kita mulai.

Model Sederhana dan Keuntungannya

Ketika kita berbicara tentang model sederhana, apa yang dimaksud dengan model sederhana? Logistic Regression atau Naive Bayes sering disebut sebagai model sederhana, sementara neural networks adalah model kompleks; bagaimana dengan random forest? Apakah itu model sederhana atau model kompleks?

Secara umum, kita tidak mengklasifikasikan Random Forest sebagai model sederhana tetapi sering ragu mengklasifikasikannya sebagai model kompleks. Ini karena tidak ada aturan yang mengatur klasifikasi tingkat kesederhanaan model. Namun, ada beberapa aspek yang mungkin membantu mengklasifikasikan model. Aspek-aspek tersebut meliputi:

Jumlah Parameter,
Interpretabilitas, dan
Efisiensi komputasi.

Aspek-aspek ini juga mempengaruhi keuntungan model. Mari kita bahas lebih detail.

Jumlah Parameter

Parameter adalah konfigurasi model bawaan yang dipelajari atau diperkirakan selama proses training. Berbeda dari konsep hyperparameter, parameter tidak dapat diatur oleh pengguna tetapi dipengaruhi oleh pemilihan hyperparameter.

Contoh parameter termasuk koefisien Linear Regression, bobot dan bias Neural Network, dan centroid cluster K-means. Seperti yang Anda lihat, nilai parameter model berubah secara independen saat kita belajar dari data. Nilai parameter terus diperbarui dalam iterasi model hingga model akhir terbentuk.

Linear regression adalah model sederhana karena memiliki sedikit parameter. Parameter Linear regression adalah koefisien dan intercept-nya. Bergantung pada jumlah fitur yang kita latih, Linear regression akan memiliki n+1 parameter (n adalah jumlah koefisien fitur ditambah 1 untuk intercept).

Bandingkan dengan Neural Network, model ini lebih kompleks untuk dihitung. Parameter dalam Neural Network, terdiri dari bobot dan bias. Bobot akan tergantung pada input layer (n) dan neuron (p), dan jumlah parameter bobot akan menjadi n*p. Setiap neuron akan memiliki biasnya sendiri, jadi untuk setiap p, akan ada bias p. Secara total, parameternya akan menjadi sekitar (n*p) + p. Kompleksitasnya kemudian meningkat dengan setiap penambahan layer, di mana setiap layer tambahan akan meningkatkan parameter (n*p) + p.

Kita telah melihat bahwa jumlah parameter memengaruhi kompleksitas model, tetapi bagaimana hal ini memengaruhi kinerja output model secara keseluruhan? Konsep yang paling penting adalah hal ini memengaruhi risiko overfitting.

Overfitting terjadi ketika algoritma model kita memiliki daya generalisasi yang buruk karena model tersebut mempelajari noise dalam dataset. Dengan lebih banyak parameter, model dapat menangkap pola yang lebih kompleks dalam data, tetapi juga termasuk noise karena model menganggapnya sebagai hal yang signifikan. Sebaliknya, model parameter yang lebih kecil memiliki kemampuan terbatas yang berarti lebih sulit untuk overfitting.

Ada juga efek langsung pada interpretabilitas dan efisiensi komputasi, yang akan kita bahas lebih lanjut.

Interpretabilitas

Interpretabilitas adalah konsep machine learning yang mengacu pada kemampuan model untuk menjelaskan outputnya. Pada dasarnya, ini adalah bagaimana pengguna dapat memahami output dari perilaku model. Nilai signifikan dari model sederhana terletak pada interpretabilitasnya, dan ini merupakan efek langsung dari jumlah parameter yang lebih sedikit.

Dengan parameter yang lebih sedikit, interpretabilitas model sederhana menjadi lebih tinggi karena model lebih mudah dijelaskan. Selain itu, cara kerja internal model menjadi lebih transparan karena lebih mudah untuk memahami peran masing-masing parameter dibandingkan model yang kompleks.

Sebagai contoh, koefisien Linear Regression lebih mudah dijelaskan karena parameter koefisien secara langsung mempengaruhi fitur. Sebaliknya, model kompleks seperti Neural Network sulit untuk menjelaskan kontribusi langsung parameter terhadap output prediksi.

Nilai interpretabilitas sangatlah penting dalam banyak bidang bisnis atau proyek karena bisnis tertentu membutuhkan output yang dapat dijelaskan. Misalnya, prediksi di bidang medis memerlukan penjelasan karena ahli medis perlu percaya diri dengan hasilnya; bagaimanapun juga, ini mempengaruhi kehidupan individu.

Banyak yang lebih memilih menggunakan model sederhana untuk menghindari bias dalam keputusan model. Bayangkan sebuah perusahaan pinjaman melatih model dengan dataset yang penuh bias, dan outputnya mencerminkan bias tersebut. Kita ingin menghilangkan bias karena tidak etis, jadi kemampuan menjelaskan sangat penting untuk mendeteksinya.

Efisiensi Komputasi

Efek langsung lainnya dari parameter yang lebih sedikit adalah peningkatan efisiensi komputasi. Jumlah parameter yang lebih sedikit berarti lebih sedikit waktu yang dibutuhkan untuk menemukan parameter dan lebih sedikit daya komputasi.

Dalam produksi, model dengan efisiensi komputasi yang lebih tinggi akan menjadi lebih mudah untuk diterapkan dan memiliki waktu inferensi yang lebih singkat dalam aplikasi. Efeknya juga akan membuat model sederhana lebih mudah untuk diterapkan pada perangkat dengan sumber daya terbatas seperti smartphone.

Secara keseluruhan, model sederhana akan menggunakan lebih sedikit sumber daya, yang berarti lebih sedikit uang yang dikeluarkan untuk pemrosesan dan penerapan.

Kesimpulan

Kita mungkin meremehkan model sederhana karena terlihat tidak menarik atau tidak memberikan output metrik yang paling optimal. Namun, ada banyak nilai yang bisa kita ambil dari model sederhana. Dengan melihat aspek yang mengklasifikasikan kesederhanaan model, model sederhana membawa nilai-nilai berikut ini:

Model sederhana memiliki jumlah parameter yang lebih sedikit, tetapi juga mengurangi risiko overfitting.
Dengan parameter yang lebih sedikit, model sederhana memberikan nilai interpretabilitas yang lebih tinggi.
Semakin sedikit parameter juga berarti model sederhana lebih efisien secara komputasi.