Setelah mengumpulkan data, sebagai Data Scientist, kita seringkali ingin segera melanjutkan dengan analisis data dan membuat model machine learning yang sempurna. Kreativitas kita tak terbatas dan hanya dibatasi oleh apa yang ada di otak kita. Namun, ada beberapa hal yang tidak boleh dilakukan dengan data kita.
Untuk itu, berikut adalah lima hal yang menurut saya boleh dan tidak boleh dilakukan sebagai data scientist.
Namun, ada beberapa hal yang tidak boleh dilakukan dengan data kita.
1. Dropping Data
Don’t: Dropping data tanpa analisis yang tepat.
Saat mengumpulkan data dan melakukan investigasi, mungkin kita menemukan missing data atau outlier. Banyak calon data scientist cenderung membuang data ini tanpa analisis lebih lanjut dengan alasan “hanya sedikit data” atau “data tersebut tidak akan mempengaruhi model machine learning”. Pemikiran seperti ini sangat berbahaya.
Do: Dropping data setelah analisis yang teliti.
Bukan berarti Anda tidak boleh membuang data, tetapi lakukanlah hanya setelah analisis menyeluruh. Missing data atau outlier mungkin mengandung pola penting yang dapat membantu menjawab pertanyaan kita.
2. Mengandalkan Akurasi
Don’t:: Hanya mengandalkan Akurasi untuk mengukur “kesuksesan”.
Setelah menganalisis data dan membuat model machine learning, kita mengevaluasi model tersebut dan menunjukkan akurasi 98%. Kita mungkin berpikir model tersebut sudah bagus dan siap digunakan. Meskipun akurasi tinggi bisa menunjukkan model yang baik, hanya mengandalkan akurasi untuk mengukur kesuksesan model bisa saja salah.
Do: Ukur “kesuksesan” dari berbagai metrik lainnya.
Bergantung pada pertanyaan yang kita ajukan, akurasi mungkin bukan metrik terbaik untuk mewakili model kita. Ada banyak metrik lain seperti Precision, Recall, F1 Score, Log Loss, dan lain-lain yang mungkin lebih baik dalam mewakili data kita.
Contohnya, kita membuat model untuk memprediksi gagal bayar pinjaman. Dalam kasus bisnis, kita tidak akan mengukur kesuksesan model hanya berdasarkan akurasi, tetapi juga mempertimbangkan apa yang paling penting terlebih dahulu. Apakah memprediksi kasus gagal bayar lebih penting atau tidak? Dari sini, kita memilih metrik mana yang terbaik untuk digunakan.
3. Memilih Data yang Sesuai dengan Hipotesis
Don’t: Memilih subset data untuk mendukung hipotesis Anda.
Setelah melakukan penelitian dan analisis data, ternyata klaim awal kita salah. Lalu kita berpikir, “Apakah lebih baik hanya memilih data yang saya anggap baik untuk hipotesis saya?”. Jika kita berpikir seperti ini dan melanjutkan dengan memilih hanya data yang mendukung klaim kita, itu adalah hal yang salah untuk dilakukan.
Do: Biarkan data berbicara sebagaimana adanya.
Biarkan data menunjukkan pola yang ada dan bekerjalah dari sana. Sulit untuk menerima bahwa data kita tidak menjelaskan apa yang kita inginkan, tetapi jika kita hanya memilih data yang ingin kita lihat, itu akan mengarah pada keputusan yang buruk.
Ini juga berlaku untuk kasus Machine Learning. Memilih subset data mungkin meningkatkan akurasi, tetapi hati-hati karena tidak semua kasus akan terwakili oleh data Anda. Misalnya, ketika Anda menghapus orang di bawah 25 tahun dari data Anda, akurasi meningkat sebesar 25%. Mungkin terlihat bagus, tetapi model Anda tidak akan mewakili siapa pun yang berusia di bawah 25 tahun.
4. Menganggap Korelasi sebagai Kausalitas
Don’t: Menganggap korelasi sebagai kausalitas tanpa analisis yang tepat.
Kita memiliki data dan kemudian menerapkan analisis korelasi. Dari analisis tersebut, terlihat adanya korelasi linear yang kuat antara dua variabel. Melihat hasil ini, Anda mungkin berpikir bahwa hubungan tersebut terjadi karena salah satu variabel menyebabkan variabel lain muncul, dan sebaliknya.
Meskipun itu mungkin benar, sebagai seorang Data Scientist, Anda perlu meragukannya terlebih dahulu. Sebab, korelasi tidak selalu menunjukkan adanya hubungan sebab-akibat. Kebanyakan, korelasi hanya karena kebetulan.
Do: Temukan bukti untuk mendukung asumsi kausalitas.
Bukti korelasi tidak cukup hanya dengan “Korelasi Pearson” atau “Korelasi Spearman”. Penelitian yang baik membutuhkan metodologi yang tepat dan literatur yang luas untuk menemukan bukti tersebut.
5. Asumsi Statistik
Don’t: Menggunakan metode statistik atau model Machine Learning tanpa mengetahui asumsinya.
Sering kali saya melihat calon data scientist menerapkan metode statistik (misalnya, uji t, ANOVA, Korelasi Pearson, dll.) atau model machine learning (Linear Regression, Random Forest, Boosting, dll.) tanpa mengetahui apa asumsi yang harus dipenuhi sebelum menggunakannya. Meskipun mungkin masih dapat digunakan, melanggar asumsi tersebut akan memberikan hasil yang kurang dapat diandalkan; berarti analisis statistik atau model machine learning akan menyesatkan.
Do: Baca asumsi tetapi jangan memaksa data mengikuti asumsi tersebut.
Anda perlu mengikuti asumsi jika ingin hasil yang dapat dipercaya. Contohnya, uji t independen membutuhkan data yang mengikuti distribusi normal, independen, dan homogenitas variansi. Melanggar salah satu asumsi akan membuat hasilnya kurang dapat diandalkan.
Dalam kasus ini, Anda mungkin berpikir untuk membuat data sesuai dengan asumsi, tetapi ini juga tidak disarankan. Meskipun Anda bisa mencoba mentransformasi data menjadi distribusi normal (ini sering terjadi), pola asli akan hilang. Lebih baik mencoba metode lain yang asumsi datanya bisa terpenuhi tanpa melakukan transformasi atau pemilihan data secara selektif.
Kesimpulan
Di sini saya menunjukkan lima hal yang menurut saya boleh dan tidak boleh dilakukan sebagai data scientist, meskipun mungkin ada banyak hal lain yang lebih penting menurut orang lain, namun bagi saya, lima hal ini perlu diingat sebagai Data Scientist.
Comments