Visualisasi adalah bagian besar dalam dunia data, karena manusia lebih mudah memahami informasi ketika disajikan dengan benar. Itulah mengapa setiap orang yang berkecimpung di dunia data diharapkan mampu membuat visualisasi yang informatif dan menarik.
Grafik histogram adalah salah satu grafik yang paling umum dan berguna. Histogram adalah grafik dengan batang (bar) yang mewakili frekuensi data yang dibagi menjadi beberapa bin tertentu. Histogram sering digunakan untuk memvisualisasikan data numerik untuk memahami distribusi data dan mengidentifikasi tren.
Bagaimana cara kita membuat grafik histogram yang indah? Mari kita pelajari cara melakukannya.
Visualisasi Histogram dengan Seaborn
Sebagai contoh dataset, kita akan menggunakan data MPG dari paket Seaborn.
import seaborn as sns
mpg = sns.load_dataset('mpg')
mpg.head()
Dari contoh dataset, kita akan segera mengembangkan grafik histogram sederhana menggunakan paket Seaborn. Untuk melakukannya, kita perlu menggunakan fungsi histplot.
Fungsi ini secara default mengambil variabel data numerik sebagai argumen, dan hasilnya adalah histogram dari nilai argumen tersebut. Mari coba fungsinya.
# Buat histogram dari variabel "mpg"
sns.histplot(data=mpg, x="mpg")
Dari satu baris kode, kita mendapatkan visualisasi histogram yang bagus. Distribusi variabel “mpg” condong ke kanan karena banyak nilai berada di antara 15–25. Ini adalah jenis informasi yang dapat kita peroleh dengan histogram.
Kustomisasi Visualisasi Histogram
Default visualisasi histogram dari Seaborn sudah bagus, tetapi mungkin kita ingin mengubah grafik histogram untuk membuatnya lebih indah.
Dalam hal ini, ada berbagai opsi kustomisasi menggunakan paket Seaborn.
Beberapa plot histogram berdasarkan kolom kategorikal
Terkadang, kita ingin membandingkan distribusi variabel numerik berdasarkan nilai variabel lain. Untuk melakukannya, kita bisa melewatkan nama variabel untuk dibandingkan dalam parameter hue.
sns.histplot(data=mpg, x="mpg", hue = 'origin')
Menampilkan kurva Kernel Density Estimate (KDE)
Kernel Density Estimate atau KDE adalah cara non-parametrik untuk memperkirakan probabilitas data menggunakan fungsi kepadatan (density). Pada dasarnya, KDE memperhalus histogram untuk menunjukkan distribusi. Untuk menampilkan kurva KDE, kita bisa menggunakan kode berikut.
sns.histplot(data=mpg, x="mpg", kde=True)
Mengubah jumlah bin
Plot histogram bergantung pada jumlah interval untuk membagi nilai variabel. Jika kita ingin mengubah jumlah bin, kita bisa melakukannya dengan melewatkan parameter bins menggunakan kode berikut.
sns.histplot(data=mpg, x="mpg", bins = 5)
Kita juga bisa mengubah jumlah bin berdasarkan lebarnya menggunakan parameter binwidth.
sns.histplot(data=mpg, x="mpg", binwidth=5)
Selain itu, kita bisa membatasi rentang bin minimum dan maksimum menggunakan parameter binrange.
sns.histplot(data=mpg, x="mpg", binrange=(5, 30))
Mengubah statistik agregat
Secara default, Seaborn menganggap histogram digunakan untuk menghitung nilai yang masuk ke setiap bin. Namun, kita bisa mengubah statistik agregat. Beberapa opsi tersedia di Seaborn, diantaranya:
1. Frequency
Menunjukkan jumlah nilai yang diamati dibagi dengan lebar bin.
sns.histplot(data=mpg, x="mpg", stat = 'frequency')
2. Probability
Menunjukkan nilai yang dinormalisasi sehingga jumlah tinggi batang adalah 1.
sns.histplot(data=mpg, x="mpg", stat = 'probability')
3. Density
Menunjukkan nilai yang dinormalisasi sehingga total area histogram adalah 1.
sns.histplot(data=mpg, x="mpg", stat = 'density')
Mengubah estetika histogram
Kita bisa mengubah warna dan transparansi plot histogram. Untuk plot histogram tunggal, kita bisa melewatkan nilai string warna ke parameter color dan nilai transparan ke parameter alpha.
sns.histplot(data=mpg, x="mpg", color = 'red', alpha = 0.5)
Jika kita memiliki beberapa plot histogram, kita bisa mengubah tema warna keseluruhan dengan mengubah parameter palette. Untuk mengetahui nilai yang digunakan dalam parameter palette, kita bisa menemukannya di dokumentasi.
sns.histplot(data=mpg, x="mpg", kde = True, palette = "Spectral", hue ='origin')
Kesimpulan
Histogram adalah plot untuk memvisualisasikan variabel numerik dan memperoleh informasi tren distribusi. Ini adalah visualisasi yang berguna ketika kita perlu menyajikan apa yang terjadi dalam data kita. Dengan menggunakan paket Seaborn, kita bisa dengan mudah membuat plot histogram yang indah dan menyesuaikannya sesuai kebutuhan.
댓글