Informasi Penting Metode Pandas Series dan Data Frame

Cornellius Yudha Wijaya
28 Jan 2024
3 menit membaca

Diperbarui: 2 Feb 2024

Baik Anda baru mempelajari ilmu data atau seorang profesional dengan pengalaman bertahun-tahun dengan Python sebagai bahasa pemrograman utama, modul Pandas akan menjadi senjata utama Anda. Salah satu alasan utama kita menggunakan Pandas adalah karena library ini memiliki objek yang disebut Series dan Data Frame. Saya akan menjelaskan dengan menggunakan contoh dataset mpg dari modul seaborn.

import pandas as pd
import seaborn as sns
import numpy as np

#Load the mpg dataset
mpg = sns.load_dataset('mpg')

Inilah tampilan Series, satu variabel/kolom/fitur yang bagus; tergantung pada sebutan yang Anda suka.

Dan ini adalah Data Frame, kumpulan series dengan digabungkan menjadi satu objek.

Dengan hanya melihat kedua objek diatas, kita tahu bahwa Series dan Data Frame adalah tempat di mana kita akan menganalisis data. Inilah mengapa kedua objek ini penting bagi Data Scientists. Untuk alasan itu, saya ingin memperkenalkan beberapa metode penting dari objek-objek ini untuk mendapatkan informasi yang pasti akan membantu pekerjaan harian Data Scientists.

Yang saya suka dari metode Series dan Data Frame adalah seberapa cepat mendapatkan informasi yang saya butuhkan. Berikut adalah beberapa metode yang saya anggap penting untuk diketahui.

1. DataFrame.info

Metode .info adalah metode khusus untuk objek Data Frame. Ini akan memberi Anda semua informasi penting yang ditunjukkan pada gambar di bawah.

mpg.info()

Hanya dengan satu baris, saya bisa mendapatkan banyak informasi sekaligus. Informasinya meliputi jumlah total data, jumlah kolom, nama kolom beserta jumlah data yang tidak Null dan tipe data, serta penggunaan memori.

2. Series.describe atau DataFrame.describe

Metode .describe dapat diimplementasikan baik pada objek Series maupun Data Frame. Mari lihat informasi apa yang bisa kita dapatkan dengan menggunakan metode .describe.

mpg.describe()

Dari gambar di atas, kita mendapatkan semua statistik dasar data numerik; yaitu Count, Mean, STD (Standard Deviation), Minimum, 25% Quantile, 50% Quantile (Median), 75% Quantile, dan Maximum.

Bagaimana jika kita ingin mendapatkan statistik dasar data non-numerik? Kita juga bisa melakukannya.

#Input exclude parameter as 'number' to exclude all the numerical columns
mpg.describe(exclude = 'number')

Pada contoh diatas, kita mengesampingkan semua kolom numerik (Termasuk kolom Boolean) dan hanya menampilkan kolom non-numerik. Seperti yang kita lihat, informasinya meliputi Count, Unique (Jumlah nilai unik), Top (Nilai paling sering muncul), dan Freq (Frekuensi nilai teratas).

Metode .describe juga ada pada objek Series; lebih spesifik lagi, output metode .describe dalam objek Data Frame adalah objek Series yang dikumpulkan menjadi satu.

mpg['mpg'].describe()

Inilah yang kita dapatkan jika kita menggunakan metode .describe pada objek Series, objek Series dari kolom statistik dasar.

3. Series.agg atau DataFrame.agg

Bagaimana jika kita hanya memerlukan statistik tertentu dan ingin menyatukannya dalam satu tempat. Saat itulah kita menggunakan metode .agg. Metode ini digunakan untuk menggabungkan banyak statistik menjadi satu objek Series atau Data Frame. Mari kita coba dengan contoh berikut.

mpg.agg('mean')
#we could also use function here, e.g. Numpy
#mpg.agg(np.mean)

Metode .agg menerima fungsi dan/atau string sebagai input parameter. Pada gambar di atas, kita mendapatkan objek Series dari rata-rata dari semua kolom numerik.

Sekarang, bagaimana jika kita ingin memiliki lebih dari satu tipe informasi statistik? Ya, kita sebenarnya bisa melakukannya. Saya akan tunjukkan pada contoh di bawah ini.

mpg.agg(['mean', 'std'])

Alih-alih menggunakan string atau fungsi, kita memasukkan parameter dengan objek List yang berisi semua informasi yang kita inginkan. Kali ini, kita mendapatkan objek Data Frame dengan semua informasi yang kita butuhkan.

Series juga menggunakan metode .agg.

mpg['mpg'].agg(['mean', 'std'])

Hasilnya bisa berupa angka atau objek Series dari statistik yang kita masukkan dalam objek List.

4. DataFrame.corr

Metode ini digunakan untuk mendapatkan matriks korelasi antara kolom-kolom numerik. Anda dapat membaca artikel saya tentang Korelasi di sini jika Anda ingin tahu lebih lanjut.

Mari coba metode ini dengan contoh berikut.

mpg.corr()

Secara default, metode korelasi akan menghitung Korelasi Pearson antara kolom-kolom numerik. Kita bisa mengubah parameter ke Korelasi Spearman, Korelasi Kendall, atau callable function yang kita tentukan sendiri.

5. DataFrame.groupby

Metode ini mengelompokkan semua kolom numerik berdasarkan kategori kolom kategorikal. Outputnya adalah objek groupby. Mari coba dengan contoh di bawah. Sebagai contoh, saya ingin mengelompokkan data mpg berdasarkan kolom origin.

mpg_groupby_origin = mpg.groupby('origin')

#Groupby object have many method similar to the series or dataframe; for example .mean
mpg_groupby_origin.mean()

Pada kode di atas, kita mendapatkan rata-rata dari semua kolom numerik tetapi dikelompokkan berdasarkan nilai kolom origin. Kita juga bisa menggunakan metode .agg untuk objek groupby kita.

# .T is a method to transpose the DataFrame
mpg_groupby_origin.agg(['mean', 'std']).T

Metode .agg mirip dengan yang kita gunakan di atas. Kita memasukkan parameter baik berupa string/fungsi atau objek List dengan string/fungsi sebagai nilainya.

Kesimpulan

Saya telah menjelaskan beberapa metode Informasi yang dimiliki Objek Series dan Data Frame dari Pandas. Diantaranya:

.info
.describe
.agg
.corr
.groupby

Semoga bermanfaat!

Artikel ditranslasi oleh: Ahmad Ilham Habibi