top of page
Gambar penulisCornellius Yudha Wijaya

7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Diperbarui: 16 Jul

Tingkatkan workflow data Anda dengan langkah-langkah ini

7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Pandas adalah paket Python yang digunakan untuk manipulasi data dan telah menjadi andalan banyak data scientists. Ada banyak alternatif, tetapi Pandas tetap menjadi pilihan utama untuk melakukan aktivitas data di Python.


Melihat betapa pentingnya Pandas untuk pekerjaan data kita, tak ada salahnya untuk mempelajari beberapa tips untuk meningkatkan workflow kita. Berikut adalah beberapa tips yang ingin saya bagikan untuk meningkatkan kemampuan Anda dalam menggunakan Pandas.


Apa saja itu? Mari kita mulai.



Tips 1: Menggunakan Pandas’ Options and Settings

Saat bekerja dengan Pandas, ada kalanya tampilan default Pandas DataFrame tidak sesuai untuk pekerjaan Anda. Itulah mengapa ada opsi untuk mengubahnya.

Prosesnya diatur menggunakan pd.set_options dan kita berikan opsi yang sesuai.

Berikut adalah beberapa contoh yang dapat Anda lakukan:


1. Mengatur tampilan baris dan kolom tabel:

# Mengatur jumlah maksimum baris dan kolom yang akan ditampilkan

pd.set_option('display.max_rows', 50
)pd.set_option('display.max_columns', None)

Kode di atas akan menampilkan semua kolom yang ada dalam tabel dan menampilkan maksimal 50 baris.

2. Presisi nilai float:

pd.set_option('display.precision', 3)

Kode di atas mengontrol jumlah maksimal float atau desimal yang ditampilkan.

3. Mengubah representasi missing value dalam Pandas:

pd.set_option('styler.format.na_rep', 'Empty')

Opsi di atas akan mengubah representasi nilai dmissing value menjadi string pilihan Anda.

Untuk semua pilihan yang ada, Anda dapat mengunjungi dokumentasi ini.

Tips 2: Menggunakan Pandas Replace dan Regex untuk Data Cleaning

Anda dapat melakukan data cleaning tingkat lanjut di Pandas menggunakan fungsi Replace. Ini adalah fungsi di mana kita menyatakan apa yang harus diganti dan apa penggantinya.

Bagian terbaik dari fungsi Replace adalah fungsi tersebut mengizinkan penggunaan metode Regex. Berikut adalah contoh kodenya.


Misalnya, berikut adalah DataFrame awal.

import pandas as pd

# Sampel DataFrame
data = {'text_column': ['123abc', '456def', '789ghi', 'NoNumbers', '1000xyz']}
df = pd.DataFrame(data)

# Menampilkan DataFrame awal
print("Original DataFrame:")
print(df)
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Selanjutnya, kita mengganti semua karakter alfabet dengan string kosong, yang berarti kita menghapusnya.

# Menggunakan replace dengan regex untuk menghapus semua karakter alfabet
df['text_column'] = df['text_column'].replace({'[A-Za-z]': ''}, regex=True)

# Menampilkan DataFrame yang telah dimodifikasi
print("Replace alphabetical character DataFrame:")
print(df)
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Teknik advanced cleaning ini mempermudah workflow data Anda.

Tips 3: Menggunakan query untuk pemilihan data

Pemilihan data adalah aktivitas paling penting yang akan Anda lakukan sebagai Data Scientist, namun ini juga salah satu yang paling merepotkan. Terkadang, ini merepotkan karena kondisinya terlalu panjang. Itulah mengapa kita bisa menggunakan metode query dari objek Pandas DataFrame untuk membuatnya lebih mudah.


Berikut adalah contoh penggunaan metode query.

# Sampel DataFrame
data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': ['red', 'blue', 'green', 'yellow', 'black']}
df = pd.DataFrame(data)

# Menggunakan.query() untuk memfilter data
# Memilih baris dimana 'A' lebih dari 2 dan'B' kurang dari 50
filtered_df = df.query('A > 2 & B < 50')

print(filtered_df)
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Tips 4: Menggunakan Metode Chaining dengan Pipe

Metode chaining adalah fungsi berkelanjutan yang dieksekusi dalam baris kode yang sama. Kita menggunakan metode chaining untuk mengurangi baris yang kita tulis dan menjalankan fungsi lebih cepat. Pandas biasanya mendorong penggunaan metode ini.


Berikut adalah contoh Metode Chaining:

# Sampel DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})

# Tentukan fungsi untuk transformasi
def add_column(df, col_name, value):
    df[col_name] = value
    return df

def multiply_column(df, col_name, factor):
    df[col_name] = df[col_name] * factor
    return df

# Gunakanpipe() untuk metode chaining
result_df = (df
             .pipe(add_column, 'C', 100)
             .pipe(multiply_column, 'A', 10)
             .pipe(multiply_column, 'B', 0.1))

print(result_df)

Pada contoh di atas, kita melakukan tiga transformasi pada dataframe dengan fungsi tersebut. Alih-alih menjalankannya tiga kali secara terpisah, kita menggabungkannya untuk membuatnya lebih rapi.




Tips 5: Sorot Informasi DataFrame

Saat mempresentasikan data Anda, kita juga dapat menggunakan semua informasi sebagai cara utama untuk presentasi data. Saya sering memberi data dengan warna background untuk menyoroti angka mana yang berada di area yang lebih rendah dan lebih tinggi. Mari kita gunakan contoh dengan kode berikut:

import numpy as np

# Sampel DataFrame
np.random.seed(0)
df = pd.DataFrame(np.random.rand(5, 3), columns=['A', 'B', 'C'])

# Menerapkan gradient function style
styled_df = df.style.background_gradient(cmap='Blues')

styled_df
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Pada kode di atas, kita menggunakan gradasi untuk menunjukkan nilai mana di setiap kolom yang memiliki nilai tertinggi dan terendah.

Tips 6: Membaca data dari Web

Terkadang, Anda menemukan banyak tabel di Web yang menarik dan ingin memprosesnya. Pada kasus ini, Anda dapat membaca data tabel HTML dari Web. Misalnya, kode berikut akan membaca semua tabel dari halaman Wikipedia.

import pandas as pd

# URL dengan HTML table
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'

# Baca semua tabel yang ditemukan dalam HTML ke dalam daftar DataFrames
tables = pd.read_html(url)
tables[2]
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Dengan beberapa baris kode, semua tabel yang Anda butuhkan sekarang tersedia di Jupyter Environment Anda.


Tips 7: Jangan Lupa Memeriksa Konsumsi Memori DataFrame Anda Secara Berkala

Pandas DataFrame bisa mengonsumsi banyak memori, jadi menghapus variabel yang tidak perlu selalu menjadi praktik yang baik, terutama jika menggunakan banyak memori.


Anda dapat menggunakan kode berikut untuk mendapatkan informasi tentang penggunaan memori DataFrame Anda:

df.info(memory_usage='deep')
7 Tips Pandas untuk Meningkatkan Kemampuan Data Anda

Informasinya ada di bagian bawah. Pantau bagian ini untuk memastikan lingkungan Anda bekerja dengan baik.



22 tampilan0 komentar

コメント


bottom of page