30 Days of Pandas dalam Satu Artikel

Pandas adalah Python Package khusus untuk manipulasi data. Package ini tak terpisahkan dalam kehidupan Data Scientist dan tidak ada ruginya untuk mempelajarinya lebih lanjut.

Sebelumnya dalam postingan LinkedIn saya, saya melakukan posting harian selama tiga puluh hari di mana setiap hari saya memposting fungsi dan metode baru dari Pandas yang saya anggap bermanfaat.

Beberapa orang meminta saya untuk membuat ringkasan tentangnya. Oleh karena itu, saya akan membuat artikelnya di sini.

Hari 1: style.bar

Saya ingin menunjukkan metode dari objek Pandas Data Frame yang disebut style.bar yang memungkinkan Anda membuat barplot dari kolom numerik di dalam Data Frame Anda. Anda hanya perlu memanggil metode ini dengan menggunakan .style.bar setelah objek Data Frame.

Metode ini berguna jika Anda ingin memberikan dampak lebih besar pada presentasi data dan menjelaskan poin Anda dengan lebih jelas.

#Day 1 style.bar

import pandas as pd
import seaborn as sns

planets = sns.load_dataset('planets')

planets.head(10)[['method','year', 'distance']].sort_values(by = 'distance').style.bar(color = 'lightblue',                                                                                  subset = 'distance').hide_index()

Hari 2: qcut

Hari ini, saya ingin menunjukkan kepada Anda fungsi yang berguna dari pandas untuk membagi data yang disebut qcut.

Apa itu Fungsi Pandas qcut? Fungsi qcut akan membagi variabel kontinu di mana bin akan memiliki ukuran yang sama berdasarkan peringkat atau berdasarkan kuantil sampel.

Jadi apa itu kuantil? Kuantil pada dasarnya adalah teknik pembagian untuk membagi nilai kontinu dengan cara yang sama. Misalnya, jika kita membagi nilai kontinu menjadi 4 bagian, itu disebut Kuartil seperti yang ditunjukkan dalam gambar.

#Day 2 qcut

import seaborn as sns
import pandas as pd
mpg = sns.load_dataset('mpg')

pd.qcut(x = mpg['mpg'], q = 4, labels = [1,2,3,4])

Hari 3: pivot_table

Dalam posting ini, saya ingin memperkenalkan salah satu metode paling berguna yang disebut pivot_table.

Metode ini dapat diakses dalam objek Data Frame dengan memanggil metode .pivot_table setelah objek Data Frame.

Jadi apa yang dilakukan metode ini? Ini membuat pivot tabel berdasarkan objek kategoris yang kita lewatkan pada parameter kolom dengan parameter nilai yang menerima nilai numerik.

Yang istimewa dari pivot_table adalah hasilnya bukan hanya nilai-nilai tetapi fungsi agregasi yang lewat pada parameter.

Anda bisa melihat contoh gambar untuk informasi lebih lanjut.

#Day 3 pivot_table

import pandas as pd
import seaborn as sns
tips = sns.load_dataset('tips')

tips.pivot_table(columns = 'sex', values = 'total_bill', aggfunc = 'mean', index = 'size', margins = True)

Hari 4: agg

Mari kita mulai dengan metode yang lebih mudah hari ini. Di sini, saya ingin memperkenalkan metode dari objek Data Frame yang disebut agg.

Sesuai dengan namanya, metode ini membuat tabel agregasi. Artinya, kita memasukkan agregasi yang dimaksud ke dalam metode .agg dan semua kolom numerik diproses oleh fungsi agregasi yang membuat tabel.

Apa yang hebat dari fungsi ini adalah kita dapat menempatkan sendiri agregasi yang kita inginkan dengan membuat fungsi kita sendiri dan tabel yang dihasilkan akan ditampilkan seperti pada contoh gambar.

#Day 4 agg

import pandas as pd
import seaborn as sns
mpg = sns.load_dataset('mpg')

def mean_divided_by_2(col):
    return (col.mean())/2

mpg.agg(['mean', 'std',mean_divided_by_2])

Hari 5: melt

Saya ingin memperkenalkan metode yang aneh dari Pandas Data Frame yang disebut melt.

Metode ini adalah kebalikan dari metode pivot, ketika kita ingin memecah setiap nilai dan variabel menjadi tabel lain.

Lihat contoh di bawah ini, kali ini saya tentukan ‘id_vars’ sebagai kolom tip dan ‘value’ sebagai kolom ‘sex’.

Apa yang kita dapatkan adalah setiap nilai dari kolom ‘tip’ dan setiap nilai dari kolom ‘sex’ yang dipasangkan.

#Day 5 melt

import pandas as pd
import seaborn as sns
tips = sns.load_dataset('tips')

tips.melt(id_vars = 'tip', value_vars = 'sex')

Hari 6: style.applymap

Hari ini, saya ingin memperkenalkan metode menarik dari Pandas Data Frame yang disebut style.applymap.

Jadi apa yang dilakukan metode ini? Nah, lihat contoh dan Anda bisa melihat beberapa angka berwarna merah sementara yang lain berwarna hitam. Ini terjadi karena kita menggunakan metode style.applymap.

Apa yang dilakukan metode ini adalah menerima fungsi dalam memodifikasi CSS di Jupyter Notebook dan diterapkan pada setiap nilai dalam Data Frame.

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

def color_red(val):
    color = 'red' if val > 5 else 'black'
    return f'color: {color}'

styled_df = df.style.applymap(color_red)

Hari 7: select_dtypes

Saya ingin berbagi metode sederhana namun kuat dari Pandas Data Frame yang disebut .select_dtypes.

Selama pembersihan dan rekayasa data, saya sering menggunakan metode ini dan akan kesulitan tanpa metode .select_dtypes.

Jadi, apa yang dilakukan metode ini? Metode ini digunakan untuk memilih kolom-kolom dalam Data Frame berdasarkan jenis data tertentu. Misalnya ‘number’ atau ‘object’.

Pada contoh yang saya tunjukkan, saya menetapkan tipe data ‘number’ ke metode ini; ini berarti saya hanya memilih kolom-kolom numerik (baik float atau integer). Contoh lain yang saya gunakan adalah ‘object’ yang berarti saya hanya memilih kolom objek.

#Day 7 select_dtypes
import seaborn as sns
import pandas as pd
mpg = sns.load_dataset('mpg')

#Selecting the number data type
mpg.select_dtypes('number')

#Selecting the object data type
mpg.select_dtypes('object')

Hari 8: style.hide_

Hari ini saya ingin memperkenalkan metode sederhana namun berguna, terutama untuk presentasi. Metodenya adalah style.hide_index dan style.hide_columns.

Hanya dari nama metodenya saya pikir Anda bisa menebak bahwa fungsi ini digunakan untuk menyembunyikan indeks dan/atau kolom pada Data Frame.

Dari contoh, Anda bisa melihat saya menyembunyikan indeks dan kolom Data Frame (dengan melewatkan nama kolom).

#Day 8 style.hide_
import seaborn as sns
import pandas as pd
mpg = sns.load_dataset('mpg')

mpg.head(10).style.hide_index().hide_columns(['mpg', 'name', 'model_year'])

Hari 9: corr

Oke, saya cukup yakin banyak orang tahu metode .corr dari objek Data Frame.

Nah, jika Anda tidak tahu; .corr adalah metode untuk menghitung korelasi secara otomatis antara dua variabel numerik dan menyajikan hasilnya sebagai matriks plot.

Secara default, metode .corr memiliki tiga metode perhitungan korelasi; Pearson, Spearman, dan Kendall. Namun, tahukah Anda bahwa Anda bisa menggunakan fungsi perhitungan korelasi sendiri?

Pada contoh, saya membuat fungsi saya sendiri dari perhitungan scipy.stats weightedtau untuk membuat perhitungan korelasi weighted_tau. Yang kita butuhkan untuk metode .corr agar berfungsi adalah fungsi yang menerima dua parameter dan mengembalikan objek float.

#Day 9 corr
import pandas as pd
import seaborn as sns
from scipy.stats import weightedtau

def weight_tau(x, y):
    return weightedtau(x, y)[0]

tips= sns.load_dataset('tips')
tips.corr(weight_tau)

Hari 10: replace

Hari ini, saya ingin memperkenalkan metode objek Data Frame yang disebut .replace.

Seperti namanya, metode ini digunakan untuk menggantikan sesuatu, tapi apa?

Hal utama yang dilakukan metode ini adalah mengganti nilai; ya, nilai dalam kolom-kolom.

Dari contoh, Anda bisa melihat bahwa saya mengganti nilai dengan melewatkan objek dictionary dalam metode. Jadi logika dalam contoh saya adalah: {columns name: {values you want to replace: values to replace}}.

#Day 10 replace

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg.replace({'cylinders' : {3: 'Three', 4: 'Four', 5: 'Five', 6: 'Six', 8 : 'Eight'}}, inplace = True)
mpg.head()

Hari 11: hist

Nah, saya ingin memperkenalkan Anda ke metode keren dari objek Pandas Series yang disebut .hist.

Cara kerja metode ini sederhana, membuat plot histogram dari Series numerik. Sederhana, bukan?

Anda hanya perlu memanggilnya dan secara otomatis membuat plot histogram Anda seperti yang ditunjukkan dalam contoh.

#Day 11 hist

import seaborn as sns
import pandas as pd
mpg = sns.load_dataset('mpg')

mpg['mpg'].hist()

Hari 12: get_dummies

Saya ingin memperkenalkan Anda ke fungsi khusus dari Pandas yang disebut get_dummies.

Dari contoh, Anda mungkin tahu apa yang dilakukannya, tetapi bagi Anda yang tidak tahu; metode ini lebih dikenal sebagai One Hot Encoding atau OHE.

Fungsi get_dummies digunakan untuk membuat fitur baru berdasarkan kelas kategoris dalam satu variabel dengan nilai fitur baru adalah 0 atau 1; 0 berarti tidak ada, 1 berarti ada.

One Hot Encoding sebagian besar digunakan ketika Anda perlu mengubah data kategoris menjadi numerik.

#Day 12 get_dummies

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
pd.get_dummies(mpg['origin'])

Hari 13: query

Saya ingin memperkenalkan metode keren dari Data Frame bernama .query.

Jadi, apa yang dilakukan metode ini? Nah, metode ini memungkinkan pemilihan menggunakan ekspresi string. Apa artinya?

Lihat gambar contoh, seperti pemilihan dengan kondisi, bukan? Ini adalah metode pemilihan berbasis boolean.

Dalam tabel contoh, kita sering perlu menentukan kondisi untuk pemilihan seperti mpg[(mpg[‘mpg’] <=11) & (mpg[‘origin] == ‘usa’)], tetapi dengan query semuanya disederhanakan. Cukup lewatkan kondisi string ke metode dan kita akan mendapatkan hasil pemilihan yang sama.

#Day 13 query

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg.query("mpg <= 11 & origin == 'usa'")

Hari 14: mask

Saya ingin memperkenalkan metode if-then yang disebut .mask.

Jadi apa yang dilakukan metode ini? Metode ini digunakan untuk mengganti nilai tertentu dengan nilai lain yang memenuhi kondisi yang diberikan.

Mari lihat contoh, saya menetapkan kondisi di mana nilai dari mpg kurang dari 20 kemudian menggantinya dengan ‘More than Twenty’. Seberapa keren itu!

#Day 14 mask

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg['mpg'].mask(mpg['mpg'] < 20, 'More than Twenty' )

Hari 15: crosstab

Kita telah sampai di tengah perjalanan, dan jadi hari ini saya ingin memperkenalkan fungsi pemformatan tabel yang disebut crosstab.

Jadi, apa yang dilakukan fungsi ini? fungsi ini akan membantu kita membuat pivot tabel dari kelas kategoris dengan fungsi agregasi kolom numerik sebagai nilai, meskipun Anda juga dapat membuat hitungan antara kelas kategoris juga.

Pada contoh dibawah, Anda bisa melihat saya menentukan ‘origin’ dan ‘model_year’ (keduanya adalah kategoris) sebagai indeks dan kolom secara bersamaan. Selain itu, saya membuat kolom mpg sebagai nilai numerik dan menggunakan mean sebagai fungsi agregasi.

#Day 15 crosstab

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
pd.crosstab(index = mpg['origin'], columns = mpg['model_year'], values = mpg['mpg'], aggfunc = 'mean' )

Hari 16: apply

Metode apply pandas adalah metode yang sering saya gunakan selama waktu menganalisis data saya, saya menjadi terbiasa dengan seberapa rapinya metode itu. Metode Pandas Data Frame adalah .apply.

Metode ini menerima fungsi dan menerapkannya ke seluruh data (baik secara baris maupun kolom). Yang dikembalikan oleh fungsi adalah hasilnya.

Pada contoh dibawah, saya menerapkan fungsi lambda yang mengembalikan panjang dari setiap nilai data.

#Day 16 apply

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg['name'].apply(lambda x: len(str(x)))

Hari 17: set_option

Hari ini saya ingin memperkenalkan fungsi khusus pandas. Fungsi ini disebut .set_option.

Apa fungsi ini? Jadi, fungsi ini tidak langsung diterapkan pada data kita tetapi memengaruhi objek itu sendiri.

Mari lihat contoh di bawah, saya menetapkan string untuk mengatur kolom maksimum dan baris maksimum yang ditampilkan di notebook. Anda dapat membaca semua opsi di sini.

#Day 17 set_option

import pandas as pd
import seaborn as sns
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

mpg = sns.load_dataset('mpg')
mpg

Hari 18: describe

Saya hanya ingin menunjukkan kepada Anda salah satu metode yang paling dikenal dari Objek Data Frame Pandas yang disebut .describe.

Saya bertaruh bahwa kebanyakan orang yang memulai perjalanan mereka dalam data science dengan Python tahu tentang metode ini. Bagi Anda yang tidak tahu, metode ini adalah metode yang menghasilkan Data Frame dengan semua statistik dasar.

Meskipun, ada trik kecil dalam API ini. Secara default, .describe hanya menghitung semua kolom numerik yang pada gilirannya memberi Anda informasi seperti rata-rata, std, persentil, dll.

Namun, jika Anda mengesampingkan kolom numerik seperti dalam contoh, Anda akan mendapatkan Data Frame yang berbeda. Kali ini, kolom non-numerik akan dihitung. Di sini, apa yang kita dapatkan adalah frekuensi dan kelas-kelas teratas.

#Day 18 describe

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')

#Describe numerical columns
mpg.describe()

#Describe non-numerical columns
mpg.describe(exclude = 'number')

Hari 19: factorize

Saya ingin memperkenalkan Anda pada salah satu fungsi dan metode Series yang berguna yang disebut factorize.

Lihat contoh terlebih dahulu, di sini saya mengambil variabel kategoris ‘origin’ dan menggunakan metode factorize padanya. Apa hasilnya? Ada 2 hal, array numerik, dan kelas unik.

Jadi apa yang istimewa dari metode ini? Array numerik yang baru Anda lihat adalah kelas dalam variabel kategoris yang dienkripsi sebagai nilai numerik. Bagaimana cara mengetahui nomor mana yang mewakili kelas tertentu? Itulah sebabnya kita juga mendapatkan kelas unik.

Pada contoh di bawah 0 adalah usa, 1 adalah jepang, dan 2 adalah eropa. Sama seperti posisi unik.

Fungsi ini sangat berguna ketika Anda perlu mengkodekan kategori ke dalam nilai numerik, tetapi ketika ada asumsi ordinal di dalamnya.

#Day 19 factorize

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg['origin'].factorize()

Hari 20: plotting.radviz

Pada hari ke-20 saya ingin memperkenalkan fungsi plotting dari Pandas yang disebut pd.plotting.radviz.

Jadi, apa yang fungsi ini lakukan? Menurut Pandas, radviz memungkinkan kita memproyeksikan satu dataset berdimensi N ke dalam ruang 2D di mana pengaruh setiap dimensi dapat diinterpretasikan sebagai keseimbangan antara pengaruh semua dimensi.

Sederhananya, itu berarti kita bisa memproyeksikan data multidimensi ke dalam ruang 2D secara primitif.

Setiap Series dalam Data Frame direpresentasikan sebagai irisan yang didistribusikan secara merata pada lingkaran. Lihat contoh, ada lingkaran dengan nama Series.

Setiap titik data dihasilkan dalam lingkaran sesuai dengan nilai pada setiap Series. Series yang sangat berkorelasi dalam Data Frame ditempatkan lebih dekat di lingkaran.

Untuk menggunakan pd.plotting.radviz, Anda memerlukan dataset multidimensi dengan semua kolom numerik tetapi satu sebagai kolom kelas (harus kategorik).

#Day 20 plotting.radviz

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
pd.plotting.radviz(mpg.drop(['name'], axis =1), 'origin')

Hari 21: scatter_matrix

Hari ini ada fungsi plotting lain dari Pandas yang ingin saya perkenalkan. Kali ini, fungsinya disebut plotting.scatter_matrix.

Ini adalah fungsi sederhana tetapi cukup berguna dalam analisis data kita. Intinya sederhana, menciptakan scatter plot antara semua variabel numerik dalam Data Frame.

Untuk plot di posisi diagonal (dengan variabel mereka sendiri) akan menjadi plot distribusi (baik histogram atau KDE).

Cara menggunakan fungsi ini cukup sederhana, Anda hanya perlu metapkan variabel data frame ke fungsi dan itu akan secara otomatis mendeteksi kolom numerik.

#Day 21 scatter_matrix

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

mpg = sns.load_dataset('mpg')
pd.plotting.scatter_matrix(mpg, figsize = (8,8))
plt.show()

Hari 22: plotting.boxplot

Saya ingin memperkenalkan metode sederhana untuk membuat boxplot dari objek Series yang disebut plotting.boxplot.

Jika Anda tidak tahu apa itu boxplot, mengutip dari Pandas guide boxplot adalah “metode untuk menggambarkan secara grafis kelompok data numerik melalui kuartil mereka. Kotak memanjang dari nilai kuartil Q1 hingga nilai kuartil Q3 dari data, dengan garis di median (Q2). Whisker memanjang dari tepi kotak untuk menunjukkan rentang data. Secara default, mereka tidak memanjang lebih dari 1,5 * IQR (IQR = Q3 — Q1) dari tepi kotak, berakhir pada titik data terjauh dalam interval tersebut. Outlier digambarkan sebagai titik terpisah”.

Anda hanya perlu metapkan Series atau Data Frame, dan kolom-kolom numerik akan diplot secara otomatis.

#Day 22 plotting.boxplot

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

mpg = sns.load_dataset('mpg')
pd.plotting.boxplot(mpg['mpg'])

Hari 23: any

Saya akan memperkenalkan metode sederhana tetapi berguna dari Series dan Data Frame yang disebut .any.

Apa fungsi dari metode ini? Jadi, .any akan mengembalikan nilai boolean di mana akan mengembalikan True jika salah satu elemen True dan mengembalikan False jika tidak ada True boolean dalam Series atau kolom.

Ini sangat berguna ketika kita ingin memeriksa apakah ada missing value dalam dataset kita. Lihat saja contohnya, kita menggabungkan .isna dengan .any. Hanya ‘horsepower’ yang mengembalikan True karena ada data yang hilang dalam kolom ini.

#Day 23 any

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

mpg = sns.load_dataset('mpg')
mpg.isna().any()

Hari 24: where

Saya ingin memperkenalkan metode Data Frame yang mirip dengan metode yang pernah saya posting sebelumnya yang disebut .where.

Jadi, metode ini berfungsi kebalikan dibandingkan dengan metode .mask yang saya posting sebelumnya. Pada dasarnya, ini adalah metode yang menerima kondisi dan nilai yang tidak memenuhi kondisi akan digantikan.

Lihat contoh dibawah, saya memberikan kriteria untuk mencari nilai di bawah 20 dan setiap nilai di bawah 20 akan mempertahankan nilainya, jika tidak, nilainya akan digantikan dengan “More than Twenty”.

#Day 24 where

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg['mpg'].where(mpg['mpg'] < 20, 'More than Twenty' )

Hari 25: Transpose

Hari ini saya akan menunjukkan metode sederhana tetapi berguna dari objek Data Frame yang disebut .transpose atau .T.

Metode ini sederhana, dengan menjalankan metode .transpose kita akan mengganti kolom Data Frame menjadi indeks dan indeks akan menjadi kolom.

Lihat contoh dibawah, kami memiliki Data Frame dengan semua posisi yang dibalikkan. Fungsi ini berguna ketika kita ingin baris kita menjadi kolom atau sebaliknya.

#Day 25 transpose

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg.transpose() 
#or mpg.T

Hari 26: plot.scatter

Hari ini saya ingin memperkenalkan metode plotting cepat dari objek Pandas Data Frame yang disebut plot.scatter.

Saya yakin banyak orang yang mengetahui apa itu scatter plot. Bagi Anda yang belum mengetahuinya; ini pada dasarnya adalah plot di mana kita memplot setiap data dalam 2 kolom numerik berbeda yang nilainya divisualisasikan dalam plot.

Anda bisa membuat scatter plot cepat hanya dengan menggunakan .plot.scatter dalam objek Data Frame dan metapkan 2 nama kolom yang Anda inginkan.

#Day 26 plot.scatter

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg.plot.scatter('mpg', 'weight')

Hari 27: transform

Hari ini, saya ingin memperkenalkan metode dari Series dan objek Data Frame yang disebut .transform.

Ini adalah fungsi yang sederhana namun berguna. Premis utama dari fungsi ini adalah kita meneruskan suatu fungsi atau nama string agregasi dan fungsi tersebut diterapkan ke semua nilai.

Jika Anda menggunakannya dalam objek Data Frame, fungsi akan diterapkan pada setiap nilai dalam setiap kolom.

#Day 27 transform

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
mpg['mpg'].transform(lambda x: x/2)

Hari 28: bootstrap_plot

Hari ini saya ingin memperkenalkan fungsi plotting unik dari Pandas yang disebut .bootstrap_plot.

Menurut Pandas, plot bootstrap digunakan untuk memperkirakan ketidakpastian suatu statistik dengan mengandalkan pengambilan sampel acak dengan penggantian.

Secara sederhana, ini digunakan untuk mencoba menentukan ketidakpastian dalam statistik dasar seperti mean dan median dengan mensampling data dengan penggantian (Anda dapat mensampling data yang sama beberapa kali).

Fungsi boostrap_plot akan menghasilkan plot bootstrap untuk statistik mean, median, dan mid-range untuk sejumlah sampel dengan ukuran tertentu. Seperti pada contoh di bawah ini.

#Day 28 bootstrap_plot

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
pd.plotting.bootstrap_plot(mpg['mpg'], size = 50, samples = 500)
plt.show()

Hari ke-29: pipe

Dalam posting pandas hari ini, saya ingin memperkenalkan metode yang saya dorong orang untuk lebih sering digunakan. Metodenya adalah .pipe.

Jadi, Pandas mendorong kita untuk menggunakan metode chaining untuk memanipulasi data kita. Biasanya kita akan melakukan chaining method dengan melewatkan fungsi dalam fungsi atau metode dengan metode setelahnya.

Dengan fungsi .pipe, metode chaining dalam Pandas Data Frame dapat mengurangi jumlah baris yang kita tulis dan menjalankan fungsi lebih cepat.

Contoh dari metode .pipe dapat dilihat pada gambar di bawah. Saya membuat dua fungsi berbeda dan menggabungkan metodenya dengan menjalankan .pipe dua kali. Ini dilakukan untuk membuat metode chaining dan eksekusi yang lebih cepat.

#Day 29 pipe

import pandas as pd
import seaborn as sns

mpg = sns.load_dataset('mpg')
#Function to extract the car first name and create a new column called car_first_name
def extract_car_first_name(df):
    df['car_first_name'] = df['name'].str.split(' ').str.get(0)
    return df

#Function to add my_name after the car_first_name and create a new column called car_and_name
def add_car_my_name(df, my_name = None):
    df['car_and_name'] = df['car_first_name'] + my_name
    
mpg.pipe(extract_car_first_name).pipe(add_car_my_name, my_name = 'Cornellius')

mpg.head()

Hari ke-30: show_versions

Pada hari terakhir, saya ingin menunjukkan kepada Anda fungsi khusus dari pandas yang disebut .show_versions. Nah, apa fungsi dari fungsi ini?

Fungsi ini memberikan informasi tentang sistem operasi host, versi pandas, dan versi paket terkait lainnya yang diinstal. Ini menyediakan informasi yang berguna terutama ketika Anda berurusan dengan packages tertentu dan juga penting untuk bug reports.

#Day 30 show_versions

import pandas as pd

pd.show_versions(True)

Kesimpulan

Jadi, ini adalah semua posting Pandas selama 30 hari saya. Ini adalah kegiatan yang cukup menyenangkan dan bermanfaat bagi saya. Saya menikmati membuat konten seperti ini untuk orang-orang dan saya harap ini bermanfaat bagi siapa pun yang telah membacanya.

Semoga bermanfaat!

Artikel ditranslasi oleh: Ahmad Ilham Habibi