Library Python yang wajib diketahui untuk meningkatkan workflow manipulasi data Anda.

Library Penting dari Python untuk Manipulasi Data

Sebagai seorang data profesional, sangat penting untuk memahami cara memproses data. Di era modern, ini berarti menggunakan bahasa pemrograman untuk memanipulasi dataset dengan cepat untuk mencapai hasil yang diharapkan.

Python adalah bahasa pemrograman paling populer yang digunakan para data profesional, dan banyak library yang berguna untuk manipulasi data. Dari vektor sederhana hingga paralelisasi, setiap kebutuhan memiliki library yang bisa membantu.

Jadi, apa saja library Python yang penting untuk Manipulasi Data? Mari kita bahas.

1. NumPy

Library pertama yang akan kita bahas adalah NumPy. NumPy adalah open-source library untuk aktivitas komputasi ilmiah. Library ini dikembangkan pada tahun 2005 dan telah digunakan dalam banyak kasus data science.

NumPy adalah library yang populer, menyediakan banyak fitur berharga dalam aktivitas komputasi ilmiah seperti objek array, operasi vektor, dan fungsi matematika. Selain itu, banyak kasus data science yang bergantung pada perhitungan tabel dan matriks yang kompleks, sehingga NumPy memungkinkan pengguna untuk menyederhanakan proses perhitungan.

Mari kita coba NumPy dengan Python. Banyak platform data science, seperti Anaconda, sudah memiliki NumPy yang terpasang secara default. Tapi Anda selalu bisa menginstalnya melalui pip.

pip install numpy

Setelah instalasi, kita akan membuat array sederhana dan melakukan operasi array.

import numpy as np
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = a + b

print(c)

Output: [5 7 9]

Kita juga bisa melakukan perhitungan statistik dasar dengan NumPy.

data = np.array([1, 2, 3, 4, 5, 6, 7])
mean = np.mean(data)
median = np.median(data)
std_dev = np.std(data)

print(f"The data mean:{mean}, median:{median} and standard deviation: {std_dev}")

The data mean:4.0, median:4.0, and standard deviation: 2.0

Dimungkinkan juga untuk melakukan operasi aljabar linier seperti perhitungan matriks.

x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])
dot_product = np.dot(x, y)

print(dot_product)

Output:[[19 22][43 50]]

Ada begitu banyak manfaat yang dapat Anda lakukan dengan NumPy. Dari menangani data hingga perhitungan kompleks, tidak heran banyak library yang menggunakan NumPy sebagai dasarnya.

2. Pandas

Pandas adalah library Python untuk manipulasi data yang paling populer bagi data profesional. Saya yakin banyak kelas pembelajaran data science akan menggunakan Pandas sebagai dasar untuk proses selanjutnya.

Pandas terkenal karena API-nya yang intuitif namun serbaguna, sehingga banyak masalah manipulasi data dapat dengan mudah diselesaikan menggunakan Pandas. Pandas memungkinkan pengguna untuk melakukan operasi data dan menganalisis data dari berbagai format input seperti CSV, Excel, database SQL, atau JSON.

Pandas dibangun di atas NumPy, sehingga properti objek NumPy masih berlaku (bisa digunakan) untuk objek Pandas.

Mari mencoba library ini. Seperti NumPy, biasanya Pandas tersedia secara default jika Anda menggunakan platform Data Science seperti Anaconda. Namun, Anda dapat mengikuti Pandas Installation guide jika Anda tidak yakin.

Anda dapat mencoba menginisiasi dataset dari objek NumPy dan mendapatkan objek DataFrame (seperti tabel) yang menunjukkan lima baris data teratas dengan kode berikut.

import numpy as np
import pandas as pd

np.random.seed(0)
months = pd.date_range(start='2023-01-01', periods=12, freq='M')
sales = np.random.randint(10000, 50000, size=12)
transactions = np.random.randint(50, 200, size=12)

data = {
'Month': months,
'Sales': sales,
'Transactions': transactions
}
df = pd.DataFrame(data)
df.head()

Kemudian Anda dapat mencoba beberapa aktivitas manipulasi data, seperti pemilihan data.

df[df['Transactions'] <100]

Juga memungkinkan untuk melakukan perhitungan data.

total_sales = df['Sales'].sum() average_transactions = df['Transactions'].mean()

Membersihkan data dengan Pandas juga mudah.

df = df.dropna() df = df.fillna(df.mean())

Ada begitu banyak yang bisa dilakukan dengan Pandas untuk Manipulasi Data. Lihat artikel Bala Priya tentang menggunakan Pandas untuk Manipulasi Data untuk mempelajari lebih lanjut.

3. Polars

Polars adalah library Python untuk manipulasi data yang relatif baru yang dirancang untuk analisis cepat dari dataset besar. Polars menawarkan peningkatan kinerja hingga 30x dibandingkan Pandas dalam beberapa tes benchmark.

Polars dibangun di atas Apache Arrow, sehingga efisien untuk manajemen memori dataset besar dan memungkinkan pemrosesan paralel. Polars juga mengoptimalkan kinerja manipulasi data menggunakan lazy execution yang menunda perhitungan hingga diperlukan.

Untuk instalasi Polars, Anda dapat menggunakan kode berikut.

pip install polars

Seperti Pandas, Anda dapat menginisiasi Polars DataFrame dengan kode berikut.

import numpy as np
import polars as pl

np.random.seed(0) 
employee_ids = np.arange(1, 101) 
ages = np.random.randint(20, 60, size=100) 
salaries = np.random.randint(30000, 100000, size=100) 

df = pl.DataFrame({
    'EmployeeID': employee_ids,
    'Age': ages,
    'Salary': salaries
})

df.head()

Namun, ada perbedaan dalam cara kita menggunakan Polars untuk memanipulasi data. Misalnya, berikut adalah cara kita memilih data dengan Polars.

df.filter(pl.col('Age') > 40)

API-nya jauh lebih kompleks daripada Pandas, tetapi sangat berguna jika Anda memerlukan eksekusi cepat untuk dataset besar. Di sisi lain, Anda tidak akan mendapatkan manfaatnya jika ukuran datanya kecil.

Untuk mengetahui detailnya, Anda dapat merujuk pada artikel Josep Ferrer tentang perbedaan Polars dengan Pandas.

4. Vaex

Vaex mirip dengan Polars karena library ini dikembangkan khusus untuk manipulasi data dataset besar. Namun, ada perbedaan dalam cara mereka memproses dataset. Misalnya, Vaex menggunakan teknik memory-mapping, sementara Polars fokus pada pendekatan multi-threaded.

Vaex secara optimal cocok untuk kumpulan data yang jauh lebih besar daripada yang dimaksudkan untuk digunakan oleh Polars. Meskipun Polars juga ditujukan untuk pemrosesan manipulasi dataset yang besar, library ini idealnya pada kumpulan data yang masih sesuai dengan ukuran memori. Sementara itu, Vaex akan sangat baik digunakan pada dataset yang melebihi memori.

Untuk instalasi Vaex, lebih baik merujuk ke dokumentasi mereka, karena dapat merusak sistem Anda jika tidak dilakukan dengan benar.

5. CuPy

CuPy adalah open-source library yang memungkinkan komputasi akselerasi GPU di Python. CuPy dirancang untuk pengganti NumPy dan SciPy jika Anda perlu menjalankan perhitungan dalam platform NVIDIA CUDA atau AMD ROCm.

Hal ini membuat CuPy bagus untuk aplikasi yang membutuhkan perhitungan numerik intensif dan perlu menggunakan akselerasi GPU. CuPy dapat menggunakan arsitektur paralel GPU dan bermanfaat untuk perhitungan skala besar.

Untuk menginstal CuPy, lihat repositori GitHub mereka, karena banyak versi yang tersedia sesuai dengan platform yang Anda gunakan. Misalnya, berikut ini untuk platform CUDA.

pip install cupy-cuda11x

API-nya mirip dengan NumPy, jadi Anda dapat langsung menggunakan CuPy jika Anda sudah familiar dengan NumPy. Misalnya, contoh kode untuk perhitungan CuPy ada di bawah ini.

mport cupy as cp
x = cp.arange(10)
y = cp.array([2] * 10)

z = x * y

print(cp.asnumpy(z))

CuPy adalah akhir dari library Python yang penting jika Anda terus-menerus bekerja dengan data komputasi skala tinggi.

Kesimpulan

Semua library Python yang telah kita eksplorasi sangat penting untuk kasus tertentu. NumPy dan Pandas mungkin yang paling dasar, tetapi library lain seperti Polars, Vaex, dan CuPy akan bermanfaat dalam lingkungan tertentu.

Jika Anda memiliki library lain yang Anda anggap penting, silakan bagikan di komentar!

Library Penting dari Python untuk Manipulasi Data