top of page
Gambar penulisCornellius Yudha Wijaya

Dari CSV ke Laporan Analitis Lengkap dengan ChatGPT dengan 5 Langkah Sederhana

Apapun bisnis Anda, di era yang data-driven ini, kemampuan menganalisis data menjadi lebih penting daripada sebelumnya. Analisis data memungkinkan bisnis untuk tetap kompetitif dan memberikan kemampuan untuk membuat keputusan yang lebih baik.


Dengan kesadaran akan pentingnya analisis data, maka individu dituntut untuk bisa melakukan analisa data. Namun, terkadang proses analisis data memakan waktu yang lama. Oleh karena itu, kita bisa memanfaatkan ChatGPT untuk membuat laporan lengkap dari file data kita.


Artikel ini akan membahas lima langkah sederhana untuk membuat laporan analitik lengkap dari file CSV Anda. Lima langkah tersebut meliputi:

  1. Mengimpor File CSV

  2. Data Summary dan Preprocessing

  3. Analisis Data

  4. Visualisasi Data

  5. Pembuatan Laporan


Sebagai prasyarat, artikel ini mengasumsikan pembaca telah berlangganan ChatGPT Plus. Dengan itu, mari kita mulai.



Mengimpor File CSV

Langkah pertama adalah menyiapkan file CSV yang ingin Anda analisis dan buat laporannya. File ini bisa berasal dari sumber terpercaya mana pun, namun pada artikel ini kita akan menggunakan dataset Telecom Churn dari Kaggle.


Pastikan datanya terstruktur, terorganisir, dan memiliki header yang jelas. Jika Anda memiliki target tertentu yang ingin dianalisis, jangan lupa sertakan data tersebut dalam file. Dalam contoh kita, kita akan mencoba melakukan analisis untuk kolom churn.

Setelah data siap, upload file tersebut ke ChatGPT dan biarkan model bekerja.


Data Summary dan Preprocessing

Langkah berikutnya adalah mendapatkan data summary (ringkasan data) dari file CSV kita dan melakukan preprocessing. Masukkan prompt berikut saat Anda mengunggah data.

Berikan data summary ke file ini dan lakukan data preprocessing yang sesuai untuk dataset ini.

Prompt di atas memberikan hasil berikut:


Berikut Summary dari dataset Anda:

  • Jumlah Baris: 3333

  • Jumlah Kolom: 11

  • Nama Kolom: - Churn - AccountWeeks - ContractRenewal - DataPlan - DataUsage - CustServCalls - DayMins - DayCalls - MonthlyCharge - OverageFee - RoamMins

  • Tipe Data: - Integer: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls - Float: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

  • Missing Value: Tidak ada missing value di kolom manapun.


ChatGPT jelas dapat membaca data dengan baik dan mampu memberikan dataset yang diberikan. Hasil berikutnya adalah data preprocessing dari ChatGPT.

Karena tidak ada missing value dalam dataset, fokus utama data cleaning dan data preprocessing akan meliputi:

  • Memeriksa adanya outlier atau anomali dalam data.

  • Normalisasi atau standarisasi data jika diperlukan, terutama untuk kolom dengan nilai numerik kontinu.

  • Mengonversi data kategorikal ke format yang sesuai untuk analisis, jika diperlukan.

Mari kita lanjutkan dengan langkah-langkah ini.

Dari CSV ke Laporan Analitis Lengkap dengan ChatGPT dengan 5 Langkah Sederhana

Boxplots memberikan gambaran visual tentang potensi outlier di setiap kolom numerik pada dataset Anda. Berikut beberapa hasil pengamatannya:

  • AccountWeeks, CustServCalls, DayCalls: Kolom-kolom ini menunjukkan distribusi yang cukup normal dengan beberapa outlier.

  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: Kolom-kolom ini juga menunjukkan beberapa outlier, tetapi tampaknya berada dalam kisaran yang wajar, mengingat sifat datanya.

  • Churn, ContractRenewal, DataPlan: Berupa data kategorikal/biner, kolom-kolom ini tidak menunjukkan outlier.


Berdasarkan informasi ini, berikut adalah langkah-langkah data cleaning dan data preprocessing:

  • Handling outlier: Kita dapat memutuskan apakah akan menghapus, membatasi, atau menangani outlier berdasarkan kebutuhan analisis spesifik dan domain knowledge Anda.

  • Transformasi Data: Jika diperlukan, kita dapat menormalisasi atau menstandarisasi kolom seperti DayMins, MonthlyCharge, dan lain-lain, terutama jika Anda berencana menggunakan algoritma yang sensitif terhadap skala data.

  • Encoding Data Kategorikal: Mengonversi data kategorikal ke format yang sesuai untuk analisis, jika diperlukan transformasi semacam itu.


Anda bisa membiarkan ChatGPT melakukan langkah-langkah tambahan untuk data cleaning dan data preprocessing atau membiarkannya apa adanya. Untuk contoh ini, kita akan melanjutkan ke langkah berikutnya.



Analisis Data

Selanjutnya, kita akan melakukan analisis data dengan ChatGPT. Analisis data tergantung pada apa yang ingin Anda capai. Dalam kasus kami, kami ingin melakukan analisis data dari sudut pandang Churn.


Kami menggunakan prompt berikut untuk melakukan analisis data dengan ChatGPT untuk kasus di atas.

Lakukan analisis data berdasarkan data di atas sehubungan dengan data churn.

Hasil analisis data dapat dilihat dalam hasil berikut.


Untuk melakukan analisis data sehubungan dengan data churn, kita akan fokus memahami bagaimana faktor-faktor yang berbeda berhubungan dengan churn. Churn, sebagai variabel biner (0 untuk tidak churn, 1 untuk churn), biasanya dianalisis melalui metode klasifikasi dan dengan memeriksa hubungan dengan variabel lain. Berikut rencananya:

  1. Analisis Korelasi: Sebagai langkah awal, kita akan melihat bagaimana setiap fitur numerik berkorelasi dengan churn. Ini memberi kita pemahaman awal tentang faktor mana yang mungkin lebih erat kaitannya dengan churn.

  2. Tes Statistik: Untuk variabel kategorikal seperti ContractRenewal dan DataPlan, kita dapat menggunakan uji statistik untuk melihat apakah ada perbedaan signifikan dalam tingkat churn di seluruh kategori yang berbeda.

  3. Analisis Visual: Kita akan membuat beberapa visualisasi untuk lebih mengeksplorasi hubungan ini. Ini termasuk membandingkan tingkat churn di seluruh kelompok yang berbeda dan memplotkan variabel kunci terhadap churn.

  4. Summary Statistics: Kami akan memberikan summary statistics untuk kelompok yang berbeda berdasarkan status churn untuk melihat apakah ada perbedaan yang mencolok dalam rata-rata atau distribusinya.

Mari kita mulai dengan analisis korelasi dan kemudian melanjutkan ke langkah-langkah berikutnya.


Analisis Korelasi dengan Churn

Korelasi variabel yang berbeda dengan churn adalah sebagai berikut (dari korelasi negatif terkuat ke korelasi positif terkuat):

Korelasi Negatif:

  • ContractRenewal: Korelasi negatif terkuat. Menunjukkan bahwa pelanggan yang tidak memperbarui kontrak mereka lebih cenderung churn.

  • DataPlan: Pelanggan tanpa paket data sedikit lebih mungkin churn.

  • DataUsage: Penggunaan data yang lebih tinggi sedikit menurunkan kemungkinan churn.

Korelasi Positif:

  • AccountWeeks, DayCalls: Korelasi positif yang sangat lemah, menunjukkan dampak minimal terhadap churn.

  • RoamMins: Sedikit peningkatan kemungkinan churn dengan peningkatan menit roaming.

  • MonthlyCharge: Tingkat churn yang sedikit lebih tinggi dengan peningkatan biaya bulanan.

  • OverageFee: Biaya overage yang lebih tinggi berkorelasi moderat dengan peningkatan churn.

  • DayMins: Menit harian yang lebih tinggi berkorelasi moderat dengan peningkatan churn.

  • CustServCalls: Korelasi positif yang kuat. Lebih banyak panggilan layanan pelanggan dikaitkan dengan tingkat churn yang lebih tinggi.


Berdasarkan korelasi ini, tampaknya faktor-faktor seperti contract renewal, customer service calls, daily minutes, dan overage fees terkait erat dengan churn. Kita dapat lebih mengeksplorasi faktor-faktor ini melalui analisis visual dan uji statistik, terutama untuk variabel kategorikal seperti ContractRenewal dan DataPlan.


Analisis Visual

Dari CSV ke Laporan Analitis Lengkap dengan ChatGPT dengan 5 Langkah Sederhana

Visualisasi menawarkan wawasan berharga tentang hubungan antara berbagai variabel dan churn:


Churn berdasarkan ContractRenewal dan DataPlan:

  • ContractRenewal: Terdapat perbedaan signifikan dalam tingkat churn. Pelanggan yang tidak memperpanjang kontrak menunjukkan tingkat churn yang lebih tinggi.

  • DataPlan: Ada perbedaan nyata dalam tingkat churn berdasarkan apakah pelanggan memiliki paket data atau tidak, mereka yang tidak memiliki paket data menunjukkan churn yang lebih tinggi.

Variabel Numerik (CustServCalls, DayMins, MonthlyCharge, OverageFee) berdasarkan Churn:

  • CustServCalls: Pelanggan dengan jumlah panggilan layanan pelanggan yang lebih tinggi cenderung lebih churn.

  • DayMins: Penggunaan menit harian yang lebih tinggi dikaitkan dengan kemungkinan churn yang lebih besar.

  • MonthlyCharge: Biaya bulanan yang lebih tinggi berkorelasi dengan peningkatan tingkat churn.

  • OverageFee: Biaya berlebih yang lebih tinggi juga berkaitan dengan peningkatan churn.

Kesimpulan dari Analisis

  • Contract renewal status dan keberadaan data plan adalah faktor signifikan dalam churn pelanggan.

  • High usage (dalam hal menit harian) dan high charges (biaya bulanan dan biaya berlebih) berkaitan dengan tingkat churn yang lebih tinggi.

  • Jumlah customer service calls yang lebih tinggi adalah indikator kuat dari potensi churn.

Langkah Berikutnya

Berdasarkan wawasan ini, strategi yang ditargetkan dapat dikembangkan untuk mengurangi churn, seperti meningkatkan layanan pelanggan, merevisi strategi penetapan harga, atau menawarkan insentif untuk perpanjangan kontrak dan langganan paket data.

Dengan satu prompt, kita bisa melihat betapa baiknya ChatGPT dapat memberikan analisis data lengkap dan menghasilkan wawasan dari data. Anda dapat menyesuaikan tujuan analisis dan memulai dari sana.



Visualisasi Data

Visualisasi data adalah aktivitas pendukung untuk meningkatkan analisis data dan laporan keseluruhan. Dengan visualisasi, kita dapat memiliki laporan yang lebih komprehensif untuk memahami data kita.


Menggunakan prompt berikut, kita dapat melakukan visualisasi data dengan ChatGPT.

Lakukan visualisasi data dari analisis data untuk menjelaskan data dengan lebih baik.

Untuk meningkatkan pemahaman tentang hasil analisis data, saya akan membuat serangkaian visualisasi yang menggambarkan temuan utama terkait churn pelanggan. Visualisasi ini akan mencakup:

  1. Bar Plot untuk Variabel Kategorikal:

  • Membandingkan tingkat churn untuk pelanggan dengan dan tanpa contract renewal.

  • Membandingkan tingkat churn untuk pelanggan dengan dan tanpa data plan.

  • Box Plot untuk Variabel Numerik Kunci:

2. Customer Service Calls vs Churn.

  • Daily Minutes vs Churn.

  • Monthly Charges vs Churn.

  • Overage Fees vs Churn.

3. Heatmap Korelasi:

  • Untuk memvisualisasikan korelasi semua variabel dengan churn.

Dari CSV ke Laporan Analitis Lengkap dengan ChatGPT dengan 5 Langkah Sederhana

Visualisasi akan menunjukkan semua plot penting yang merangkum seluruh dataset. Kita dapat meminta deskripsi lebih rinci untuk setiap plot, yang bisa Anda coba sendiri.


Pembuatan Laporan

Langkah terakhir adalah membuat laporan berdasarkan langkah-langkah sebelumnya. Sayangnya, ChatGPT mungkin tidak menangkap semua deskripsi dan wawasan dari analisis data, tetapi kita masih bisa mendapatkan versi sederhana dari laporan tersebut.

Gunakan prompt berikut untuk menghasilkan laporan PDF berdasarkan analisis sebelumnya.

Tolong berikan saya laporan pdf dari langkah pertama hingga langkah terakhir.

Anda akan mendapatkan hasil tautan PDF dengan analisis sebelumnya. Cobalah untuk mengulangi langkah-langkah jika merasa hasilnya kurang memadai atau jika ada hal-hal yang ingin Anda ubah.


Kesimpulan

Analisis data adalah aktivitas yang harus diketahui oleh setiap orang karena ini adalah salah satu keterampilan yang paling dibutuhkan di era saat ini. Namun, mempelajari cara melakukan analisis data bisa memakan waktu lama. Dengan ChatGPT, kita bisa meminimalkan semua waktu aktivitas tersebut.


Dalam artikel ini, kita telah membahas cara menghasilkan laporan analitis lengkap dari file CSV dalam 5 langkah. ChatGPT menyediakan aktivitas analisis data end-to-end kepada pengguna, mulai dari mengimpor file hingga menghasilkan laporan.



30 tampilan0 komentar

Postingan Terkait

Lihat Semua

Bình luận


bottom of page