Hari ke-4: Membersihkan Data dan Memahami Missing Values

Tujuan Hari Keempat

Pada hari keempat, kamu akan belajar tentang pentingnya membersihkan data (data cleaning) dan menangani missing values. Data yang digunakan dalam analisis sering kali tidak sempurna, dan langkah awal yang harus dilakukan oleh seorang data analyst adalah membersihkan data agar analisis dapat dilakukan dengan akurat.

Materi Hari Keempat

1. Apa itu Data Cleaning? Data cleaning adalah proses mengidentifikasi dan memperbaiki atau menghapus data yang kotor atau tidak konsisten dalam dataset. Ini termasuk:

Menghapus duplikasi.

Memperbaiki format yang salah (misalnya tanggal dalam format yang berbeda).
Menangani missing values.

2. Missing Values (Nilai yang Hilang) Missing values adalah masalah umum dalam dataset, di mana beberapa nilai tidak tersedia atau tidak diinputkan dengan benar. Penanganan missing values bisa dilakukan dengan beberapa cara:

Menghapus Data yang Hilang: Menghapus baris atau kolom yang memiliki nilai yang hilang.

Mengganti Missing Values: Mengganti nilai yang hilang dengan mean, median, mode, atau nilai default lainnya.

Mengabaikan Missing Values: Dalam beberapa kasus, kamu bisa membiarkan missing values jika mereka tidak terlalu mempengaruhi hasil analisis.

3. Teknik Data Cleaning

Deduplication: Menghapus baris duplikat dalam dataset.

Outlier Handling: Mengidentifikasi dan menangani outlier (nilai yang jauh berbeda dari nilai lainnya).

Standardisasi Data: Memastikan semua data dalam format yang konsisten (misalnya, format tanggal, mata uang, atau satuan ukuran).

Aktivitas Hari Keempat

1. Latihan Membersihkan Data di Excel atau Google Sheets

Ambil dataset sederhana yang memiliki beberapa kesalahan (misalnya, data pelanggan dengan duplikat atau missing values).

Coba gunakan fungsi Excel Remove Duplicates untuk menghapus baris yang berulang.

Gunakan Conditional Formatting untuk menyoroti data yang hilang atau tidak konsisten.

2. Menangani Missing Values di Excel

Identifikasi nilai yang hilang di dataset.

Jika banyak nilai yang hilang dalam satu kolom, coba hapus kolom tersebut (jika tidak penting).

Ganti missing values dengan mean menggunakan formula =IF(ISBLANK(cell), AVERAGE(range), cell).

3. Data Cleaning dengan Python (Pandas)

Gunakan Python untuk membersihkan data. Pandas memiliki beberapa fungsi bermanfaat seperti dropna() untuk menghapus missing values dan fillna() untuk mengganti missing values dengan nilai tertentu.

Kode Python Sederhana:

import pandas as pd

# Membaca dataset
df = pd.read_csv('dataset.csv')

# Menghapus baris dengan missing values
df_cleaned = df.dropna()

# Mengganti missing values dengan mean
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

print(df_cleaned)


Contoh Hari Keempat

Contoh Dataset: Misalnya, jika kamu memiliki dataset pelanggan dengan kolom "Umur" yang berisi beberapa missing values, kamu bisa menggantinya dengan mean umur dari pelanggan lain. Jika dataset mengandung beberapa baris duplikat, kamu bisa menghapus baris-baris tersebut untuk menjaga integritas data.

---

Esensi Hari Keempat: Membersihkan data adalah langkah penting untuk memastikan analisis yang valid. Data yang tidak bersih dapat menghasilkan hasil yang menyesatkan, jadi pastikan kamu mempelajari teknik-teknik dasar dalam menangani masalah umum seperti missing values dan duplikasi.

Komentar