1. Pengenalan Pandas
- Pandas adalah library Python untuk manipulasi dan analisis data.
- Struktur data utama:
- Series → data 1 dimensi (seperti array dengan label).
- DataFrame → data 2 dimensi (mirip tabel di Excel).
2. Membaca & Menyimpan Data
- Membaca data:
import pandas as pd df = pd.read_csv("data.csv") # CSV df = pd.read_excel("data.xlsx") # Excel df = pd.read_json("data.json") # JSON
- Menyimpan data:
df.to_csv("output.csv", index=False) df.to_excel("output.xlsx", index=False)
3. Manipulasi Data
- Melihat data awal:
df.head() # 5 baris pertama df.info() # ringkasan data df.describe() # statistik ringkas
- Memilih kolom & baris:
df["kolom"] df[["kolom1", "kolom2"]] df.loc[0:5] # berdasarkan label index df.iloc[0:5] # berdasarkan posisi index
- Mengubah data:
df["baru"] = df["lama"] * 2 df.rename(columns={"lama":"baru_nama"}, inplace=True) df.drop(columns=["kolom_hapus"], inplace=True)
4. Pembersihan Data
- Menangani nilai kosong (missing values):
df.isnull().sum() # cek nilai kosong df.fillna(0, inplace=True) # ganti NaN dengan 0 df.dropna(inplace=True) # hapus baris yang ada NaN
- Menangani duplikasi:
df.drop_duplicates(inplace=True)
- Mengubah tipe data:
df["tanggal"] = pd.to_datetime(df["tanggal"]) df["angka"] = df["angka"].astype(float)
5. Filtering & Sorting
- Filter data:
df[df["usia"] > 30] df[(df["usia"] > 30) & (df["kota"] == "Jakarta")]
- Sorting:
df.sort_values(by="usia", ascending=False, inplace=True)
6. Ringkasan & Agregasi
- Group by & agregasi:
df.groupby("kota")["pendapatan"].mean() df.groupby("kota").agg({"usia": "mean", "pendapatan": "sum"})
7. Output Akhir
- Setelah manipulasi & pembersihan, dataset siap digunakan untuk:
- Analisis lanjutan
- Visualisasi (Matplotlib, Seaborn)
- Model Machine Learning