Background Image

Postingan

Dasar-Dasar Analisis Data dengan Pandas: Manipulasi dan Pembersihan Data

Pandas adalah library Python untuk manipulasi dan analisis data.

Gambar Dasar-Dasar Analisis Data dengan Pandas: Manipulasi dan Pembersihan Data

1. Pengenalan Pandas

  • Pandas adalah library Python untuk manipulasi dan analisis data.
  • Struktur data utama:
    • Series → data 1 dimensi (seperti array dengan label).
    • DataFrame → data 2 dimensi (mirip tabel di Excel).

2. Membaca & Menyimpan Data

  • Membaca data:
  • import pandas as pd
    
    df = pd.read_csv("data.csv")     # CSV
    
    df = pd.read_excel("data.xlsx")  # Excel
    
    df = pd.read_json("data.json")   # JSON
    
    
  • Menyimpan data:
  • df.to_csv("output.csv", index=False)
    
    df.to_excel("output.xlsx", index=False)
    
    

3. Manipulasi Data

  • Melihat data awal:
  • df.head()      # 5 baris pertama
    
    df.info()      # ringkasan data
    
    df.describe()  # statistik ringkas
    
    
  • Memilih kolom & baris:
  • df["kolom"]
    
    df[["kolom1", "kolom2"]]
    
    df.loc[0:5]      # berdasarkan label index
    
    df.iloc[0:5]     # berdasarkan posisi index
    
    
  • Mengubah data:
  • df["baru"] = df["lama"] * 2
    
    df.rename(columns={"lama":"baru_nama"}, inplace=True)
    
    df.drop(columns=["kolom_hapus"], inplace=True)
    
    

4. Pembersihan Data

  • Menangani nilai kosong (missing values):
  • df.isnull().sum()               # cek nilai kosong
    
    df.fillna(0, inplace=True)      # ganti NaN dengan 0
    
    df.dropna(inplace=True)         # hapus baris yang ada NaN
    
    
  • Menangani duplikasi:
  • df.drop_duplicates(inplace=True)
    
    
  • Mengubah tipe data:
  • df["tanggal"] = pd.to_datetime(df["tanggal"])
    
    df["angka"] = df["angka"].astype(float)
    
    

5. Filtering & Sorting

  • Filter data:
  • df[df["usia"] > 30]
    
    df[(df["usia"] > 30) & (df["kota"] == "Jakarta")]
    
    
  • Sorting:
  • df.sort_values(by="usia", ascending=False, inplace=True)
    
    

6. Ringkasan & Agregasi

  • Group by & agregasi:
  • df.groupby("kota")["pendapatan"].mean()
    
    df.groupby("kota").agg({"usia": "mean", "pendapatan": "sum"})
    
    

7. Output Akhir

  • Setelah manipulasi & pembersihan, dataset siap digunakan untuk:
    • Analisis lanjutan
    • Visualisasi (Matplotlib, Seaborn)
    • Model Machine Learning

Postingan Terkait