Pengertian Umum
Rekayasa fitur adalah proses mengubah data mentah menjadi fitur (variabel) yang lebih bermakna agar model machine learning dapat mempelajari pola dengan lebih baik.
👉 Tujuan utamanya: meningkatkan performa model dengan membuat representasi data yang lebih informatif.
1. Mengapa Rekayasa Fitur Penting?
- Model hanya sebaik kualitas fiturnya.
- Fitur yang tepat dapat meningkatkan akurasi tanpa mengubah algoritma.
- Mengurangi noise dan membuat data lebih relevan.
2. Teknik-Teknik Rekayasa Fitur
- Encoding Variabel Kategorikal
- One-Hot Encoding (pandas.get_dummies())
- Label Encoding (sklearn.preprocessing.LabelEncoder)
- Transformasi Data
- Normalisasi & Standardisasi
- Log Transform untuk data skewed
- Ekstraksi Fitur
- Dari teks → TF-IDF, word embeddings
- Dari tanggal → tahun, bulan, hari, hari kerja/libur
- Pembuatan Fitur Baru
- Kombinasi variabel (ratio, difference)
- Agregasi (mean, sum berdasarkan grup)
- Penanganan Nilai Hilang
- Imputasi (mean, median, mode, KNN imputer)
3. Contoh Praktis
Misalnya dataset penjualan:
- Data mentah: tanggal_transaksi
- Fitur baru: bulan, hari_dalam_minggu, apakah_hari_libur
4. Tujuan Akhir
- Menghasilkan dataset yang lebih informatif dan bersih.
- Membantu model machine learning belajar pola dengan lebih efektif.
- Mengubah data mentah menjadi wawasan berharga yang berdampak langsung pada prediksi.