Supervised Learning (Prediksi) & Algoritma

Supervised learning untuk tugas prediksi sering merujuk pada regresi, di mana tujuan model adalah memprediksi nilai kontinu berdasarkan input yang diberikan. Model dibangun menggunakan data yang sudah diberi label, di mana setiap sampel data memiliki fitur (input) dan nilai target (output) yang diketahui. Berikut adalah penjelasan mengenai supervised learning untuk tugas prediksi dan beberapa algoritma yang umum digunakan:

Supervised Learning (Prediksi)

Supervised learning untuk prediksi adalah metode di mana model dilatih untuk memprediksi nilai keluaran kontinu berdasarkan input data. Data yang digunakan untuk melatih model terdiri dari pasangan input-output. Tujuan model adalah untuk mempelajari hubungan antara input dan output sehingga dapat memprediksi output untuk data baru yang belum pernah dilihat sebelumnya.

Algoritma untuk Prediksi

Berikut adalah 30 algoritma yang sering digunakan dalam supervised learning untuk tugas prediksi:

Linear Regression: Algoritma dasar untuk memodelkan hubungan linier antara input dan output.
Ridge Regression: Varian dari linear regression dengan regularisasi L2 untuk mengurangi overfitting.
Lasso Regression: Linear regression dengan regularisasi L1 yang dapat menyebabkan beberapa koefisien fitur menjadi nol.
Elastic Net: Kombinasi dari Lasso dan Ridge regression untuk regularisasi.
Polynomial Regression: Memperluas linear regression dengan fitur polinomial untuk menangkap hubungan non-linier.
Support Vector Regression (SVR): Varian dari SVM yang digunakan untuk tugas regresi, dengan margin yang diperbolehkan untuk kesalahan.
Decision Tree Regression: Membagi data menjadi subset yang lebih kecil dan membangun model regresi dalam bentuk pohon keputusan.
Random Forest Regression: Kombinasi dari beberapa decision tree untuk meningkatkan akurasi dan mengurangi overfitting.
Gradient Boosting Regression: Menggabungkan beberapa model sederhana (biasanya decision tree) dengan cara meningkatkan model secara bertahap.
AdaBoost Regression: Metode boosting yang menambahkan bobot lebih pada kesalahan prediksi dan memperbaiki model secara iteratif.
XGBoost: Implementasi dari gradient boosting yang dioptimalkan untuk kecepatan dan kinerja.
LightGBM: Versi ringan dari gradient boosting, dioptimalkan untuk kecepatan dengan tetap mempertahankan akurasi.
CatBoost: Gradient boosting yang secara khusus dioptimalkan untuk menangani data kategori.
Neural Networks: Model yang terinspirasi oleh jaringan saraf manusia, digunakan untuk memodelkan hubungan kompleks antara input dan output.
Convolutional Neural Networks (CNNs): Digunakan khususnya untuk data gambar, CNNs menekankan pada pemrosesan spasial.
Recurrent Neural Networks (RNNs): Digunakan untuk data urutan seperti teks atau waktu, RNNs memiliki mekanisme memori untuk mengingat informasi dari urutan sebelumnya.
Long Short-Term Memory (LSTM): Varian dari RNN yang dapat mengatasi masalah vanishing gradient, sangat baik untuk data sekuensial.
Gated Recurrent Unit (GRU): Varian dari RNN yang lebih sederhana dibandingkan LSTM, namun tetap efektif untuk data sekuensial.
Bayesian Regression: Menggunakan pendekatan probabilistik untuk model regresi.
Quantile Regression: Memperkirakan kuantil tertentu dari distribusi respons bersyarat.
Kernel Ridge Regression: Kombinasi dari Ridge regression dan kernel trick untuk menangani hubungan non-linier.
Stochastic Gradient Descent (SGD): Metode optimisasi yang digunakan untuk banyak model machine learning untuk menemukan parameter optimal.
Huber Regression: Menggabungkan manfaat dari regresi linier dan M-estimators untuk mengurangi pengaruh outlier.
Theil-Sen Estimator: Algoritma regresi yang lebih robust terhadap outlier dibandingkan linear regression.
RANSAC (Random Sample Consensus): Algoritma yang iteratif untuk fitting model yang kuat terhadap outlier.
Bagging Regressor: Teknik ensemble yang menggabungkan beberapa model untuk meningkatkan stabilitas dan akurasi.
Extra Trees Regressor (Extremely Randomized Trees): Modifikasi dari random forest yang memperkenalkan lebih banyak randomisasi saat membangun pohon.
Gaussian Process Regression: Metode non-parametrik yang menggunakan proses Gaussian untuk memodelkan distribusi probabilitas dari fungsi yang sesuai dengan data.
PLS Regression (Partial Least Squares): Teknik yang memproyeksikan data ke dalam ruang berdimensi lebih rendah dan memodelkan hubungan antara input dan output.
Orthogonal Matching Pursuit (OMP): Algoritma yang memilih fitur secara iteratif untuk memprediksi output.

Cari Blog Ini

DATA MINING