Postingan

Menampilkan postingan dari Juni, 2024

Supervised Learning (Prediksi) & Algoritma

Gambar
Supervised learning untuk tugas prediksi sering merujuk pada regresi, di mana tujuan model adalah memprediksi nilai kontinu berdasarkan input yang diberikan. Model dibangun menggunakan data yang sudah diberi label, di mana setiap sampel data memiliki fitur (input) dan nilai target (output) yang diketahui. Berikut adalah penjelasan mengenai supervised learning untuk tugas prediksi dan beberapa algoritma yang umum digunakan: Supervised Learning (Prediksi) Supervised learning untuk prediksi adalah metode di mana model dilatih untuk memprediksi nilai keluaran kontinu berdasarkan input data. Data yang digunakan untuk melatih model terdiri dari pasangan input-output. Tujuan model adalah untuk mempelajari hubungan antara input dan output sehingga dapat memprediksi output untuk data baru yang belum pernah dilihat sebelumnya. Algoritma untuk Prediksi Berikut adalah 30 algoritma yang sering digunakan dalam supervised learning untuk tugas prediksi: Linear Regression : Algoritma dasar untuk memode

Supervised Learning (Klasifikasi) & Algoritma

Gambar
 SUPERVISED LEARNING Supervised learning adalah salah satu metode dalam machine learning di mana model dilatih menggunakan data yang sudah diberi label. Data latih terdiri dari input (fitur) dan output (label atau target) yang benar. Tujuan dari supervised learning adalah untuk membuat model yang dapat memprediksi label yang benar untuk data baru yang belum pernah dilihat sebelumnya. Salah satu tugas utama dalam supervised learning adalah klasifikasi, di mana tujuan model adalah untuk mengklasifikasikan data input ke dalam kategori yang telah ditentukan. Berikut adalah penjelasan singkat mengenai beberapa algoritma yang termasuk dalam supervised learning untuk tugas klasifikasi, serta beberapa algoritma terkenal: Linear Regression : Meskipun lebih sering digunakan untuk regresi, linear regression juga bisa digunakan untuk klasifikasi dengan threshold tertentu. Logistic Regression : Digunakan untuk klasifikasi biner, logistic regression memodelkan probabilitas dari kelas yang mungkin.

Pre-Processing

Gambar
 Data Cleaning Data Cleaning adalah proses mengidentifikasi dan mengoreksi (atau menghapus) data yang korup, tidak akurat, atau tidak relevan dari dataset. Langkah-langkah umum dalam data cleaning meliputi: Mengecek nilai yang hilang (missing values) Menangani duplikasi data Memperbaiki tipe data yang salah Contoh kode untuk Data Cleaning : 1. Mengimpor Library Pandas import pandas as pd Tujuan: Mengimpor library Pandas yang digunakan untuk manipulasi data dan analisis data dalam bentuk data frame. 2. Membaca Data dari File CSV data = pd.read_csv( 'data_lulusan.csv' ) Tujuan: Membaca data dari file CSV bernama 'data_lulusan.csv' dan menyimpannya dalam sebuah DataFrame bernama data . 3. Mengecek Missing Values print ( "Missing values per column:\n" , data.isnull(). sum ()) Tujuan: Mengecek jumlah nilai yang hilang (missing values) dalam setiap kolom di DataFrame. Keterangan: data.isnull().sum() menghitung jumlah nilai NaN di setiap kolom, dan hasilnya d

Data Preparation dan Data Visualization

Gambar
 Data Preparation Data preparation adalah proses mempersiapkan data mentah menjadi format yang sesuai untuk analisis dan pemodelan. Langkah-langkah dalam data preparation meliputi: Data Collection: Mengumpulkan data dari berbagai sumber. Data Cleaning: Menghilangkan atau memperbaiki data yang hilang, duplikat, atau tidak konsisten. Data Transformation: Mengubah data ke format yang diinginkan, seperti normalisasi, encoding, atau scaling. Data Integration: Menggabungkan data dari berbagai sumber. Data Reduction: Mengurangi volume data dengan teknik seperti seleksi fitur atau penghapusan sampel. Contoh Data Preparation: Sebulum melakukan preparation data, kita terlebih dahulu mengimport library yang sekiranya nanti akan digunakan. Berikut library yang digunakan: Pertama-tama, dilakukan impor library yang diperlukan yaitu ' pandas' sebagai ' pd' dan ' numpy' sebagai ' np' . Kemudian data dibaca dari URL CSV menggunakan ' pd.read_csv(url)' da

DATA MINING

Gambar
  PROSES DAN TAHAPAN DALAM DATA  MINING Pengumpulan Data :  Tahap ini mencakup pengumpulan data dari berbagai sumber yang berkaitan dengan masalah yang akan dianalisis. Sumber data dapat meliputi database internal perusahaan, data historis, data pelanggan, data transaksi, sensor, atau data eksternal seperti media sosial. Penting untuk memilih data yang mencakup variabel yang relevan dan mencerminkan aspek yang ingin dipelajari. Pembersihan Data  :   Setelah data dikumpulkan, langkah berikutnya adalah membersihkan data dari kesalahan, duplikasi, atau nilai yang hilang. Proses ini mencakup identifikasi dan penanganan nilai yang hilang, penghapusan entri duplikat, penanganan outlier, serta koreksi kesalahan atau ketidakakuratan dalam data. Pembersihan data yang efektif sangat penting untuk memastikan kualitas data yang baik sebelum analisis dilakukan. Integrasi Data  :   Jika data berasal dari berbagai sumber yang berbeda, tahap ini melibatkan penggabungan data tersebut menjadi satu set d