Data Preparation dan Data Visualization

  •  Data Preparation

Data preparation adalah proses mempersiapkan data mentah menjadi format yang sesuai untuk analisis dan pemodelan. Langkah-langkah dalam data preparation meliputi:

  1. Data Collection: Mengumpulkan data dari berbagai sumber.
  2. Data Cleaning: Menghilangkan atau memperbaiki data yang hilang, duplikat, atau tidak konsisten.
  3. Data Transformation: Mengubah data ke format yang diinginkan, seperti normalisasi, encoding, atau scaling.
  4. Data Integration: Menggabungkan data dari berbagai sumber.
  5. Data Reduction: Mengurangi volume data dengan teknik seperti seleksi fitur atau penghapusan sampel.
Contoh Data Preparation:
Sebulum melakukan preparation data, kita terlebih dahulu mengimport library yang sekiranya nanti akan digunakan. Berikut library yang digunakan:

Pertama-tama, dilakukan impor library yang diperlukan yaitu 'pandas' sebagai 'pd' dan 'numpy' sebagai 'np'.


Kemudian data dibaca dari URL CSV menggunakan 'pd.read_csv(url)' dan disimpan dalam variabel 'data'.


Menampilkan beberapa baris pertama dari data yang telah dibaca menggunakan pandas. Baris kode 'print(data.head())' ini mengambil lima baris pertama dari DataFrame 'data' dan mencetaknya ke layar. Ini berguna untuk mendapatkan gambaran awal tentang struktur dan isi dari data yang telah dibaca.

Untuk memeriksa apakah terdapat nilai yang hilang dalam data, digunakan 'data.isnull().sum(),' yang menghitung jumlah nilai null dalam setiap kolom.


Kemudian baris yang mengandung nilai yang hilang dihapus menggunakan 'data.dropna()', dan hasilnya disimpan dalam 'data_cleaned'.

Selanjutnya, dilakukan encoding pada kolom 'species' menjadi data numerik. Ini dilakukan dengan mengubah kolom tersebut menjadi kategori menggunakan .astype('category') dan kemudian mengubahnya menjadi kode numerik menggunakan .cat.codes.

Tahap terakhir data dinormalisasi menggunakan MinMaxScaler dari sklearn.preprocessing. Normalisasi dilakukan pada kolom 'sepal_length', 'sepal_width', 'petal_length', dan 'petal_width'. Kemudian data yang telah di-normalisasi dicetak menggunakan print(data_cleaned.head()) untuk melihat beberapa baris pertama dari data yang telah diproses.

  • Data Visualization
Data visualization adalah proses menyajikan data dalam bentuk grafis seperti grafik, diagram, atau peta sehingga lebih mudah dipahami dan dianalisis. Alat yang sering digunakan untuk visualisasi data dalam Python adalah Matplotlib dan Seaborn.

Contoh Data Visualization:
Sebulum melakukan visualizatio data, kita terlebih dahulu mengimport library yang sekiranya nanti akan digunakan. Berikut library yang digunakan:


Pertama-tama, dilakukan impor library yang diperlukan yaitu 'pandas' sebagai 'pd' untuk manipulasi data. Kemudian matplotlib.pyplot digunakan untuk membuat plot dan visualisasi data dan seaborn digunakan untuk membuat visualisasi data yang lebih menarik dan mudah dibaca.

Selanjutnya menggunakan sns.load_dataset('iris') untuk memuat dataset iris yang merupakan salah satu dataset yang tersedia di seaborn. Dataset ini berisi data mengenai tiga spesies bunga iris beserta beberapa fitur seperti panjang dan lebar sepal dan petal.

Untuk melihat beberapa baris data iris.head() digunakan untuk menampilkan lima baris pertama dari dataset untuk memastikan bahwa data telah dimuat dengan benar.


Kemudian menghitung berapa jumlah spesies pada data bunga iris menggunakan iris['species'].value_counts() dan menghitung jumlah kemunculan masing-masing spesies dalam dataset dan menyimpannya dalam variabel species_count.


Selanjutnya membuat diagram batang menggunakan plt.figure(figsize=(4, 3)) membuat kanvas untuk plot dengan ukuran 4x3 inci. Dan species_count.plot(kind='bar', color=['blue', 'green', 'red']) untuk membuat diagram batang berdasarkan jumlah spesies. Setiap batang diwarnai dengan warna biru, hijau, dan merah.

Kemudian menambahkan judul dan label menggunkan kode plt.title('Distribusi Spesies Iris') menambahkan judul pada diagram batang. Lalu plt.xlabel('Spesies') digunkakan untuk menambahkan label pada sumbu x. dan plt.ylabel('Jumlah') menambahkan label pada sumbu y.


Menampilkan diagram batang yang bertujuan untuk memvisualisasikan distribusi jumlah spesies bunga iris dalam dataset dengan menggunakan diagram batang.






Komentar

Postingan populer dari blog ini

QUIZ DATA MINING 1107

Supervised Learning (Prediksi) & Algoritma

Supervised Learning (Klasifikasi) & Algoritma