Pada tutorial ini akan membahas bagaimana mengklasifikasikan penyakit parkinson menggunakan algoritma random forest dan mengukur akurasi dari algoritma random forest menggunakan confusion matrix. Tutorial ini menggunakan bahasa pemrograman python versi 3. Tools yang digunakan dalam penulisan script adalah Jupyter Notebook. Library yang dibutuhkan pada tutorial ini yaitu pandas, scikit-learn, dan jcopml. Dataset penyakit parkinson dapat didownload di:

https://www.kaggle.com/dipayanbiswas/parkinsons-disease-speech-signal-features/.

Silahkan instalasi library yang dibutuhkan terlebih dahulu menggunakan perintah berikut:

  • Pip install pandas
  • Pip install -U scikit-learn
  • Pip install jcopml

Setelah semua library selesai diinstall kita siap memulia tutorial ini 😀

1. Import Library

Hal pertama yang perlu kita lakukan adalah mengimport library, library yang telah kita install diimport dengan kode program seperti dibawah ini:

2. Import Data

Hal selanjutnya yang perlu kita lakukan adalah mengimport data, library pandas diperlukan pada tahap ini. Pandas bisa membaca data dengan format csv dan excel, lalu mentransformasikan data tersebut menjadi DataFrame Pandas, kode program seperti dibawah ini:

Untuk menampilkan 5 data pertama gunakan kode program berikut:

3. Min-Max Scaler

Atribut data yang mempunyai rentang nilai yang beragam perlu kita normalisasi agar proses perhitungan menjadi lebih cepat, apalagi jika kita bekerja dengan jumlah data yang sangat besar. Dalam hal ini kita akan menggunakan Min-Max Scaler. Setiap data akan dinormalisasi dari rentang 0-1. Untuk kode programnya seperti dibawah ini:

Untuk menampilkan 5 data pertama yang sudah dinormalisasi gunakan kode program berikut ini:

4. Dataset Splitting

Tahap selanjutnya adalah membagi dataset menjadi data latih dan data uji. Data latih digunakan untuk proses pelatihan algoritma random forest, sedangkan data uji diguanakan untuk mengukur akurasi dari model random forest yang telah terbentuk menggunakan data latih. Berikut kode program

5. Klasifikasi dengan Random Forest Algorithm

Tahap selanjutnya adalah melakukan pelatihan terhadap data latih menggunakan algoritma random forest. Algoritma random forest merupakan algoritma supervised learning. Random forest merupakan pengembangan dari algoritma decision tree klasik, dimana pada algoritma random forest akan membentuk banyak pohon, algoritma random forest merupakan algoritma machine learning yang paling akurat untuk saat ini.

Jika dianalogikan kedalam kehidupan sehari-hari, suatu hari kamu ingin pergi berlibur ke suatu pantai, lalu kamu bertanya kepada teman kamu mengenai tempat liburan tersebut, teman kamu menjelaskan dengan rinci mengenai tempat liburan tersebut, setelah itu kamu bertanya lagi ke teman yang lainnya tentang tempat liburan tersebut, hingga terkumpul 2 pendapat, lalu kamu bertanya lagi pada teman lainnya hingga sebanyak n-teman. Hingga diakhir, kamu berfikir untuk memutuskan mana tempat terbaik dari yang terbaik untuk kamu kunjungi. Untuk kode program pelatihan algoritma random forest serta mengukur akurasi seperti dibawah ini:

6. Pengujian dengan Confusion Matrix

Selanjutnya pengujian menggunakan confusion matrix, kode programnya
seperti berikut ini:

Created By: Fauzi Ihsan

REFERENSI:
[1]. https://scikit-
learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassi
fier.html?highlight=random%20forest#examples-using-sklearn-ensemble-
randomforestclassifier/
diakses 07 Agustus 2020
[2]. https://medium.com/@indiraluthfianam/knn-pima-indians-diabetes-
database-dengan-menggunakan-python-1a0dcff25293/
diakses 07 Agustus
2020

Sumber Gambar