PENDAHULUAN

Clustering merupakan suatu metode pada data mining yang dapat mengelompokkan data menjadi beberapa kelas klaster berdasarkan karakteristik yang sama, sehingga antara satu kelas klaster dengan yang lainnya memiliki karakteristik yang berbeda. Nah, untuk menentukan jumlah kelas klaster yang optimal dalam suatu penelitian atau set data yang kita gunakan, kita dapat mengimplementasikan metode indeks validitas, dimana jika percobaan uji validitas menghasilkan nilai yang lebih kecil maka jumlah klaster yang digunakan dapat dikatakan lebih baik. Adapun contoh indeks validitas yang dapat digunakan adalah indeks Dunn, Silhouette, Davies- Bouldin, CalinskiHarabasz, Point Bi Seral, Sum of Square, dan PBM.

Dalam tutorial kali ini, kami akan menggunakan salah satu algoritma clustering yang sederhana untuk diimplementasikan dan umum digunakan karena relatif cepat dan mudah beradaptasi, yaitu K-means clustering. Metode indeks validitas yang akan digunakan yaitu Silhouette Index dan Davies Bouldin Index.

Sebelum masuk pada penerapan K-Means dan menghitung validitas, kami akan menunjukkan beberapa tahapan analisa data, visualisasi data dan melihat data set yang digunakan.

Adapun tahapan-tahapan yang harus dilakukan dapat dilihat dibawah ini:

1. Import beberapa library yang akan kita gunakan dalam mengolah data pada input pertama. Selanjutnya pada input kedua pilih file yang akan digunakan dalam bentuk excel dan sesuaikan letak file disatu folder dengan file.ipnyb yang sedang diproses, sehingga output yang dihasilkan pada input kedua akan memperlihatkan data yang digunakan, seperti berikut :

2. Untuk melihat nilai null pada data yang digunakan dapat dilihat berikut:

3. Selanjutnya melihat analisa data, count untuk melihat jumlah data tiap atribut, mean merupakan nilai rata-rata, std merupakan nilai standar deviasi, min max merupakan nilai minimal dan nilai maksimal, pada 25% 50% dan 75% merupakn letak kuartil data:

4. Selanjutnya, anda dapat melihat visualisasi data dalam sebuah grafik pada distribusi data per kolom satu persatu. Hasil yang diperlihatkan perkolom sehingga anda dapat mengubah bagian: df[ ‘nama atribut selanjutnya’]

5. Pada input 8 masukkan jumlah baris/atribut yang digunakan, sistem menghitung mulai dari 0, sehingga dari 7 atribut hitungan jumlah baris dihitung dari 0 sampai 6.

6. Selanjutnya, untuk melihat nilai Silhouette Index (SI) dan Davies Bouldin Index (DBI), percobaan nilai validasi kamu lakukan pada percobaan k=2 hingga k=10. perhatikan rumus yang akan digunakan sebagai berikut :

Untuk DBI: # cek validity one by one # k=10 # test = KMeans(n_clusters=k) # test.fit(x) # labels = test.labels_ #print(davies_bouldin_score(x, labels)) # plt.plot(range(2, 11), dbi) # plt.title(‘DBI method’) # plt.xlabel(‘No of clusters’) # plt.ylabel(‘DBI’) # plt.show()Untuk SI: # cek validity one by one # k=10 # test = KMeans(n_clusters=k) # test.fit(x) # labels = test.labels_ #              print(sillhouette_score(x, labels)) # plt.plot(range(2, 11), slht) # plt.title(‘Sillhoutte method’) # plt.xlabel(‘No of clusters’) # plt.ylabel(‘SI’) # plt.show()

7. Tentukan kelas cluster terbaik dari analisa nilai validasi yang didapatkan. Contoh yang akan kami gunakan yaitu cluster ke 7. Pada input 13 untuk mendefinisikan klaster ke 7, dan input 14 menghasilkan kelas cluster tiap data. Karena data yang digunakan mencapai ribuan, sehingga sistem hanya menampilkan beberapa kelas klaster dari sampel data yang ditampilkan.

8. Menghitung nilai centroid dari hasil cluster K-means yang digunakan sebagai berikut:

9. Terakhir, kami memvisualisasikan data dalam bentuk scatter plot, yaitu penyebaran data dalam tiap clusternya.

Selamat Mencoba, Semoga Bermanfaat!

REFERENSI

[1].    https://journal.unnes.ac.id/sju/index.php/prisma/article/view/28906

[2].    http://ejournal.uin-suska.ac.id/index.php/RMSI/article/view/7381/4046

[3].    https://www.youtube.com/watch?v=ikt0sny_ImY

[4].    https://www.python.org/

[5].    https://scikit-learn.org/stable/

Original Create by : M. Rifki Ilmi & Insanul Kamila

Sumber Gambar