Ukuran jarak apa saja yang dapat digunakan pada metode KNN

Assalamualaikum temen-temen , kembali lagi pada #BelajarBersama Kides , untuk episode kali ini Kides masih akan membahas sedikit materi mengenai Klasifikasi dengan K-Nearest Neighbor atau biasa disebut KNN menggunakan software R . Yuk kita bahas materinya !!!! Check this out dan DONT FORGET TO CLAP GUYSSS ❤❤ ❤

K-Nearest Neighbor adalah suatu metode yang menggunakan algoritma supervised learning dimana hasil dari instance yang baru diklasifikasikan berdasarkan mayoritas dari kategori k-tetangga terdekat. Algoritma k-Nearest Neighbor menggunakan Neighborhood Classification sebagai nilai prediksi dari nilai instance yang baru.

Bagaimana Proses KNN itu ???

picture from gyfcat.com

Prinsip kerja K-Nearest Neighbor (KNN) adalah mencari jarak terdekat antara data yang akan dievaluasi dengan k tetangga (neighbor) terdekatnya dalam data pelatihan(training) . Dengan k merupakan banyaknya tetangga terdekat.

Data training diproyeksikan ke ruang berdimensi banyak, yang mana masing-masing dimensi menjelaskan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi data training. Sebuah titik pada ruang ini ditandai kelas k(titik hitam) , kelas k merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titik tersebut.

Dalam menentukan nilai atau kelas k , sebaiknya kita gunakan nilai ganjil, karena jika tidak, ada kemungkinan kita tidak akan mendapatkan jawaban. Penentuan nilai k dipertimbangkan berdasarkan banyaknya data yang ada dan ukuran dimensi yang dibentuk oleh data. Semakin banyak data yang ada, angka k yang dipilih sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka k yang dipilih sebaiknya semakin tinggi.

Untuk mencari dekat atau jauhnya jarak antar titik pada kelas k biasanya dihitung menggunakan jarak Euclidean . Jarak Euclidean adalah formula untuk mencari jarak antara 2 titik dalam ruang dua dimensi.

Formula untuk mencari jarak 2 dimensi

Bagaimana Langkah Kerja KNN itu ???

  1. Tentukan parameter K = jumlah dari persekitaran (nearest neighbors)
  2. Hitung jarak antara data baru yang ditanyakan dengan seluruh sampel data pelatihan
  3. Urutkan seluruh jarak berdasarkan jarak minimum dan tetapkan persekitaran sesuai dengan nilai K.
  4. Sesuaikan klasifikasi dari kategori Y dengan persekitaran yang telah ditetapkan
  5. Gunakan kelas dengan jumlah terbanyak sebagai dasar menentukan klas dari data baru yang ditanyakan.

Mari kita lihat langkah-langkah tentang bagaimana algoritma KNN menggunakan Software R :

angkah 1: Loading Datasets Iris
Memanggil data iris di lembar kerja R dengan syntax :

Output Struktur Data
Melihat 5 Data DNase Teratas
Output Deskriptif Data

Diketahui dari datasets Protein DNase yang terdiri dari 176 data dengan 3 variabel (conc = konsentrasi protein , density = kerapatan optik yang diukur , run = jumlah sampel yang dijalankan) yang diperoleh selama pengembangan uji ELISA untuk protein rekase DNase dalam serum tikus.

angkah 2: Membuat Kelas Data
Menentukan kelas data sebagai target dengan syntax berikut L

Output Kelas Data

Untuk output diatas adalah perintah membuat dahulu kelas data yang di tentukan sebagai target.

angkah 3: Membentuk Data Testing dan Training
Membentuk data testing dan data training dengan syntax berikut :

Output Pembagian Data Testing dan Data Training

Untuk pembagian data digunakan pembagian test dan train . Dimana 20% data pada test dan 80% data untuk train .

Data Training

Output Data TrainingOutput Dimensi Data Training

Output diatas , digunakan untuk menampilkan data training dari data DNase yang telah di tentukan sebelumnya. Bagian jumlah data training sebanyak 80% .Dijelaskan mengenai dimensi pada data training memiliki jumlah data (n) sebesar 141 pada tiap variabel & 3 adalah variabel dari data tersebut.

Data Testing

Output Data Testing
Output Dimensi Data Testing

Output diatas , digunakan untuk menampilkan data testing dari data DNase yang telah di tentukan sebelumnya. Bagian jumlah data testing sebanyak 20% .Dijelaskan mengenai dimensi pada data testing memiliki jumlah data (n) sebesar 35 pada tiap variabel & 3 adalah variabel dari data tersebut.

angkah 4: Melakukan Klasifikasi KNN
Mengklasifikasi dengan syntax berikut :

Output Klasifikasi KNN

Dari output diatas , diketahui hasil dari klasifikasi yang telah di tentukan . Dimana klasifikasi yang diinginkan adalah sebanyak k=4 . Nilai K tersebut ditentukan oleh peneliti.

Output Ceoss Validation

Terlihat pada output klasifikasi masih ada beberapa data yang tidak sesuai .

angkah 5: Memvisualisasi Hasil Klasifikasi
Memvisualisasi Hasil Klasifikasi dengan syntax berikut :

Diketahui bahwa data masih ada pasangan variabel yang tidak sesuai klasifikasinya. Ketidaksesuaian tersebut dapat terlihat masih adanya tulisan berwarna merah diplot tersebut.

enurut kides , KNN adalah materi yang mudah untuk dipahami, terutama jika kita langsung mengaplikasikan sebuah data untuk di kelompokkan atau dikluster menggunakan Software — software yang dapat membantu kita. Akan tetapi , kinerja dari Kini sendiri tidak sekompetitif teknik-teknik pengelompokan canggih lainnya karena sedikit variasi dalam data dapat menyebabkan varians yang tinggi. Sehingga akan lebih baik , kita juga melatih untuk mecoba tutorial-tutorial mengenai KNN agar kita semakin paham dengan materi tersebut.

Ini pengalaman Kides, semoga bermanfaat 😊 . Apa pengalaman Anda dengan KNN pada machine learning?

Yuk kita sharing bersama . Silakan bagikan komentar yang kamu miliki dibawah ini yaa !!!! Don’t Forget to Clap Guyssss❤

Wassalamua’alaikum Wr. Wb

Video yang berhubungan

Postingan terbaru

LIHAT SEMUA