Sebelum kita berbicara tentang PolyFuzz dan pencocokan fuzzy, banyak aplikasinya di dunia SEO, batasan dan jebakannya, dan bagaimana memulainya terlepas dari pengalaman pengkodean Anda, mari luangkan waktu sejenak untuk berterima kasih kepada sponsor artikel hari ini – Ahrefs Show
Saya ingin memberikan ucapan terima kasih yang sebesar-besarnya kepada Ahrefs karena mensponsori artikel ini sebagai hasil dari permintaan populer dari utas Twitter ini, dan khususnya, alat Ahrefs Webmaster, yang sempurna untuk pemilik situs web kecil, karena benar-benar gratis untuk digunakan dan sangat mudah . Jika Anda ingin melakukan peningkatan pada situs web Anda dan memberikan nilai instan dengan anggaran terbatas, alat Webmaster adalah alat yang sempurna untuk memulai. Apa itu pencocokan string? Pencocokan string dalam pembelajaran mesin adalah masalah yang sudah ada sejak tahun 1980-an. Masalahnya pada dasarnya mengukur jarak antara dua string dan menghitung berdasarkan skor kesamaan antara dua string, atau sebaliknya - membuat pencocokan perkiraan untuk mengklasifikasikan string sebagai setara, serupa atau jauh Sebuah studi dari Hall and Dowling (1980), berbunyi
Dalam studi yang sama, penulis menjelaskan bahwa beberapa alasan penerapan algoritma pencocokan string secara luas. koreksi kesalahan atau pencarian informasi Koreksi kesalahan mengacu pada sudut pandang koreksi-korupsi dan merupakan bentuk identifikasi pola dalam korpus data yang besar, atau sebaliknya – mengambil informasi berdasarkan input yang ditentukan, menemukan ketidakcocokan kesamaan dan memperbaiki kesalahan Pengambilan informasi adalah tentang memberikan input, yang paling menggambarkan informasi yang kami coba ambil dari kumpulan data. Di sini, mungkin ada dua risiko – program mengembalikan kata-kata yang tidak diinginkan, dan melewatkan kata-kata yang diperlukan Masalah Kesamaan dalam pencocokan string adalah pemahaman tentang pendekatan dua string. Kalau tidak, seberapa mirip kedua string itu? Dalam sistem informasi yang dapat diprogram, variasi string diukur dengan kesalahan ejaan dan pengetikan. Studi awal di lapangan telah menemukan bahwa salah mengira huruf untuk huruf lain adalah kesalahan pengetikan yang paling umum, tetapi juga menghilangkan huruf atau menyisipkan huruf lain secara tidak sengaja. Apa perbedaan metode dalam pencocokan string dan apa yang mereka lakukan?Sejak diperkenalkannya pencocokan string, banyak pekerjaan telah dilakukan di lapangan dengan sejumlah algoritme yang berbeda, dan metode diperkenalkan Di bagian ini, saya ingin membahas secara singkat jenis utama pencocokan string yang digunakan, dan pustaka utama yang mungkin Anda temui mulai melakukan jenis pekerjaan ini Pencocokan tepat – Metode dan KeterbatasanPencocokan tepat, atau di tempat lain disebut sebagai pencocokan langsung adalah metode yang melakukan pencocokan akses langsung untuk pola yang tepat atau kesamaannya dalam teks tergantung pada lokasi karakter dalam urutan abjad Algoritma Boyer–Moore adalah salah satu algoritma pencocokan pola yang paling terkenal dan dianggap sangat cepat dalam praktiknya. Ini dirancang untuk pencocokan string yang tepat dari banyak string terhadap satu kata kunci. Inilah cara kerjanya dalam praktik
Pencocokan berbasis jarak, yang paling menonjol adalah Levenshtein dan Jaro – Metode dan KeterbatasanAlgoritma jarak edit dianggap sebagai algoritma terbaik untuk digunakan untuk menemukan jarak antara dua string. Jarak edit antara dua string 's' dan 't' adalah jumlah minimum operasi edit yang diperlukan untuk mengubah string 's' menjadi 't'. Inilah cara kerjanya
Keterbatasan metode ini adalah didasarkan pada metodologi jarak karakter sederhana, tanpa pemahaman tentang kesamaan semantik antara dua kata kunci. Misalnya, kata HARD dan HAND akan dianggap lebih mirip daripada kata HARD dan KERAS, karena yang terakhir membutuhkan dua tambahan karakter, sedangkan yang pertama hanya membutuhkan satu penggantian karakter. Pencocokan Fonetik seperti Metafon – Metode dan KeterbatasanPencocokan fonetik memainkan peran kunci dalam pencarian informasi di lingkungan multibahasa, di mana keragaman dalam pengucapan atau gaya penulisan dengan arti yang sama mungkin ada. Dalam kasus seperti itu, teknik pencocokan fonetis juga digunakan untuk berbagai bahasa selain bahasa Inggris Beberapa contoh populer dari algoritme tersebut adalah Metaphone, DMetaphone, Cavephone, dan New York State Identification and Intelligence System (NYSIIS) Kode fonetik. Namun, di antara semua algoritme ini, penelitian telah menunjukkan Metaphone unggul dalam kinerjanya dibandingkan dengan teknik lain untuk semua jenis kesalahan (mis. g. salah eja, absen surat, tukar surat, memiliki huruf tambahan, dll), yang diikuti oleh Cavephone dan NYSIIS Beberapa kritik atau batasan dari algoritme ini adalah bahwa algoritme ini tidak terlalu produktif karena presisinya rendah dengan sebagian besar algoritme mengembalikan sejumlah besar positif palsu. Algoritme semacam itu tidak mendeteksi semua kecocokan yang mirip, dan penting untuk mengadaptasi jenis algoritme yang digunakan untuk jenis basis data yang akan diubah. Pencocokan String N-gram – Metode dan KeterbatasanN-gram mengacu pada pendeteksian kemunculan kumpulan pola tetap sebagai sub-array yang disematkan dalam larik input. Secara sederhana, inilah cara kerjanya
Algoritme berbasis N-gram sangat efisien untuk mengekstraksi data dengan cepat yang melibatkan pola besar Jenis algoritme pencocokan string ini memiliki sejumlah aplikasi berbeda di antaranya (tetapi tentu saja tidak terbatas pada)
Pencocokan string TF-IDFKemiripan kosinus dengan tf-idf adalah metrik yang mapan untuk membandingkan teks, yang telah diadaptasi untuk mencocokkan string kueri dengan nilai secara fleksibel dalam satu atribut relasi TF-IDF menganalisis korpus kata secara keseluruhan, dan memberi bobot pada setiap token sebagai lebih penting untuk string jika kurang umum dalam korpus, seperti yang disoroti dalam proyek ini oleh Adrial Pearl Beberapa keterbatasan adalah bahwa pendekatan ini tidak mempertimbangkan kesamaan semantik antara input dan entri database yang ditemukan, dan juga tidak cepat bila disetel ke akurasi tinggi. Apa saja perpustakaan pencocokan string yang umum digunakan yang mungkin Anda temui?Fuzzy Panda (Python)Fuzzy pandas adalah perpustakaan sederhana, tangguh, dan ramping yang memungkinkan Anda melakukan pencocokan fuzzy dengan bingkai data panda. Anda dapat menemukan deskripsi proyek Python, cuplikan kode, dan dokumen di sini PolyFuzz (Python)Dalam pengertian yang paling umum, PolyFuzz dapat digunakan untuk pencocokan, pengelompokan, dan evaluasi string fuzzy PolyFuzz menggunakan teknik pencocokan string fuzzy yang berbeda sebagai kerangka kerja, seperti jarak Levenshtein, berbasis karakter TF-IDF, dan metode n-gram secara bersamaan. Kerangka kerja ini dapat disesuaikan untuk memodelkan pencocokan string fuzzy, yang membuat perpustakaan tidak hanya kuat tetapi juga sangat berharga untuk tugas pencocokan string Apa keuntungan menggunakan PolyFuzz? Satu manfaat besar adalah kemampuan untuk menyesuaikan algoritme yang Anda gunakan – hanya dengan beberapa baris kode, Anda dapat dengan cepat menerapkan model pencocokan yang berbeda, bergantung pada kebutuhan dan data Anda Selain itu, keuntungan lainnya adalah dengan PolyFuzz Anda juga dapat memilih algoritma jarak edit, khususnya jika Anda tidak ingin terhalang oleh keterbatasan dasar (mis. g. pencocokan tepat, atau pencocokan jarak Levenshtein). Ada banyak algoritme jarak edit di luar sana yang mungkin ingin Anda gunakan, dan kami hanya mengonversi sebagian kecilnya di artikel ini. PolyFuzz memungkinkan eksperimen dan penyesuaian tidak seperti paket lainnya. Anda dapat menggunakan ukuran jarak apa pun, lihat dokumentasi Lihat tutorial Maarten Grootendorst tentang pencocokan string dengan BERT, TFIDF, dan algoritme lain serta pengukuran jarak, yang ditingkatkan melalui PolyFuzz Hal keren lainnya tentang PollyFuzz adalah kemampuan untuk mencocokkan, mengelompokkan, dan memvisualisasikan beberapa model dalam satu instance PolyFuzz, yang dapat digunakan dalam proses pemilihan model untuk membandingkan kinerja berbagai algoritme pada sampel kumpulan data Anda Fuzzywuzzy (Python)Fuzzywuzzy adalah library python yang menggunakan Levenshtein Distance untuk menghitung perbedaan antara urutan dan pola. Ini berfungsi dengan cara yang telah kami jelaskan – dengan menghitung jumlah koreksi yang diperlukan untuk beralih dari kesalahan eja entri yang teridentifikasi ke kata kunci masukan Lihat tutorial luar biasa ini untuk memulai dengan perpustakaan ini. , diterbitkan oleh Catherine Gitau Apa yang dapat digunakan untuk pencocokan fuzzy dalam konteks pekerjaan SEO?Pencocokan Fuzzy untuk Identifikasi Peluang Tautan InternalMenemukan Kesamaan Antara Dua String – Kata Kunci, URL, JudulCara tercepat untuk mengetahui kemiripan dua string adalah dengan menggunakan pencocokan fuzzy sebagai Skrip Aplikasi di Google Sheets atau FUZZY LOOKUP sebagai Formula di Excel Jika Anda ingin menggunakan Excel – rumus FUZZYLOOKUP dikembangkan sebagai add-on dan Anda dapat menemukan tutorial yang bagus untuk menggunakannya di sini. Pada dasarnya, rumusnya adalah versi lanjutan dari VLOOKUP, menggunakan matematika tingkat lanjut untuk menghitung probabilitas bahwa apa yang ditemukannya cocok dengan entri pencarian Anda, yang berarti alat ini berfungsi bahkan ketika karakter (angka, huruf, tanda baca) tidak sama persis. Namun, yang sedikit lebih bernuansa adalah aplikasi FuzzyLook-up di Google Sheets sebagai AppScript Lebih mudah untuk menginstal dan memulai, dan juga sedikit lebih ramah pengguna untuk menggunakan FuzzyLookup di Google Sheets Mari kita lihat cara cepat menilai kesamaan halaman, judul, atau kata kunci Nilai Kemiripan String dalam Detik ✨ – Salin template Google Sheets Menemukan peluang menyukai halaman Internal di kluster topik yang sama atau di grup halaman yang berbedaBerdasarkan ekstraksi konten dari konten halaman Anda dari Screaming Frog, Anda juga dapat menemukan halaman serupa untuk ditautkan Rekomendasi di sini adalah untuk menggunakan ini hanya untuk halaman yang sifatnya agak mirip dalam hal struktur konten (mis. g. halaman produk), karena jika tidak, Anda akan membandingkan apel dengan jeruk. Catatan penting lainnya adalah bahwa ini tidak akan membantu Anda mengevaluasi semantik konten sebagai bagian dari proses, jadi pastikan Anda selaras dengan batasan pencocokan fuzzy sebelum melanjutkan Ini juga terbaik untuk menjaga perbandingan relatif rendah dalam hal volume, jadi lebih baik membandingkan paragraf halaman, atau judul, dibandingkan dengan seluruh konten halaman. Meskipun ini bagus untuk eksperimen, sangat penting juga untuk meninjau rekomendasi yang diberikan dan memeriksanya setelahnya, untuk memastikan tautan yang dibuat masuk akal Temukan dengan cepat peluang tautan internal untuk ditinjau dan diterapkan ✨ – Salin template Google Sheets Pencocokan Fuzzy untuk Riset PesaingMelakukan Analisis Pesaing terhadap Perbedaan URL dan Judul, mengidentifikasi Peluang Penggunaan Kata KunciGreg Bernhardt juga membuat skrip dan aplikasi Streamlit, menggunakan PolyFuzz untuk melakukan analisis kompetitif terhadap URL dan data situs lainnya, seperti judul Tujuan dari alat yang dibuat adalah untuk menemukan perbedaan antara struktur URL peringkat Anda, judul, dan penggunaan kata kunci dan kata kunci pesaing Anda, menemukan di mana mereka mengungguli Anda (melalui penggunaan Semrush API), dan menyoroti peluang dan kemenangan cepat Pencocokan Fuzzy untuk Pemetaan Pengalihan & Identifikasi Plagiarisme KontenMengevaluasi Hasil Pemetaan Pengalihan URL dan/atau Plagiarisme KontenFrancis Angelo Reyes menyajikan alat pemetaan Pengalihan URL yang bagus menggunakan Beautiful Soup untuk pengikisan konten setelah proyek pengalihan dijalankan, dan PolyFuzz untuk analisis guna memeriksa kesamaan konten dengan cepat. Tujuan dari alat tersebut, dalam kata Francis, adalah untuk
Alat ini juga dapat berfungsi ganda sebagai pemeriksa plagiarisme konten – keseluruhan aplikasi yang sangat berguna Jenis pemeriksaan ini juga dapat dilakukan melalui template dan video Google Sheets yang saya bagikan sebelumnya Mulai Memetakan pengalihan Anda dengan mudah ✨ – Salin template Google Sheets Cocokkan 404 dengan konten yang ada dan hasilkan daftar pengalihanPakar SEO Teknis dan Python yang legendaris, Greg Bernhardt, membuat skrip Python yang sederhana namun efektif, menggunakan PolyFuzz untuk mencocokkan 404 dengan konten yang ada dan membuat daftar pengalihan menggunakan modul Python yang disebut Polyfuzz. Untuk setiap kasus penggunaan yang luar biasa, Greg juga merilis skrip dan aplikasi Streamlit Pelajari cara Menghasilkan Daftar Pengalihan 404 untuk SEO dengan Polyfuzz Menggunakan Python dan gunakan aplikasinya, ditautkan di bawah Pencocokan Fuzzy untuk Pengelompokan Kata Kunci – tidak disarankan. Inilah alasannyaSaya ingin menyebutkan bahwa pencocokan Polyfuzz dan fuzzy secara umum dapat digunakan untuk pengelompokan kata kunci dan pengelompokan kata kunci dalam proses penelitian kata kunci, atau backlink dalam proses penelitian backlink. Kode untuk melakukannya dapat ditemukan di dokumentasi API itu sendiri Namun, seperti yang dikatakan Lee Foot setelah eksperimennya dalam menggunakan PolyFuzz untuk pengelompokan kata kunci, ini sama sekali bukan cara yang ideal atau disarankan untuk melakukan pengelompokan kata kunci, karena alasan yang disebutkan dalam bagian teoretis artikel ini. Yaitu, pencocokan fuzzy melakukan pergeseran sederhana antar karakter, sebagai lawan mencari hubungan semantik antara kata-kata dalam gugus, oleh karena itu, seperti yang dinyatakan Lee
Pikiran terakhir dan sumber daya tambahanJadi, sekarang setelah Anda tahu cara kerja pencocokan fuzzy, manfaat, batasan, dan kasus penggunaan untuk SEO, Anda memiliki semua alat yang diperlukan untuk pergi dan mengujinya sendiri. Ini tidak diragukan lagi salah satu cara termudah untuk memulai pembelajaran mesin untuk SEO, karena memiliki manfaat dalam hal otomatisasi dan skalabilitas, tetapi juga beberapa batasan yang cukup signifikan, yang membuatnya berguna dalam konteks tertentu tetapi tidak berguna dalam konteks lain. Dalam artikel ini, saya telah menampilkan karya pembuat konten yang luar biasa di ruang SEO, tetapi saya juga ingin memberi Anda beberapa pembelajaran tambahan, jika Anda ingin menggali lebih dalam topik ini. Berikut adalah beberapa sumber daya dan pembuat hebat yang telah menulis tentang Pencocokan Fuzzy dan kasus penggunaannya
Terima kasih telah membaca dan selamat belajar Pertanyaan yang Sering DiajukanApa itu pencocokan string? Pencocokan string dalam pembelajaran mesin adalah masalah yang sudah ada sejak tahun 1980-an. Masalahnya pada dasarnya mengukur jarak antara dua string dan menghitung berdasarkan skor kesamaan antara dua string, atau sebaliknya - membuat pencocokan perkiraan untuk mengklasifikasikan string sebagai setara, serupa atau jauh Apa perbedaan metode dalam pencocokan string dan apa yang mereka lakukan? 1. Pencocokan tepat melakukan pencocokan akses langsung untuk pola yang tepat dalam teks tergantung pada lokasi karakter dalam urutan abjad Apa yang dapat digunakan untuk pencocokan fuzzy dalam konteks pekerjaan SEO? Fuzzy Matching dapat digunakan untuk Apa yang tidak direkomendasikan untuk pencocokan Fuzzy dalam pekerjaan SEO? Pencocokan fuzzy tidak direkomendasikan untuk pengelompokan kata kunci skala besar dalam penelitian kata kunci karena tidak ada pemahaman semantik dari model yang biasanya digunakan. Saat bekerja dengan kumpulan data besar, sebaiknya gunakan pendekatan yang lebih canggih seperti metode pembelajaran mendalam atau ekstraksi entitas |