Python meminta respons html parse

Pustaka Permintaan-HTML Python adalah alat yang hebat untuk pengikisan dan penguraian web, tetapi ada beberapa praktik terbaik yang perlu diingat saat menggunakannya. Inilah 10 di antaranya

Table of Contents Show

8 Praktik Terbaik Templat Literal
10 Praktik Terbaik Konsol Symfony
Bagaimana cara membaca respons HTML dengan Python?
Bagaimana cara mem-parsing data HTML dengan Python?
Pengurai HTML mana yang terbaik untuk Python?
Bagaimana cara mengurai HTML dengan Python menggunakan BeautifulSoup?

Christy Boivin

Diterbitkan 23 Desember 2022

Requests-HTML adalah pustaka Python yang memungkinkan pengembang membuat permintaan HTTP dengan mudah dan mem-parsing konten HTML halaman web. Ini adalah alat yang hebat untuk pengikisan web, tetapi juga dapat digunakan untuk mengotomatiskan interaksi web dan bahkan membuat perayap web

Pada artikel ini, kita akan membahas 10 praktik terbaik untuk menggunakan Requests-HTML dengan Python. Kami akan membahas topik seperti menggunakan header yang tepat, menyiapkan proxy, dan menggunakan metode autentikasi yang tepat. Dengan mengikuti praktik terbaik ini, Anda akan mendapatkan hasil maksimal dari Requests-HTML dan memastikan kode Anda efisien dan aman

1. Periksa kode status dari setiap permintaan sebelum menguraikan

Kode status permintaan merupakan indikator penting keberhasilan atau kegagalan permintaan itu. Ini dapat memberi tahu Anda apakah server dapat memproses permintaan Anda dan mengembalikan respons yang valid, atau jika ada kesalahan. Jika kode status menunjukkan kesalahan, sebaiknya hentikan penguraian respons dan ambil tindakan korektif sebelum melanjutkan

Memeriksa kode status dari setiap permintaan mudah dilakukan dengan Python Requests-HTML. Yang perlu Anda lakukan adalah memanggil. atribut status_code pada objek respons setelah membuat permintaan. Ini akan mengembalikan bilangan bulat yang mewakili kode status respons. Misalnya, kode status 200 berarti permintaan berhasil, sedangkan kode status 404 berarti sumber daya yang diminta tidak dapat ditemukan

2. Tetapkan batas waktu permintaan untuk menghindari hang

Saat membuat permintaan dengan Python Requests-HTML, permintaan bisa memakan waktu lama untuk diselesaikan jika server lambat atau tidak responsif. Hal ini dapat menyebabkan program macet dan menjadi tidak responsif hingga permintaan selesai. Menyetel batas waktu untuk permintaan membantu mencegah hal ini dengan menetapkan batas atas berapa lama waktu yang dibutuhkan permintaan sebelum waktu habis. Jika permintaan memakan waktu lebih lama dari batas waktu yang ditentukan, permintaan akan dibatalkan dan program akan terus berjalan tanpa menunggu tanggapan

Untuk menyetel batas waktu permintaan dalam Python Requests-HTML, gunakan parameter `timeout` saat membuat permintaan. Nilai parameter `timeout` harus disetel ke jumlah waktu maksimum yang Anda inginkan untuk permintaan sebelum waktu habis. Misalnya, jika Anda ingin waktu tunggu permintaan habis setelah 10 detik, Anda harus menyetel parameter `timeout` ke 10. 0. Setelah batas waktu ditetapkan, setiap permintaan yang memakan waktu lebih lama dari batas waktu yang ditentukan akan dibatalkan secara otomatis dan mengembalikan kesalahan

3. Pastikan Anda menggunakan penyandian yang benar saat mendekode respons

Saat membuat permintaan dengan Permintaan Python-HTML, respons dikembalikan sebagai string byte. Artinya, jika Anda ingin mengakses konten respons, konten tersebut harus didekodekan menjadi string Unicode terlebih dahulu. Jika penyandian yang salah digunakan saat mendekode respons, maka teks yang dihasilkan mungkin tidak masuk akal atau bahkan mengandung kesalahan

Untuk memastikan bahwa pengkodean yang benar digunakan saat mendekode respons, Anda harus memeriksa tajuk Content-Type dalam respons dan menggunakan parameter charset dari tajuk ini untuk menentukan pengkodean mana yang akan digunakan. Anda juga dapat menentukan penyandian secara manual dengan meneruskan argumen penyandian ke respons. teks() metode

Menggunakan pengodean yang benar saat mendekode respons penting untuk memastikan bahwa data yang diterima akurat dan dapat dibaca. Ini juga membantu mencegah potensi masalah seperti teks yang kacau atau karakter yang salah ditampilkan

4. Parsing HTML dengan lxml atau html5lib untuk kinerja yang lebih baik

Saat menggunakan Python Requests-HTML, konten HTML diuraikan dengan lxml atau html5lib secara default. Ini berarti bahwa ketika permintaan dibuat ke halaman HTML, itu akan diuraikan menjadi struktur pohon dan disimpan dalam memori untuk manipulasi lebih lanjut.

Menggunakan lxml atau html5lib untuk mem-parsing HTML dapat meningkatkan kinerja secara signifikan karena keduanya merupakan parser yang cepat dan efisien. Mereka juga mendukung pemilih XPath dan CSS yang membuatnya lebih mudah untuk mengekstrak data dari halaman web. Selain itu, mereka memiliki fitur bawaan seperti deteksi penyandian otomatis dan penanganan kesalahan yang membuatnya lebih andal daripada pengurai lainnya

Untuk menggunakan lxml atau html5lib untuk kinerja yang lebih baik, Anda perlu menentukan parser saat membuat permintaan. Misalnya, jika Anda ingin menggunakan lxml, Anda akan melakukan hal seperti ini

“`python
dari request_html impor HTMLSession
sesi = HTMLSession()
r = sesi. dapatkan('http. //contoh. com’, parser=’lxml’)
“`

Demikian pula, jika Anda ingin menggunakan html5lib, Anda akan melakukan hal seperti ini

“`python
dari request_html impor HTMLSession
sesi = HTMLSession()
r = sesi. dapatkan('http. //contoh. com’, parser='html5lib')
“`

5. Hindari menggunakan XPath jika memungkinkan, karena dapat menjadi lambat dan rapuh

XPath adalah bahasa kueri yang digunakan untuk memilih elemen dari dokumen XML. Ini bisa lambat karena membutuhkan browser untuk mem-parsing dan mengevaluasi ekspresi XPath, yang bisa memakan waktu tergantung pada kompleksitas ekspresi. Selain itu, ekspresi XPath rapuh karena dapat rusak jika struktur HTML berubah sedikit saja

Permintaan Python-HTML menyediakan beberapa alternatif untuk menggunakan XPath untuk memilih elemen dari halaman HTML. Alternatif paling umum adalah pemilih CSS, yang jauh lebih cepat daripada XPath dan lebih tahan terhadap perubahan kecil dalam struktur HTML. Permintaan Python-HTML juga mendukung metode lain seperti mencari berdasarkan konten teks atau nama tag

6. Cache mengurai halaman di memori atau disk untuk mengurangi lalu lintas jaringan

Caching halaman yang diurai dalam memori atau disk membantu mengurangi lalu lintas jaringan dengan menyimpan respons dari permintaan dan menggunakannya kembali saat diperlukan. Dengan cara ini, alih-alih membuat banyak permintaan untuk halaman yang sama, versi yang di-cache dapat digunakan sebagai gantinya. Ini mengurangi jumlah data yang perlu ditransfer melalui jaringan, yang meningkatkan kinerja dan menghemat bandwidth

Proses caching relatif sederhana dengan Python Requests-HTML. Yang perlu Anda lakukan hanyalah mengatur objek cache dan kemudian menggunakan metode "cache_page" pada objek sesi. Objek cache akan menyimpan respons dari setiap permintaan dan dapat dikonfigurasi untuk kedaluwarsa setelah jangka waktu tertentu. Ini memastikan bahwa versi halaman yang di-cache selalu mutakhir

7. Lebih suka menggunakan pemilih CSS daripada XPath untuk keterbacaan yang lebih baik

Selektor CSS lebih ringkas dan lebih mudah dibaca daripada XPath. Mereka menggunakan sintaks yang mirip dengan HTML, yang membuatnya lebih mudah dipahami oleh pengembang. Ini berarti bahwa mereka dapat dengan cepat mengidentifikasi elemen yang mereka butuhkan untuk mengikis dari halaman web tanpa harus menghabiskan waktu menguraikan ekspresi XPath yang rumit

Menggunakan pemilih CSS juga memungkinkan pengembang untuk menulis kode yang lebih mudah dikelola. Karena sintaksnya sangat sederhana, mudah untuk membuat perubahan atau menambahkan elemen baru ke pemilih jika diperlukan. Selain itu, karena sebagian besar browser modern mendukung pemilih CSS, pengembang tidak perlu khawatir tentang masalah kompatibilitas saat menggunakan Python Requests-HTML

8. Gunakan respons. html. link untuk mendapatkan semua link dari halaman

Saat menggunakan Python Requests-HTML, response. html. link adalah cara terbaik untuk mendapatkan semua link dari halaman sekaligus. Ini mengembalikan daftar tupel yang berisi teks tautan dan URL untuk setiap tautan di halaman. Ini memudahkan untuk mengulangi daftar dan mengekstrak URL yang Anda butuhkan

Menggunakan respon. html. tautan juga memungkinkan Anda dengan cepat mengidentifikasi tautan yang rusak atau tidak valid pada laman. Jika tautan tidak memiliki URL terkait, tautan tersebut tidak akan disertakan dalam daftar yang dikembalikan oleh tanggapan. html. link. Ini dapat membantu Anda memastikan bahwa proyek pengikisan web Anda berjalan dengan lancar dan efisien

Selain itu, respon. html. tautan jauh lebih cepat daripada mencari secara manual melalui kode sumber HTML untuk tautan. Dengan menggunakan metode ini, Anda dapat menghemat waktu dan sumber daya saat mengekstraksi data dari situs web

9. Jangan lupa untuk menutup sesi setelah digunakan

Saat menggunakan Permintaan Python-HTML, sesi dibuat untuk menyimpan cookie dan informasi lainnya. Ini memungkinkan pengguna membuat banyak permintaan tanpa harus memasukkan kembali kredensial autentikasi setiap saat. Namun, jika sesi tidak ditutup setelah digunakan, ini dapat menyebabkan kebocoran memori dan masalah kinerja

Menutup sesi itu mudah; . Ini akan membebaskan semua sumber daya yang terkait dengan sesi, seperti koneksi terbuka atau utas. Ini juga memastikan bahwa semua data yang disimpan dalam sesi dihapus dengan benar. Selain itu, menutup sesi membantu mencegah risiko keamanan dengan memastikan bahwa tidak ada informasi sensitif yang dapat diakses

10. Waspadai robot. aturan txt dan hormati mereka

Robot. txt adalah file teks yang dibuat webmaster untuk menginstruksikan robot mesin telusur (atau “bot”) cara merayapi dan mengindeks laman di situs web mereka. Penting untuk mengetahui aturan ini karena dapat mencegah kode Python Requests-HTML Anda mengakses bagian tertentu dari situs web, atau bahkan seluruh situs web itu sendiri

Untuk memastikan Anda menghormati robot. Saat menggunakan Python Requests-HTML, Anda harus menggunakan dukungan bawaan pustaka request_html untuk robot. file txt. Ini akan memungkinkan Anda untuk memeriksa apakah suatu halaman diizinkan untuk dirayapi sebelum membuat permintaan apa pun. Jika tidak, maka Anda tidak akan membuat permintaan sama sekali. Selain itu, Anda juga harus menyetel header agen pengguna dalam permintaan Anda sehingga server mengetahui robot mana yang membuat permintaan. Dengan cara ini, server dapat menentukan apakah akan memberikan akses atau tidak berdasarkan izin robot tertentu

Sebelumnya

8 Praktik Terbaik Templat Literal

Kembali ke Wawasan

Berikutnya

10 Praktik Terbaik Konsol Symfony

Christy Boivin

Christy Boivin adalah programmer Python yang bersemangat yang percaya pada kekuatan kode untuk memperbaiki dunia. Dia memiliki pemahaman mendalam tentang pengembangan perangkat lunak, debugging, dan pengoptimalan kode. Melalui pekerjaannya sebagai insinyur perangkat lunak, Christy telah mengasah keterampilannya dalam pemrograman Python dan memperoleh pengetahuan yang luas tentang berbagai bahasa pemrograman. Pengalamannya telah memungkinkannya untuk menjadi ahli di bidangnya, membantu menciptakan aplikasi yang efisien dan andal untuk berbagai klien