Bagaimana Anda mengotomatiskan pembersihan data dengan python?

Sekarang mari kita ambil pernyataan yang dimuat itu dan berjalan mundur beberapa langkah. Pembersihan data, alias pembersihan data, merupakan bagian integral dari persiapan data

Apa persiapan data dan apa maksud Anda, Anda bertanya. Yah, terima kasih, itulah yang saya maksud. Persiapan data yang tepat adalah hal yang penting, dan jika dilakukan dengan tidak benar, tulang punggung analitik data yang efektif akan mahal

Analisis data, dan analisis teks, telah menjadi bidikan setiap bisnis yang tertarik pada kesuksesan berkelanjutan di pasar modern. Secara harfiah, kemampuan untuk menganalisis dan mengukur umpan balik pelanggan, pola penjualan, dan info pelanggan lainnya telah menjadi mata uang bagi bisnis yang ingin membuat nama untuk diri mereka sendiri.

Belajar dari proses Anda saat ini, kenali pelanggan Anda, tingkatkan proses Anda, jual lebih banyak dr persaingan adalah nama permainannya.  

Panduan ini akan menjelaskan dasar-dasar apa itu pembersihan data, lalu beralih ke hal yang sebenarnya. Downstream, panduan ini akan berubah menjadi cara membersihkan data dengan Python yang memandu Anda langkah demi langkah.  

1. Apa itu Pembersihan Data?

Pembersihan data adalah proses memperbaiki atau menghapus data yang rusak, salah, atau tidak perlu dari kumpulan data sebelum analisis data

Memperluas definisi dasar ini, pembersihan data, sering dikelompokkan dengan pembersihan data, scrubbing data, dan persiapan data, berfungsi untuk mengubah data Anda yang berantakan dan berpotensi bermasalah menjadi data bersih. Yang penting, itu 'data bersih' yang didefinisikan sebagai data yang benar-benar dapat digunakan oleh mesin analisis data yang kuat yang Anda habiskan dengan uang

Di MonkeyLearn, kami ingin menjelaskan mengapa pembersihan data itu penting dengan pendekatan sederhana.  

  1. Kami menjelaskan Prinsip Data Buruk 1-100, dan
  2. Kami mengontekstualisasikan prinsip dengan kutipan pilihan pasangan

Prinsip Data Buruk 1-100

The cost of bad data quality over time is significantly higher the longer you wait to clean.

Setiap dolar yang dihabiskan untuk membersihkan data yang buruk secara statistik mencegah biaya down-the-line sekitar $100

Untuk bisnis apa pun, ROI (laba atas investasi) sangat penting. Jika Anda berinvestasi dalam kampanye iklan, Anda akan berharap melihat peningkatan penjualan

Apa yang ingin kami tunjukkan dengan Prinsip Data Buruk 1-100 tidak hanya bahwa pembersihan data memberikan ROI yang mengejutkan. Kami juga ingin mengingatkan bahwa nilainya sangat besar sehingga berinvestasi dalam analisis data, dan pembersihan data yang diperlukan sebelumnya, sering kali merupakan penggunaan sumber daya yang jauh lebih baik daripada teknik penjualan dan pemasaran iklan di masa lalu.

Seperti yang dikatakan oleh CEO kami, Raúl Garreta,

“Jika proses hilir Anda menerima sampah sebagai input data, kualitas hasil Anda juga akan buruk”

Penting untuk dicatat bahwa wawasan Raúl berlaku terlepas dari kekuatan program analisis data Anda. Itu seperti memasukkan solar ke dalam lamborghini

Dengan data yang buruk itu sederhana – sampah masuk, sampah keluar.  

Garbage in equals garbage out of powerful machine learning models.

Sekarang, inti dari panduan ini adalah untuk memberi tahu Anda cara terbaik melakukan pembersihan data menggunakan Python. Untuk yang belum tahu, Python adalah salah satu yang paling umum, jika bukan bahasa kode paling umum di dunia.  

Selain itu, dan yang lebih penting lagi, sebagian besar kumpulan data dapat dan diprogram menggunakan Python. Menggabungkan pentingnya Python, Numpy dan Pandas, kedua pustaka Python (artinya kumpulan alat yang telah diprogram sebelumnya) adalah alat pilihan di antara ilmuwan data dalam hal pembersihan data, persiapan, dan analisis lainnya

Apa lagi yang dibutuhkan seseorang?

2. Pembersihan Data Dengan Python

Menggunakan Pandas dan NumPy, kami sekarang akan memandu Anda melalui rangkaian tugas berikut, tercantum di bawah ini. Kami akan memberikan ide tugas yang sangat singkat, lalu menjelaskan kode yang diperlukan menggunakan INPUT (apa yang harus Anda masukkan) dan OUTPUT (apa yang harus Anda lihat sebagai hasilnya). Jika relevan, kami juga akan memiliki beberapa catatan dan tips bermanfaat bagi Anda untuk mengklarifikasi bagian yang rumit.  

Berikut adalah tugas pembersihan data dasar yang akan kami tangani

1. Mengimpor Perpustakaan

Ayo aktifkan Pandas dan NumPy dan jalankan di skrip Python Anda

MEMASUKKAN

import pandas as pd
import numpy as np

KELUARAN

Dalam hal ini, skrip Anda seharusnya sudah memuat pustaka. Anda akan melihat apakah ini benar dengan memasukkan kumpulan data di langkah selanjutnya

2. Masukkan Set Data Umpan Balik Pelanggan

Selanjutnya, kami meminta perpustakaan kami untuk membaca kumpulan data umpan balik. Mari kita lihat seperti apa bentuknya

MEMASUKKAN

data = pd.read_csv('feedback.csv')
_

KELUARAN.  

Seperti yang Anda lihat "umpan balik. csv” harus menjadi kumpulan data yang ingin Anda periksa. Dan, dalam hal ini, ketika kita membaca “pd. read_csv” sebagai fungsi sebelumnya, kita tahu kita menggunakan library Pandas untuk membaca dataset kita.  

3. Temukan Data yang Hilang

Selanjutnya, kita akan menggunakan hack Python rahasia yang dikenal sebagai 'fungsi isnull' untuk menemukan data kita. Sebenarnya fungsi umum, 'isnull' membantu kita menemukan di mana di dataset kita ada nilai yang hilang. Ini adalah informasi yang berguna karena inilah yang perlu kami perbaiki saat pembersihan data

MEMASUKKAN

data.isnull()

KELUARAN.  

Hasil keluaran kami adalah daftar nilai boolean.  

Ada beberapa wawasan yang bisa diberikan daftar itu kepada kita. Pertama dan terpenting adalah tempat data yang hilang – setiap bacaan 'Benar' di bawah kolom menunjukkan data yang hilang dalam kategori kolom tersebut untuk file data tersebut

Jadi, misalnya, titik data 1 memiliki data yang hilang di bagian Tinjauan dan bagian ID Tinjauannya (keduanya ditandai benar).  

Kami selanjutnya dapat memperluas data yang hilang dari setiap fitur dengan pengkodean

MEMASUKKAN.  

data.isnull().sum()

KELUARAN

Dari sini, kami menggunakan kode untuk benar-benar membersihkan data. Ini bermuara pada dua opsi dasar. 1) Jatuhkan data atau, 2) Masukkan data yang hilang. Jika Anda memilih untuk

1. Jatuhkan datanya

Anda harus membuat keputusan lain – apakah hanya membuang nilai yang hilang dan menyimpan data dalam kumpulan, atau menghilangkan fitur (seluruh kolom) secara grosir karena ada begitu banyak titik data yang hilang sehingga tidak cocok untuk analisis

Jika Anda ingin membuang nilai yang hilang, Anda harus masuk dan menandainya batal menurut standar Pandas atau NumBy (lihat bagian di bawah). Tetapi jika Anda ingin menghapus seluruh kolom, ini kodenya

MEMASUKKAN.  

remove = ['Review ID','Date']
data.drop(remove, inplace =True, axis =1)
_

KELUARAN.  

Sekarang, mari kita periksa pilihan kita yang lain

2. Masukkan data yang hilang

Secara teknis, metode yang dijelaskan di atas untuk mengisi nilai individu dengan standar Pandas atau NumPy juga merupakan bentuk memasukkan data yang hilang – kami menyebutnya menambahkan 'Tanpa Tinjauan'. Saat memasukkan data yang hilang, Anda dapat menambahkan 'No Review' menggunakan kode di bawah ini, atau mengisi data yang benar secara manual

MEMASUKKAN

data['Review'] = data['Review'].fillna('No review')

KELUARAN

Seperti yang Anda lihat, sekarang titik data 1 telah ditandai sebagai 'Tidak Ada Tinjauan' – sukses

Duplikat, seperti data yang hilang, menyebabkan masalah dan menyumbat perangkat lunak analitik. Mari temukan dan hilangkan mereka

Untuk menemukan duplikat, kita mulai dengan

MEMASUKKAN

data.duplicated()
_

KELUARAN

Alias ​​daftar nilai boolean di mana bacaan 'Benar' menunjukkan nilai duplikat

Ayo maju dan singkirkan duplikat itu (titik data 8)

MEMASUKKAN

data.drop_duplicates()

KELUARAN.  

Dan begitulah, dataset kami dengan duplikat kami dihapus. Selanjutnya

5. Mendeteksi Outlier

Outlier adalah nilai numerik yang terletak secara signifikan di luar norma statistik. Memotong itu dari omong kosong sains yang tidak perlu – itu adalah titik data yang sangat di luar jangkauan sehingga kemungkinan besar salah dibaca.  

Mereka, seperti duplikat, perlu dihapus. Mari kita mengendus outlier terlebih dahulu, menarik dataset kita

MEMASUKKAN

data['Rating'].describe()
_

KELUARAN

Lihatlah nilai 'maks' itu - tidak ada nilai lain yang bahkan mendekati 100, dengan rata-rata (rata-rata) adalah 11. Sekarang, solusi Anda untuk outlier akan bergantung pada pengetahuan Anda tentang kumpulan data Anda. Dalam hal ini, ilmuwan data yang memasukkan pengetahuan tahu bahwa mereka bermaksud memberi nilai 1 bukan 100. Jadi, kami dapat menghapus outlier dengan aman untuk memperbaiki data kami

MEMASUKKAN

data.loc[10,'Rating'] = 1
_

KELUARAN.  

Sekarang kumpulan data kami memiliki peringkat mulai dari 1 hingga 5, yang akan menghemat kemiringan besar jika ada 100 nakal di sana

6. Normalisasi Casing

Last but not least, kita akan menandai i kita dan menyilangkan t kita. Artinya, kami akan membakukan (huruf kecil) semua judul ulasan agar tidak membingungkan algoritme kami, dan kami akan menggunakan huruf besar untuk Nama Pelanggan, sehingga algoritme kami mengetahui bahwa itu adalah variabel (Anda akan melihat tindakan ini di bawah)

Berikut cara membuat setiap judul ulasan menjadi huruf kecil

MEMASUKKAN

data = pd.read_csv('feedback.csv')
_0

KELUARAN

Tampak hebat. Aktif untuk memastikan program berdaya tinggi kami tidak tersandung dan salah mengkategorikan nama pelanggan karena tidak menggunakan huruf kapital. Berikut cara memastikan kapitalisasi Nama Pelanggan

MEMASUKKAN

data = pd.read_csv('feedback.csv')
_1

KELUARAN

Dan begitulah – kumpulan data kami dengan semua fixin. Atau, lebih tepatnya, dengan semua perbaikan. Kami telah memanfaatkan pustaka Python yang intuitif untuk menemukan dan menghilangkan data yang buruk, dan membakukan sisanya. Kami sekarang siap memanfaatkannya dengan perangkat lunak analisis data pembelajaran mesin kami.  

Takeaway

Tetap terdepan dalam persaingan dalam hal analisis data tidaklah mudah - sepertinya ada perangkat lunak yang lebih kuat dan fungsionalitas baru yang dikembangkan dan diluncurkan setiap hari

Tetapi analisis data Anda hanya sebaik pembersihan data Anda, yang kami bahas di sini, dan kompatibilitasnya dengan perangkat lunak analisis Anda. Dengan data yang bersih dan perangkat lunak analisis yang kuat (dan mudah digunakan), Anda dapat tetap berada di puncak permainan dengan mengandalkan proses yang Anda kendalikan dan pahami.

Analisis teks MonkeyLearn dan studio analisis data all-in-one adalah pasangan sempurna untuk data bersih Anda. Karena perangkat lunak kami berfokus pada kompatibilitas API untuk terhubung dengan perangkat lunak Anda yang ada dan memasukkan kode baru Anda, dan juga karena perpustakaan kode terbuka kami, kemudahan penggunaan dan kontrol proses kami tidak ada duanya.  

Bagaimana Anda mengotomatiskan proses pembersihan data dengan Python?

Pembersihan Data Python Dengan Panda dan NumPy .
Menjatuhkan Kolom dalam DataFrame
Mengubah Indeks DataFrame
Merapikan Fields di Data
Menggabungkan Metode str dengan NumPy untuk Membersihkan Kolom
Membersihkan Seluruh Dataset Menggunakan Fungsi applymap
Mengganti Nama Kolom dan Melewati Baris

Bagaimana Anda mengotomatiskan proses pembersihan data?

Proses 5 Langkah untuk Pembersihan & Otomatisasi Data .
Langkah 1. Prioritaskan Bidang Data
Langkah 2. Menetapkan Proses Pembersihan Data
Langkah 3. Bersihkan Data yang Ada
Langkah 4. Aturan dan Alur Kerja Data Institut
Langkah 5. Meninjau dan Memperbarui Kualitas dan Prosedur Data Secara Teratur

Bisakah Anda mengotomatiskan pembersihan data?

Pembelajaran mesin dan AI dapat mengotomatiskan operasi pada berbagai fase proses pemurnian data sambil membuat temuan yang lebih akurat.

Bagaimana Anda mengotomatiskan preprocessing data dengan Python?

Cara Memproses Data di Python Langkah-demi-Langkah .
Memuat data di Panda
Jatuhkan kolom yang tidak berguna
Jatuhkan baris dengan nilai yang hilang
Buat variabel dummy
Jaga data yang hilang
Ubah bingkai data menjadi NumPy
Bagilah kumpulan data menjadi data pelatihan dan data uji