Cara menggunakan SEABORN.HISTPLOT pada Python

Seaborn menyediakan banyak bentuk grafik. Setiap bentuk grafik memiliki karakteristik sesuai dengan jenis data yang ingin dianalisis. Pada materi ini, kita diajak untuk mengenal histogram, grafik bar, dan grafik garis atau line chart, karakteristiknya, serta susunan kode masing-masing jenis grafik.

Bar

Bar chart atau grafik batang digunakan untuk melihat frekuensi dari data-data kategori. Bar chart dalam Seaborn menggunakan fungsi barplot().

Muat kembali dataset Titanic. Misal kita ingin melihat frekuensi orang yang selamat berdasarkan kategori laki-laki dewasa, perempuan dewasa, dan anak-anak. Lihat contoh susunan kode di bawah ini.

df = sns.load_dataset("titanic") sns.barplot(data=df, x = "who", y = "survived", ci=None)

Tampilannya:

Kita dapat membuat bar chart yang lebih kompleks. Kita tak hanya ingin melihat data orang selamat berdasarkan kategori siapa, tapi juga kategori kelas. Lihat susunan kode ini.

df = sns.load_dataset("titanic") sns.barplot(data=df, x = "who", y = "survived", ci=None)

Tampilannya:

Historgram

Visualisasi histogram juga berbentuk batang. Namun, histogram adalah jenis grafik yang menjelaskan frekuensi berdasarkan dua data numerik. Contohnya, data populasi berdasarkan umur dan jumlah proporsi laki-laki dan perempuan.

Fungsi histogram dalam Seaborn menggunakan histplot(), displot(), atau distplot(), meski distplot() sudah jarang sekali digunakan. Lihat contohnya menggunakan dataset tips di bawah ini.

sns.histplot(df.tip)

Tampilannya:

Mari simak demonstrasi yang lebih kompleks. Kali ini, kita akan menggunakan data penumpang kapal Titanic kembali. Kita ingin menggunakan histogram untuk melihat jumlah orang dengan umur tertentu, tetapi ada perbedaan warna berdasarkan gender. Lihat susunan kode di bawah ini.

Visualisasi data adalah teknik yang dapat digunakan ilmuwan data untuk mengubah data mentah menjadi bagan dan grafik yang memberikan wawasan berharga. Diagram mengurangi kompleksitas data dan memudahkan semua orang untuk memahaminya.

Ada banyak alat visualisasi data yang tersedia, seperti: B. Tableau, Power BI, ChartBlocks, dan lainnya, yang merupakan alat tanpa kode. Mereka adalah alat yang sangat kuat dan memiliki audiens. Namun, jika Anda bekerja dengan data mentah yang membutuhkan transformasi dan tempat bermain yang bagus untuk data, Python adalah pilihan yang sangat baik.

Python, meskipun lebih rumit, membutuhkan keterampilan pemrograman, tetapi memungkinkan Anda untuk memanipulasi, mengubah, dan memvisualisasikan data Anda. Ini ideal untuk ilmuwan data.

Ada banyak alasan mengapa Python adalah pilihan terbaik untuk ilmu data, tetapi salah satu yang terpenting adalah ekosistem perpustakaan. Ada banyak pustaka hebat yang tersedia bagi Python untuk bekerja dengan data seperti import seaborn as sns import pandas as pd import numpy as np import matplotlib 4, import seaborn as sns import pandas as pd import numpy as np import matplotlib 5, import seaborn as sns import pandas as pd import numpy as np import matplotlib 6, import seaborn as sns import pandas as pd import numpy as np import matplotlib 7.

import seaborn as sns import pandas as pd import numpy as np import matplotlib 8 mungkin pustaka plot paling terkenal yang tersedia untuk Python dan bahasa pemrograman lain seperti import seaborn as sns import pandas as pd import numpy as np import matplotlib 9. Ini adalah tingkat penyesuaian dan kegunaan yang menempatkannya di tempat pertama. Namun, beberapa tindakan atau penyesuaian mungkin sulit dilakukan saat digunakan.

Pengembang telah membuat perpustakaan baru berdasarkan matplotlib yang disebut sns.scatterplot(data=flights_data, x="year", y="passengers") 0. sns.scatterplot(data=flights_data, x="year", y="passengers") 1 sekuat import seaborn as sns import pandas as pd import numpy as np import matplotlib 6 Pada saat yang sama, abstraksi disediakan untuk menyederhanakan diagram dan menyediakan beberapa fungsi unik.

Dalam artikel ini, kami akan fokus pada cara bermitra dengan Seaborn untuk membuat diagram kelas dunia. Jika Anda ingin terlibat, Anda dapat membuat proyek Anda sendiri atau lihat saja proyek saya Proyek Panduan Seaborn di GitHub.

Apa itu Seaborn?

Yg keturunan dr laut adalah pustaka untuk membuat grafik statistik dengan Python. Itu membangun matplotlib.dll dan terintegrasi erat dengan Struktur data panda .

Dengan Seaborn Design, Anda dapat menjelajahi dan memahami data Anda dengan cepat. Seaborn menangkap seluruh bingkai atau susunan data yang berisi semua data Anda dan melakukan semua fungsi internal yang diperlukan untuk pemetaan semantik dan agregasi statistik untuk mengubah data menjadi bagan yang informatif.

Ini mengabstraksi kompleksitas dan memungkinkan Anda merancang plot sesuai dengan kebutuhan Anda.

[Bacabaca:[Lesen:[Read:Mencapai 4 Skala Dengan Data Untuk Menyelamatkan Planet]

Pasang Seaborn

Untuk memasang sns.scatterplot(data=flights_data, x="year", y="passengers") 0 semudah menginstal pustaka menggunakan pengelola paket Python favorit Anda. Saat instalasi sns.scatterplot(data=flights_data, x="year", y="passengers") 0perpustakaan akan menginstal dependensinya, termasuk import seaborn as sns import pandas as pd import numpy as np import matplotlib 6, import seaborn as sns import pandas as pd import numpy as np import matplotlib 5, import seaborn as sns import pandas as pd import numpy as np import matplotlib 4, dan sns.scatterplot(data=flights_data, x="year", y="passengers") 8.

Kemudian mari instal Seaborn dan tentu saja paketnya juga Buku catatan untuk mendapatkan akses ke tempat bermain data kami.

pipenv install seaborn notebook

Selain itu, kami akan mengimpor beberapa modul sebelum memulai.

import seaborn as sns import pandas as pd import numpy as np import matplotlib

Bangun lahan pertama Anda

Sebelum kita dapat menggambar apapun, kita membutuhkan data. Keindahan sns.scatterplot(data=flights_data, x="year", y="passengers") 0 adalah bahwa ini bekerja dengan benar import seaborn as sns import pandas as pd import numpy as np import matplotlib 5 Bingkai data yang membuatnya sangat nyaman. Pustaka juga menyertakan beberapa set data bawaan yang sekarang dapat Anda muat dari kode tanpa harus mengunduh file secara manual.

Mari kita lihat cara kerjanya dengan memuat kumpulan data yang berisi informasi tentang penerbangan.

Plot pencar

Plot sebar adalah grafik yang menampilkan titik berdasarkan dua dimensi kumpulan data. Membuat plot pencar di perpustakaan Seaborn sangat mudah hanya dengan satu baris kode.

sns.scatterplot(data=flights_data, x="year", y="passengers")
Plot sebar sampel

Sangat mudah bukan? Fungsinya sns.lineplot(data=flights_data, x="year", y="passengers") 1 mengharapkan kumpulan data yang ingin kita gambar dan kolom yang mewakilinya sns.lineplot(data=flights_data, x="year", y="passengers") 2 dan sns.lineplot(data=flights_data, x="year", y="passengers") 3 Sumbu.

Diagram garis

Grafik ini menarik garis yang mewakili revolusi data kontinu atau kategoris. Ini adalah jenis bagan yang populer dan terkenal, dan sangat mudah dibuat. Kami menggunakan fungsi yang mirip dengan sebelumnya sns.lineplot(data=flights_data, x="year", y="passengers") 4 dengan kumpulan data dan kolom yang berisi sns.lineplot(data=flights_data, x="year", y="passengers") 2 dan sns.lineplot(data=flights_data, x="year", y="passengers") 3 Sumbu. sns.scatterplot(data=flights_data, x="year", y="passengers") 1 akan melakukan sisanya.

sns.lineplot(data=flights_data, x="year", y="passengers")

Contoh diagram garis

Plot batang

Ini mungkin jenis bagan yang paling populer, dan seperti yang mungkin telah Anda prediksi, kami dapat menggambar jenis bagan ini bersama kami sns.scatterplot(data=flights_data, x="year", y="passengers") 0 Kami menggunakan fungsi untuk garis dan sebar dengan cara yang sama sns.lineplot(data=flights_data, x="year", y="passengers") 9.

sns.barplot(data=flights_data, x="year", y="passengers")

Contoh diagram batang

Ini sangat berwarna, saya tahu kita akan belajar cara menyesuaikannya nanti di tutorial.

Ekstensi dengan matplotlib

Seaborn sedang membangun import seaborn as sns import pandas as pd import numpy as np import matplotlib 6, memperluas fungsionalitasnya dan mengabstraksi kompleksitas. Meski begitu, itu tidak membatasi kemampuannya. Apa saja sns.scatterplot(data=flights_data, x="year", y="passengers") 0 Diagram dapat disesuaikan dengan fungsi dari import seaborn as sns import pandas as pd import numpy as np import matplotlib 6 Perpustakaan. Ini dapat berguna untuk operasi tertentu dan memungkinkan burung laut untuk memanfaatkan kekuatannya import seaborn as sns import pandas as pd import numpy as np import matplotlib 6 tanpa harus menulis ulang semua fungsinya.

Misalnya, Anda ingin menggambar beberapa diagram pada saat bersamaan sns.scatterplot(data=flights_data, x="year", y="passengers") 0;; maka kamu bisa menggunakan itu sns.barplot(data=flights_data, x="year", y="passengers") 5 Fungsi dari import seaborn as sns import pandas as pd import numpy as np import matplotlib 6.

diamonds_data = sns.load_dataset('diamonds') plt.subplot(1, 2, 1) sns.countplot(x='carat', data=diamonds_data) plt.subplot(1, 2, 2) sns.countplot(x='depth', data=diamonds_data)

Contoh plot dengan subplot

Penggunaan sns.barplot(data=flights_data, x="year", y="passengers") 5 Fungsinya kita bisa menggambar lebih dari satu diagram pada satu diagram. Fungsi tersebut mengambil tiga parameter: yang pertama adalah jumlah baris, yang kedua adalah jumlah kolom, dan yang terakhir adalah nomor plot.

Kami membuat sns.scatterplot(data=flights_data, x="year", y="passengers") 0 Diagram di setiap subplot, diacak import seaborn as sns import pandas as pd import numpy as np import matplotlib 6 Dengan sns.scatterplot(data=flights_data, x="year", y="passengers") 0 Fungsi.

Seaborn menyukai panda

Kami sudah membicarakannya sebelumnya, tapi sns.scatterplot(data=flights_data, x="year", y="passengers") 0 cinta import seaborn as sns import pandas as pd import numpy as np import matplotlib 5 sedemikian rupa sehingga semua fungsinya didasarkan padanya import seaborn as sns import pandas as pd import numpy as np import matplotlib 5 Bingkai data. Sejauh ini kami telah melihat contoh penggunaan sns.scatterplot(data=flights_data, x="year", y="passengers") 0 dengan data yang telah diinstal sebelumnya, tetapi bagaimana jika kita ingin menggambar grafik dari data yang telah kita muat? import seaborn as sns import pandas as pd import numpy as np import matplotlib 5?

drinks_df = pd.read_csv("data/drinks.csv") sns.barplot(x="country", y="beer_servings", data=drinks_df)

Contoh plot dengan panda

Lakukan tindakan indah dengan gaya

Seaborn memberi Anda kemampuan untuk mengubah antarmuka pengguna diagram Anda dan langsung menawarkan lima gaya berbeda: Darkgrid, Whitegrid, gelap, putih, dan Kutu.

sns.set_style("darkgrid") sns.lineplot(data = data, x = "year", y = "passengers")

Contoh plot dengan gaya darkgrid

Ini contoh lainnya

sns.set_style("whitegrid") sns.lineplot(data=flights_data, x="year", y="passengers")

Contoh plot gaya Whitegrid

Kasus penggunaan keren

Kami tahu dasar-dasar sns.scatterplot(data=flights_data, x="year", y="passengers") 0Sekarang mari kita praktikkan dengan membuat beberapa grafik pada kumpulan data yang sama. Dalam kasus kami, kami menggunakan kumpulan data “Tips”, yang dapat Anda unduh secara langsung sns.scatterplot(data=flights_data, x="year", y="passengers") 0.

Pertama, muat kumpulan data.

I like to print the first few rows of the data set to get a feeling of the columns and the data itself. Usually, I use some pandas functions to fix some data issues like null values and add information to the data set that may be helpful. You can read more about this on the guide to working with pandas .

Buat kolom tambahan ke catatan dengan persentase yang mewakili jumlah tip atas total tagihan.

Selanjutnya kita bisa menggambar beberapa diagram.

Pahami persentase taruhan

Pertama, mari kita coba memahami distribusi persentase tip. Untuk itu bisa kita manfaatkan diamonds_data = sns.load_dataset('diamonds') plt.subplot(1, 2, 1) sns.countplot(x='carat', data=diamonds_data) plt.subplot(1, 2, 2) sns.countplot(x='depth', data=diamonds_data) 8 Ini menciptakan histogram.

import seaborn as sns import pandas as pd import numpy as np import matplotlib 0

Memahami Grafik Persentase Puncak

Itu bagus, kami harus menyesuaikannya diamonds_data = sns.load_dataset('diamonds') plt.subplot(1, 2, 1) sns.countplot(x='carat', data=diamonds_data) plt.subplot(1, 2, 2) sns.countplot(x='depth', data=diamonds_data) 9 Properti agar lebih mudah dibaca, tetapi sekarang kami dapat dengan cepat menghargai pemahaman kami tentang data. Sebagian besar pelanggan akan memberi tip antara 15 dan 20%, dan kami memiliki beberapa kasus marjinal di mana tipnya lebih dari 70%. Nilai-nilai ini adalah anomali dan perlu diselidiki untuk melihat apakah nilainya salah atau tidak.

Menarik juga untuk mengetahui apakah persentase tip berubah tergantung pada waktu hari itu.

import seaborn as sns import pandas as pd import numpy as np import matplotlib 1

Memahami persentase tip dengan diagram waktu

Kali ini kami memuat grafik dengan kumpulan data lengkap, bukan hanya satu kolom, lalu menyetel properti drinks_df = pd.read_csv("data/drinks.csv") sns.barplot(x="country", y="beer_servings", data=drinks_df) 0 ke kolom drinks_df = pd.read_csv("data/drinks.csv") sns.barplot(x="country", y="beer_servings", data=drinks_df) 1. Ini memaksa bagan untuk menggunakan warna berbeda untuk setiap nilai drinks_df = pd.read_csv("data/drinks.csv") sns.barplot(x="country", y="beer_servings", data=drinks_df) 1 dan tambahkan legenda.

Total tip per hari kerja

Metrik menarik lainnya adalah mengetahui berapa banyak uang yang dapat diharapkan staf dalam tip berdasarkan hari dalam seminggu.

import seaborn as sns import pandas as pd import numpy as np import matplotlib 2

Memahami persentase minum per hari

Sepertinya Jumat adalah hari yang baik untuk tinggal di rumah.

Pengaruh ukuran meja dan hari di ujung

Terkadang kami ingin memahami bagaimana variabel berinteraksi untuk menentukan keluaran. Misalnya, bagaimana hari dalam seminggu dan ukuran tabel memengaruhi persentase tip?

Untuk menggambar diagram berikutnya, kami menggabungkannya drinks_df = pd.read_csv("data/drinks.csv") sns.barplot(x="country", y="beer_servings", data=drinks_df) 3 Fungsi panda untuk memproses informasi terlebih dahulu dan kemudian menggambar diagram peta panas.

import seaborn as sns import pandas as pd import numpy as np import matplotlib 3

Memahami Persentase Tip Per Hari dan Bagan Ukuran Bagan

Kesimpulan

Tentu kita bisa melakukan lebih banyak lagi sns.scatterplot(data=flights_data, x="year", y="passengers") 0Kasus penggunaan lebih lanjut dapat ditemukan di bawah dokumentasi resmi. Saya harap Anda menikmati artikel ini seperti saya menikmati menulisnya.

Ini item awalnya diterbitkan pada Aliran kode langsung oleh Juan Cruz Martinez (Indonesia: @bayu_joo), Pendiri dan penerbit Live Code Stream, pengusaha, pengembang, penulis, pembicara, dan pembuat berbagai hal.

Aliran kode langsung juga tersedia sebagai buletin mingguan gratis. Mendaftarlah untuk mendapatkan pembaruan tentang segala hal yang berkaitan dengan pemrograman, AI, dan ilmu komputer secara umum.

Postingan terbaru

LIHAT SEMUA