Apa itu visualisasi data python?

Di Indonesia pun profesi ini sedang berkembang dengan cepat. Mengapa? Data science dapat membantu perusahaan menggali bermacam informasi, seperti perilaku konsumen, identifikasi selera pasar, efektifitas proses produksi, prediksi keuntungan perusahaan, dan masih banyak lagi, yang dapat digunakan untuk pengambilan keputusan yang lebih baik.

Untuk itu, penting bagi kamu yang ingin meningkatkan keahlian atau bahkan berganti profesi untuk mempelajari Data Science.

Apa yang Akan Dipelajari di Program Ini?

Modul Analisis dan Visualisasi Data dengan Python ini adalah modul pembelajaran untuk Data Analyst bagi mereka yang berasal dari IT Track. Tujuan pembelajaran modul ini adalah sebagai berikut.

Kali ini kita akan memvisualisasikan data dengan menggunakan Python. Sebelum itu perlu diketahui fungsi-fungsi pada library yang digunakan

NumPy : sebagai komputasi numerik, mengoptimalkan kerja dari single dan multi dimensi pada himpunan. Digunakan pula dalam statistika analisis

SciPy : Menawarkan fungsionalitas tambahan dibandingkan dengan NumPy, termasuk scipy.stats untuk analisis statistik.

Pandas : Unggul dalam menangani data berlabel satu dimensi (1D) dengan objek Seri dan data dua dimensi (2D) dengan objek DataFrame.

Matplotlib : library yang diperuntukkan sebagai visualisasi. Akan bekerja jika digabungkan dengan NumPy, SciPy, Pandas.

Mari kita mulai,

Buka lebar kerja Python, saya disini memakai Python versi 3.7.2 disarankan untuk tidak menggunakan versi terbaru.

Import library yang sudah disebutkan diawal tadi kedalam lembar kerja, dengan menggunakan perintah:

>>> import numpy as np
>>> import scipy.stats
>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> plt.style.use('ggplot')

Dibeberapa kasus, import Matplotlib sering terjadi error, jika tidak bisa install terlebih dahulu Matplotlib.

jika ingin install Matplotlib untuk Python 3 lewat APT package manager, kamu membutuhkan package

sudo apt-get install python3-matplotlib
2:

sudo apt-get install python3-matplotlib

jika ingin menggunakan install melalui Pip untuk Python 3, kamu perlu menggunakan

sudo apt-get install python3-matplotlib
3:

sudo pip3 install matplotlib

Jika masih belum bisa, bisa install melalui salah satu perintah ini,

python -mpip install -U pippython -mpip install -U matplotlib

Kalau masih belum bisa juga, buka file directory C, dan ketikkan

pip install matplotlib

Box Plot

Buat terlebih dahulu data pada lembar kerja Python

Akomodasi = (20, 116, 61, 58, 64,9 )
Kamar = (1503, 10732, 3653, 5206, 2187, 4781, 523)
Bed = 92579, 16418, 6015, 7832, 2885, 6800, 786)

Maka akan terlihat seperti berikut

Sekarang setelah memiliki data untuk dikerjakan, Anda dapat menerapkan

sudo apt-get install python3-matplotlib
4 untuk mendapatkan boxplot:

fig, ax = plt.subplots()
ax.boxplot((Akomodasi, Kamar, Bed), vert=False, showmeans=True, meanline=True,
labels=('Akomodasi', 'Kamar', 'Bed'), patch_artist=True,
medianprops={'linewidth': 2, 'color': 'blue'},
meanprops={'linewidth': 2, 'color': 'red'})
plt.show()
  • sudo apt-get install python3-matplotlib
    5 mengatur orientasi plot menjadi horizontal saat False. Orientasi default adalah vertikal.
  • sudo apt-get install python3-matplotlib
    6 menunjukkan mean ketika
    sudo apt-get install python3-matplotlib
    7.
  • sudo apt-get install python3-matplotlib
    8 merepresentasikan mean pada baris ketika
    sudo apt-get install python3-matplotlib
    7.
  • sudo pip3 install matplotlib
    0: label data Anda.
  • sudo pip3 install matplotlib
    1 menentukan cara menggambar grafik.
  • sudo pip3 install matplotlib
    2 menunjukkan sifat-sifat garis yang mewakili median.
  • sudo pip3 install matplotlib
    3 menunjukkan sifat-sifat garis yang mewakili mean.

Maka Box Plot yang terbentuk seperti gambar dibawah ini

  • Mean adalah yang garis berwarna merah.
  • Median adalah garis yang berwarna Biru Tua.
  • Quartil 1 adalah tepi kiri dari persegi panjang biru.
  • Quartil 3 adalah tepi kanan persegi panjang biru.
  • Interquartile adalah panjang dari persegi panjang biru.
  • Range adalah yang memuat semua dari kiri ke kanan.
  • Outliers titik yang berada paling kanan, di luar range.
Histogram

Histogram sangat berguna ketika memiliki angka unik atau angka yang besar dalam dataset. Histogram membagi nilai dari dataset yang diurutkan ke dalam interval.

Copy koding berikut kedalam Python

>>> hist, bin_edges = np.histogram(Kamar, bins=10)
>>> hist
>>> bin_edges

  1. sudo pip3 install matplotlib
    4 berisi frekuensi atau jumlah item.
  2. sudo pip3 install matplotlib
    5 berisi tepi atau batasan pada bin.

Selanjutnya menghitung data untuk dijadikan sebagai histogram

fig, ax = plt.subplots()
ax.hist(Kamar, bin_edges, cumulative=False)
ax.set_xlabel('Kamar')
ax.set_ylabel('Frequency')
plt.show()

Dapat dilihat terdapat jarak antar histogram, hal itu dikarenakan tidak terdapat data pada rang 2000–4000 dan data 6000–9000.

Pie Charts

Pie chart mewakili data dengan jumlah kecil dan memberikan frekuensi yang relatif. Pie chart tidak bisa digunakan jika data bejenis nominal.

Akomodasi, Kamar, Bed= 359, 28585, 43315
>>> fig, ax = plt.subplots()
>>> ax.pie((Akomodasi, Kamar, Bed), labels=('Akomodasi', 'Kamar', 'Bed'), autopct='%1.1f%%')
>>> plt.show()

Didapatkan pie chart seperti berikut,

Variabel Bed yang memiliki persentase paling besar sedangkan yang terkecil variabel Akomodasi dengan nilai persentase 0.5%. Persentase menunjukkan ukuran relatif dari masing-masing nilai dibandingkan dengan jumlah mereka.

X-Y Plots atau Scatter Plot

mewakili pasangan data dari dua set data. Sumbu x horisontal menunjukkan nilai dari himpunan x, sedangkan sumbu y vertikal menunjukkan nilai yang sesuai dari himpunan y. Anda dapat menyertakan garis regresi dan koefisien korelasi.

Copy kodingan berikut kedalam Python:

sudo apt-get install python3-matplotlib
0

sudo pip3 install matplotlib
6 mengembalikan beberapa nilai. Anda membutuhkan
sudo pip3 install matplotlib
7 dan
sudo pip3 install matplotlib
8 dari garis regresi, serta koefisien korelasi
sudo pip3 install matplotlib
9. Kemudian Anda bisa memasukkan
python -mpip install -U pippython -mpip install -U matplotlib
0 untuk mendapatkan plot x-y :

sudo apt-get install python3-matplotlib
1

Hasilnya akan berbentuk seperti ini,

Kotak merah merupakan (x-y) dan garis biru merupakan garis regresi. Dari plot dapat dilihat bahwa titik-titik mengikuti dan mendekati garis linear sehingga dapat disimpulkan bahwa data berasumsi berdistribusi normal. Namun dalam statistika diperlukan pengujian lebih lanjut untuk mendapatkan data berdistribusi normal atau tidak. Uji yang biasanya digunakan adalah uji Kolmogorov-Smirnov dan uji Shapiro-Wilk untuk memastikan model.

Sekian hasil paparan materi yang dapat disampaikan

Terima Kasih,

Tamara Shafira

Referensi:

[1] Mirko Stojiljkovic, Python Statistics Fundamentals: How to Describe Your Data, https://realpython.com/python-statistics/

Apa yang dimaksud dengan visualisasi data?

Menurut Tableau, visualisasi data atau data visualization adalah tampilan berupa grafis atau visual dari informasi dan data. Dengan kata lain, data visualization mengubah kumpulan data menjadi hal lebih sederhana untuk ditampilkan.

Apa yang termasuk visualisasi data?

Dilansir dari SAS, visualisasi data adalah penyajian data dalam format grafis atau gambar. Dengan kata lain, ini adalah proses mengubah data hasil analisis menjadi gambaran visual berupa bagan, peta, grafik, dan banyak lainnya.

Apa kegunaan dari visualisasi data?

Berikut adalah beberapa manfaat dari visualisasi data: Membantu untuk memahami cerita atau masalah dengan lebih baik. Menunjukkan insight yang bisa saja terlewatkan jika data ditampilkan dengan laporan tradisional. Membantu eksekutif bisnis untuk mengambil keputusan berdasarkan data, akurat, dan tepat.