Cara menggunakan PANDAS.DATAFRAME pada Python

Pandas adalah sebuah librari berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan dan berkinerja tinggi untuk bahasa pemrograman Python.

Dengan kata lain, Pandas adalah librari analisis data yang memiliki struktur data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang cocok untuk analisis (yaitu tabel). Pandas melakukan tugas penting seperti menyelaraskan data untuk perbandingan dan penggabungan set data, penanganan data yang hilang, dll, itu telah menjadi sebuah librari de facto untuk pemrosesan data tingkat tinggi dalam Python (yaitu statistik). Pandas pada mulanya didesain untuk menangani data finansial, dikarenakan altenatif umum adalah menggunakan spreadsheet (misalnya Microsoft Excel).

Struktur data dasar pandas dinamakan DataFrame, yaitu sebuah koleksi kolom berurutan dengan nama dan jenis, dengan demikian merupakan sebuah tabel yang tampak seperti database dimana sebuah baris tunggal mewakili sebuah contoh tunggal dan kolom mewakili atribut tertentu. Harus dicatat di sini bahwa elemen dalam berbagai kolom mungkin berapa jenis yang berbeda.

Dengan adanya fitur dataframe memudahkan untuk membaca sebuah file dan menjadikannya table, kita juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Banyak format file yang dapat dibaca menggunakan Pandas, seperti file .txt, .csv, .tsv dan lainnya.

Untuk lebih memahami pandas maka penulis akan melakukan praktik langsung pada jupyter notebook dengan menggunakan data: audit risk, sumber data: //archive.ics.uci.edu/ml/datasets/Diabetes

  1. Untuk menggunakan pandas, import pandas sebagai pd.

import pandas as pd

2. Import numpy sebagai np.

import numpy as np

3. Untuk membuat data frame, digunakan sintaks berikut: pandas.DataFrame( data, index, columns, dtype, copy)

dengan keterangan:

a. index merupakan label untuk baris

b. columns merupakan label untuk kolom

c. dtype merupakan tipe data perkolom

d. copy digunakan untuk menyalin data, defaultnya False

4. Karena penulis menggunakan data yang didapatkan dari sumber yang tertera, penulis langsung mengimpor data tersebut yang sudah terletak pada jupyter notebook sebagai berikut:

iin = pd.read_csv(“audit_risk.csv”, delimiter = “;”)
iin.head()

head() merupakan fungsi dasar untuk series yang berfungsi menampilkan n data pertama, adapun output dari script diatas adalah:

Dalam bahasa pemrograman python Pandas adalah packages pada python yang berfungsi untuk manipulasi data tingkat tinggi, dikembangkan oleh Wes McKinney. python pandas dibangun di atas paket Numpy dan struktur data kuncinya disebut dengan DataFrame. DataFrames memungkinkan Anda untuk menyimpan dan memanipulasi data tabular dalam baris observasi dan kolom variabel.

Ada beberapa cara untuk membuat Pandas DataFrame. Salah satu caranya adalah dengan menggunakan kamus. Contohnya dapat Anda lihat pada contoh di bawah ini:

dict = {"Negara": ["Brazil", "Russia", "India", "China", "South Africa"], "Ibukota": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"], "Luas": [8.516, 17.10, 3.286, 9.597, 1.221], "Populasi": [200.4, 143.5, 1252, 1357, 52.98] } import pandas as pd daftar = pd.DataFrame(dict) print(daftar)

Seperti yang Anda lihat pada contoh di atas, dengan daftar Pandas DataFrame baru , Panda telah menetapkan kunci untuk setiap negara sebagai nilai numerik 0 hingga 4. Jika Anda ingin memiliki nilai indeks yang berbeda, misalnya, kode negara dua huruf, Anda juga dapat melakukannya dengan mudah dengan cara seperti sintaks di bawah ini:

# membuat index terbaru didalam index daftar.index = ["BR", "RU", "IN", "CH", "SA"] # Mencetak daftar dengan Penambahan index terbaru print(daftar)

Selain cara di atas, Anda juga dapat membuatnya dengan cara berbeda. Cara lain untuk membuat DataFrame adalah dengan mengimpor file csv menggunakan Pandas. Sekarang, csv cars.csv disimpan dan dapat diimpor menggunakan pd.read_csv seperti sintaks di bawah ini:

# Import pandas as pd import pandas as pd # Import the cars.csv data: cars cars = pd.read_csv('cars.csv') # Print out cars print(cars)

Cara Mengindeks Pandas dataFrames

Ada beberapa cara yang dapat Anda lakukan untuk mengindeks Pandas DataFrame. Salah satu cara termudah untuk melakukannya adalah dengan menggunakan notasi kurung siku.

Pada contoh di bawah ini, Anda dapat menggunakan tanda kurung siku untuk memilih satu kolom cars DataFrame. Anda dapat menggunakan braket tunggal atau braket ganda. Braket tunggal akan mengeluarkan Seri Pandas, sedangkan braket ganda akan mengeluarkan Pandas DataFrame. Perhatikan sintaks di bawah ini:

Artikel Terkait  Tutorial Python 23 : Cara Substring sebuah String di Python

# import packages pandas dan dokumen dengan nama cars import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # mencetak kolom country pada pandas series print(cars['cars_per_cap']) # mencetak kolom country menggunakan pandas dataframe print(cars[['cars_per_cap']]) # mencetak dataframe country dan kolom drives_right print(cars[['cars_per_cap', 'country']])

Tanda kurung siku juga dapat digunakan untuk mengakses observasi (baris) dari DataFrame. Sebagai contoh dapat Anda lihat pada sintaks berikut:

# Import data cars import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # mencetak 4 observations pertama dalam data print(cars[0:4]) # mencetal 5 dan 6 observations print(cars[5:6])

Anda juga dapat menggunakan loc dan iloc untuk melakukan hampir semua operasi pemilihan data. Loc berbasis label, yang berarti Anda harus menentukan baris dan kolom berdasarkan label baris dan kolomnya. Iloc adalah berbasis indeks integer, jadi Anda harus menentukan baris dan kolom dengan indeks integernya seperti yang Anda lakukan pada latihan sebelumnya. Coba Anda perhatikan sintaks di bawah ini:

# mencetak data cars import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # mencetak observations pada jepang print(cars.iloc[2]) # mencetak observations pada Australia dan mesir print(cars.loc[['AUS', 'EG']]

Nah itulah tutorial bahasa pemrograman python ke 15 khusus untuk Anda. Pada tutorial ini Anda telah mempelajari cara melakukan manipulasi data dengan python pandas dataframe. Tutorial ini akan memudahkan Anda dalam menyimpan dan memanipulasi data, baik tabular maupun baris dan kolom observasi.

Apa fungsi Dataframe dari Pandas?

Dengan berdasarkan sistem dataframe, modul ini dapat memuat sebuah file ke dalam tabel virtual menyerupai spreadsheet. Pandas juga berfungsi mengolah suatu data seperti teknik join, distinct, group by, agregasi, dan teknik lainnya seperti pada SQL. Bedanya, ini dilakukan pada tabel.

Struktur apa yang dimiliki Dataframes Pandas?

Struktur Pandas Library pandas memiliki dua jenis struktur data, yaitu series dan dataframe. Struktur data series merupakan satu kolom bagian dari tabel data frame yang merupakan 1 dimensional numpy array sebagai baris datanya, terdiri dari 1 tipe data.

Apa itu modul Pandas?

Pandas adalah paket pada python open source yang paling sering dipakai untuk menganalisis data serta membangun sebuat machine learning. pandas dibuat berdasarkan satu package lain bernama numpy yang mendukung suatu arrays multidimensi.

Apa perbedaan Series dengan Dataframe?

Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom.

Postingan terbaru

LIHAT SEMUA