Ambil nilai setelah tanda mysql

Ini adalah catatan untuk memandu secara singkat dalam melakukan manipulasi/transformasi data menggunakan R dan beberapa package yang menjadi bagian dari package ## # A tibble: 1 x 1 ## year ## ## 1 20138. Tujuan dari tutorial ini adalah agar peserta dapat mencoba mengakses data yang berasal dari database (pada kesempatan ini menggunakan MySQL) dan dari file CSV yang dapat diunduh. Database yang akan diakses telah disediakan oleh pembicara di localhost-nya. Anda hanya dapat mengaksesnya ketika kegiatan sedang berlangsung.

4. Materi

Setelah berhasil import data dari MySQL dan CSV, selanjutnya kita akan mengeksplorasi data tersebut.

dim(flights)## [1] 336776 19glimpse(flights)## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...head(flights)## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour summary(flights)## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ##

## # A tibble: 1 x 1 ## year ## ## 1 20139 menampilkan banyaknya baris dan variable dari suatu data frame.

## [1] 336776 1900 serupa dengan ## [1] 336776 1901 dari base-R, bertujuan untuk melihat tipe dan struktur objek. Jika objek tersebut adalah data frame, maka akan menghasilkan banyaknya baris (observations) dan variable (variables). Fungsi ini juga menampilkan nama variabel, tipe variabel, dan beberapa baris pertama dari data.

## [1] 336776 1902 berguna untuk melihat atau menampilkan beberapa baris pertama dari data frame. Secara default ## [1] 336776 1902 menggunakan ## [1] 336776 1904 untuk menentukan banyaknya baris yang akan ditampilkan. Jika Anda ingin melihat 10 baris pertama, maka cukup mennggantinya menjadi ## [1] 336776 1905. Namun jika yang ingin Anda tampilkan ada beberapa baris terakhir dari data frame, gunakan ## [1] 336776 1906.

## [1] 336776 1907 menghasilkan beberapa nilai statistik deskriptif untuk masing-masing variabel jika yang dimasukan sebagai argumen adalah data frame. Untuk variabel numerik maka akan menhasilkan nilai minimum (## [1] 336776 1908), quantil pertama (## [1] 336776 1909), median (## [1] 336776 1910), rata-rata (## [1] 336776 1911), quantil ketiga (## [1] 336776 1912), maksimum (## [1] 336776 1913) dan banyaknya missing value (## [1] 336776 1914) jika ada. Untuk variabel kategorik (character atau factor) makan akan menghasilkan banyaknya data (## [1] 336776 1915), kelas (## [1] 336776 1916) dan mode (## [1] 336776 1917).

4.1. Mengambil nilai unik (tidak duplikasi) dari sebuah variable

Hal ini sama seperti melakukan ## [1] 336776 1918 di Ms Excel untuk satu variabel.

distinct(flights, year)## # A tibble: 1 x 1 ## year ## ## 1 2013## [1] 336776 190## [1] 336776 191## [1] 336776 192## [1] 336776 193

Untuk mendapatkan nilai unik dari semua baris berdasarkan variabel tertentu tambahkan opsi ## [1] 336776 1919 setelah nama variable dalam fungsi ## [1] 336776 1920.

## [1] 336776 194## [1] 336776 195## [1] 336776 196## [1] 336776 197

4.2. Memilih atau membuang beberapa variable yang akan/tidak digunakan

Untuk membuat data frame dari hasil ## [1] 336776 1921 Anda dapat menuliskan ## [1] 336776 1922. Argumen pertama dari ## [1] 336776 1921 adalah data frame yang ingin kita subset variabel tertentu saja. Selanjutnya tuliskan nama variable yang Anda inginkan ada di data frame yang baru. Anda dapat menuliskan nama masing-masing variable atau dapat juga dengan menuliskan urutan (indeks) variabel.

## [1] 336776 198## [1] 336776 199glimpse(flights)0## [1] 336776 199

Jika variabel yang ingin Anda pilih cukup banyak sedangkan variabel yang ingin Anda buang lebih sedikit, Anda dapat menuliskan nama variabel dengan menambahkan tanda negatif (## [1] 336776 1924) di depan nama atau indeks masing-masing variabel.

glimpse(flights)2glimpse(flights)3glimpse(flights)4glimpse(flights)3

4.3. Memilih baris data berdasarkan indeks baris atau nilai pada variabel tertentu

Ketika Anda ingin memilih sebagian baris saja dari data frame, Anda dapat menggunakan fungsi ## [1] 336776 1925 atau ## [1] 336776 1926.

## [1] 336776 1925 berfungsi untuk mensubset baris data berdasarkan indeks barisnya. Misalkan, ## [1] 336776 1928 berarti Anda memilih data pada posisi baris ke-1 s/d ke-100. Posisi baris 1:100 adalah vector numerik integer yang ingin dipilih.

glimpse(flights)6glimpse(flights)7

## [1] 336776 1926 berfungsi untuk memilih sebagian data berdasarkan nilai dari satu atau lebih variabel.

glimpse(flights)8glimpse(flights)9## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...0## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...1## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...2## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...3## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...4## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...5

4.4. Mengurutkan data

Mengurutkan data frame menggunakan fungsi ## [1] 336776 1930 sangat mudah.

## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...6## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...7## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...8## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...9head(flights)0head(flights)1

4.5. Penanganan missing values

Untuk kebutuhan ilustrasi pada bagian ini dengan fungsi ## [1] 336776 1931, Anda akan mengganti nilai NA (missing value) menjadi sebuah nilai tertentu, misalnya jika ## [1] 336776 1932 missing akan diganti menjadi nilai ## [1] 336776 1933.

head(flights)2head(flights)3head(flights)4head(flights)5head(flights)6head(flights)3head(flights)8head(flights)9## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 0head(flights)3## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 2## [1] 336776 197

Fungsi ## [1] 336776 1934 menggunakan argumen sebuah ## [1] 336776 1935 untuk menentukan nilai pengganti NA pada sebuah variabel. Dari contoh di atas, NA pada ## [1] 336776 1936 dan ## [1] 336776 1937 diganti menjadi 0 (nol), NA di ## [1] 336776 1938 diganti dengan rata-rata ## [1] 336776 1938, sedangkan NA di ## [1] 336776 1940 diganti dengan nilai median dari ## [1] 336776 1940.

4.6. Operator Pipes ## [1] 336776 1942

Seringkali proses data preparation membutuhkan banyak proses atau tahapan. Sekarang jika kita ingin melakukan beberapa proses sekaligus, salah satunya kita akan membuat script kurang lebih seperti ini.

## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 4## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 5

Atau ada juga yang menuliskan seperti berikut ini.

## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 6## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 5

Jika Anda diminta untuk mempelajari script seperti ini saya cukup yakin bahwa Anda akan merasa kesulitan untuk mengetahui proses yang akan dilakukan oleh script tersebut. Script di atas masih sederhana, hanya ada tiga fungsi. Bayangkan jika banyak fungsi yang digunakan secara berurutan, bentuk di atas akan menjadi:

## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 8

Jika diperhatikan, argumen pertama dari masing-masing fungsi ## [1] 336776 1921, ## [1] 336776 1926, ## [1] 336776 1930 dan beberapa fungsi yang lain di ## [1] 336776 1946 yang sering digunakan untuk transformasi dan eksplorasi data adalah data frame/tibble atau hasil dari proses sebelumnya. Misalnya, hasil dari fungsi ## [1] 336776 1921 adalah data frame yang kemudian diproses dengan fungsi ## [1] 336776 1926 untuk memilih baris data tertentu dan hasilnya diteruskan lagi ke fungsi ## [1] 336776 1930 untuk diurutkan berdasarkan variabel tertentu.

Dengan konsep ## # A tibble: 1 x 1 ## year ## ## 1 20138, kita dapat menggunakan operator Pipes ## [1] 336776 1942 agar lebih mudah dalam memahami script karena script tersebut menunjukkan urutan. Perhatikan contoh di bawah ini.

## # A tibble: 6 x 19 ## year month day dep_time sched_dep_time dep_delay arr_time ## ## 1 2013 1 1 517 515 2 830 ## 2 2013 1 1 533 529 4 850 ## 3 2013 1 1 542 540 2 923 ## 4 2013 1 1 544 545 -1 1004 ## 5 2013 1 1 554 600 -6 812 ## 6 2013 1 1 554 558 -4 740 ## # ... with 12 more variables: sched_arr_time , arr_delay , ## # carrier , flight , tailnum , origin , dest , ## # air_time , distance , hour , minute , ## # time_hour 9summary(flights)0

Jika dibuat ke dalam kalimat:

“Ambil data penerbangan dari data frame ## [1] 336776 1952 kemudian pilih variabel-variable tertentu saja. Selanjutnya filter yang ## [1] 336776 1953-nya dari”JFK" dan waktu keberangkatan antara yang lebih awal 10 menit dan yang delay hingga 100 menit. Kemudian urutkan hasil tersebut berdasarkan ## [1] 336776 1953 secara ascending dan berdasarkan ## [1] 336776 1955 secara descending."

4.6.1. Penjelasan Operator Pipes ## [1] 336776 1942

Saya akan coba menjelaskan lebih dalam untuk lebih memahami oprator ## [1] 336776 1942.

Misalkan ## [1] 336776 1958 adalah sebuah fungsi di R dengan argumen ## [1] 336776 1959 dan ## [1] 336776 1960. kemudian fungsi ## [1] 336776 1961 adalah fungsi lain di R dengan argumen ## [1] 336776 1962 dan ## [1] 336776 1963. Dengan menggunakan operator ## [1] 336776 1942 kita dapat menuliskannya sebagai berikut.

summary(flights)1

Dari kedua contoh di atas, dapat dilihat bahwa ## [1] 336776 1959 adalah argumen pertama untuk fungsi ## [1] 336776 1966 dan ## [1] 336776 1962 adalah argumen pertama untuk fungsi ## [1] 336776 1968. Operator ## [1] 336776 1942 “menyampaikan” objek ## [1] 336776 1959 sebagai nilai untuk mengisi argumen pertama pada fungsi ## [1] 336776 1966. Perhatikan ilustrasi di bawah ini.

Ilustrasi Pipes 1

Misalkan objek ## [1] 336776 1959 menjadi argumen pertama fungsi ## [1] 336776 1966 dengan ## [1] 336776 1974. Kemudia hasil dari ## [1] 336776 1974 dijadikan argumen pertama dari fungsi ## [1] 336776 1968. Dengan kata lain ## [1] 336776 1977 sehingga ## [1] 336776 1978. Hal ini dapat dilakukan secara berurutan dengan operator ## [1] 336776 1942 sebagai berikut.

summary(flights)2

Ilustrasi Pipes 2

“Fungsi ## [1] 336776 1966 diterapkan terhadap objek ## [1] 336776 1959 sebagai argumen pertama dan ## [1] 336776 1960 sebagai argumen kedua dari fungsi ## [1] 336776 1966 yang kemudian hasilnya digunakan sebagai argumen pertama pada fungsi ## [1] 336776 1968 dengan ## [1] 336776 1963 sebagai argumen kedua.”

Selanjutnya kita akan gunakan operator ## [1] 336776 1942 dalam tutorial ini.

4.7. Membuat variabel baru

summary(flights)3summary(flights)4

Jika dibuat ke dalam kalimat:

“Ambil data penerbangan dari data frame ## [1] 336776 1952 kemudian pilih variabel-variable tertentu saja. Selanjutnya filter yang ## [1] 336776 1953-nya dari”JFK" dan waktu keberangkatan antara yang lebih awal 10 menit dan yang delay hingga 100 menit. Kemudian urutkan hasil tersebut berdasarkan ## [1] 336776 1953 secara ascending dan berdasarkan ## [1] 336776 1955 secara descending. Setelah itu membuat variabel baru bernama ## [1] 336776 1991 yang menunjukkan apakah suatu penerbangan terjadi delay atau tidak. Kemudian konversi variable ## [1] 336776 1992 yang masih bertipe ## [1] 336776 1993 menjadi ## [1] 336776 1994 atau ## [1] 336776 1995dengan nama variabel yang sama, yaitu ## [1] 336776 1992."

4.8. Tabel frekuensi dan transformasi tabel

Membuat tabel frekuensi berdasarkan ## [1] 336776 1953 dan ## [1] 336776 1955. Gunakan fungsi ## [1] 336776 1999 untuk mengetahui banyaknya baris.

summary(flights)5summary(flights)6summary(flights)7summary(flights)8summary(flights)9## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 0
  • Membuang NA dengan glimpse(flights)00 dan menghitung rata-rata delay.
## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 1## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 2
  • Membuat tabel frekuensi berdasarkan ## [1] 336776 1953 dan ## [1] 336776 1955.
## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 3## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 4

4.9. Ringkasan (summary) dan Group

glimpse(flights)03 dan glimpse(flights)04 digunakan untuk menghitung statistik berdasarkan grup yg disebutkan pada fungi glimpse(flights)03.

## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 5## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 6

Hasil dari glimpse(flights)04 adalah sebuah data frame/tibble. Maka dari itu, sebaiknya berikan nama pada hasil glimpse(flights)04. glimpse(flights)08 adalah nama variabel hasil dari glimpse(flights)09.

## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 7## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 8

glimpse(flights)10 membuat variabel baru dari isi sebuah variabel yang disebutkan pada argumen glimpse(flights)11 sebagai nama variabel, dan nilai dari variabel-variabel baru tersebut adalah nilai dari variabel yang disebutkan di argumen glimpse(flights)12.

Note: pada saat tutorial ini dibuat, package glimpse(flights)13 masih menggunakan fungsi glimpse(flights)10 dan glimpse(flights)15 untuk transformasi data frame. Namun pembuat package glimpse(flights)13 sudah berencana untuk menggantinya dengan nama fungsi baru, yaitu glimpse(flights)17 dan glimpse(flights)18.

## year month day dep_time ## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1 ## 1st Qu.:2013 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 907 ## Median :2013 Median : 7.000 Median :16.00 Median :1401 ## Mean :2013 Mean : 6.549 Mean :15.71 Mean :1349 ## 3rd Qu.:2013 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:1744 ## Max. :2013 Max. :12.000 Max. :31.00 Max. :2400 ## NA's :8255 ## sched_dep_time dep_delay arr_time sched_arr_time ## Min. : 106 Min. : -43.00 Min. : 1 Min. : 1 ## 1st Qu.: 906 1st Qu.: -5.00 1st Qu.:1104 1st Qu.:1124 ## Median :1359 Median : -2.00 Median :1535 Median :1556 ## Mean :1344 Mean : 12.64 Mean :1502 Mean :1536 ## 3rd Qu.:1729 3rd Qu.: 11.00 3rd Qu.:1940 3rd Qu.:1945 ## Max. :2359 Max. :1301.00 Max. :2400 Max. :2359 ## NA's :8255 NA's :8713 ## arr_delay carrier flight tailnum ## Min. : -86.000 Length:336776 Min. : 1 Length:336776 ## 1st Qu.: -17.000 Class :character 1st Qu.: 553 Class :character ## Median : -5.000 Mode :character Median :1496 Mode :character ## Mean : 6.895 Mean :1972 ## 3rd Qu.: 14.000 3rd Qu.:3465 ## Max. :1272.000 Max. :8500 ## NA's :9430 ## origin dest air_time distance ## Length:336776 Length:336776 Min. : 20.0 Min. : 17 ## Class :character Class :character 1st Qu.: 82.0 1st Qu.: 502 ## Mode :character Mode :character Median :129.0 Median : 872 ## Mean :150.7 Mean :1040 ## 3rd Qu.:192.0 3rd Qu.:1389 ## Max. :695.0 Max. :4983 ## NA's :9430 ## hour minute time_hour ## Min. : 1.00 Min. : 0.00 Length:336776 ## 1st Qu.: 9.00 1st Qu.: 8.00 Class :character ## Median :13.00 Median :29.00 Mode :character ## Mean :13.18 Mean :26.23 ## 3rd Qu.:17.00 3rd Qu.:44.00 ## Max. :23.00 Max. :59.00 ## 9distinct(flights, year)0distinct(flights, year)1

distinct(flights, year)2

distinct(flights, year)3

Fungsi glimpse(flights)19 berfungsi untuk menggabungkan (concate) dua buah nilai atau vector menjadi character dengan pemisah antar nilai tersebut adalah. Misalnya

distinct(flights, year)4distinct(flights, year)5

Untuk mengganti pemisahnya Anda dapat menyebutkannya pada argumen glimpse(flights)20. Misalnya Anda ingin menggunakan pemisah tanda ## [1] 336776 1924, maka

distinct(flights, year)6distinct(flights, year)7

Fungsi glimpse(flights)22 melakukan konversi dari sebuah character menjadi nilai tanggal (date-value) di R. Format tanggal default di R adalah glimpse(flights)23, namun di R menggunakan format glimpse(flights)24 untuk glimpse(flights)25. Selebihnya Anda dapat melihatnya dengan glimpse(flights)26.

4.10. Merge/Join Tabel

Dalam dunia nyata, terutama di dunia kerja dan perusahaan, jarang sekali data yang digunakan hanya berasal dari satu tabel atau file. Biasanya ada tabel-tabel lain yang harus digunakan untuk mendukung analisis data. Misalnya di bank, di database minimal ada tabel glimpse(flights)27 yang berisi data demografi (nama, tempat & tanggal lahir, alamat, dst), dan glimpse(flights)28 yang berisi data transaksi nasabah.

Pada bagian tutorial ini, akan membahas penggunaan beberapa tabel yang sudah dijelaskan di bagian awal mengenai data. Ada 7 dataset yang dapat digunakan. Mungkin untuk melakukan analisis dan mendapatkan hasilnya Anda tidak membutuhkan semuanya.

Dari ketujuh tabel, relasinya digambarkan seperti gambar di bawah ini.

Diagram Relasi Tabel

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)30 via satu variabel, glimpse(flights)31.

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)33 melaui variabel glimpse(flights)34.

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)36 dengan dua cara: via variabel ## [1] 336776 1953 dengan variabel glimpse(flights)38 dan ## [1] 336776 1955 dengan variabel glimpse(flights)38.

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)42 via ## [1] 336776 1953 (lokasi), dan glimpse(flights)44, glimpse(flights)45, glimpse(flights)46 dan glimpse(flights)47.

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)49 via glimpse(flights)44, glimpse(flights)45, glimpse(flights)46, glimpse(flights)47, glimpse(flights)54, ## [1] 336776 1953, ## [1] 336776 1955, glimpse(flights)57, dan glimpse(flights)31.

  • ## [1] 336776 1952 dihubungkan dengan glimpse(flights)60 via variabel glimpse(flights)44, glimpse(flights)45, dan glimpse(flights)46.

Berikut fungsi untuk merge/join menggunakan package ## [1] 336776 1946 dan perbandingannya dengan SQL.

glimpse(flights)65glimpse(flights)66glimpse(flights)67glimpse(flights)68glimpse(flights)69glimpse(flights)70glimpse(flights)71glimpse(flights)72

Catatan: “INNER” dan “OUTER” pada SQL adalah opsional, dan lebih sering tidak dituliskan.

Berikut ilustrasi untuk menjelaskan merge/join.

Misalkan ada dua buah tabel, ## [1] 336776 1960 dan glimpse(flights)74 yang masing-masing mempunyai 2 variabel seperti pada gambar di bawah ini. Variabel pertama adalah key dan variabel kedua adalah val.

Tabel x dan y

4.10.1. Inner Join

Ketika melakukan proses glimpse(flights)75 maka akan diambil nilai yang sama dari key yang digunakan dari kedua tabel tersebut. Pada ilustrasi di bawah ini, digunakan glimpse(flights)75 untuk menggabungkan tabel ## [1] 336776 1960 dan glimpse(flights)74. Dari kedua tabel tersebut, nilai key yang ada di tabel ## [1] 336776 1960 dan glimpse(flights)74 adalah 1 dan 2. Maka hasilnya adalah diambil baris data yang sama di kedua tabel tersebut, yaitu nilai key 1 dan 2.

distinct(flights, year)8

Jika ada variabel lain selain key yang namanya sama, maka dibelakang masing-masing nama variabel tersebut akan ditambahkan glimpse(flights)81. glimpse(flights)81 secara default adalah glimpse(flights)83. Artinya karena di masing-masing tabel ada variabel yang sama dan variabel ini bukan sebuah key pada saat join, yaitu glimpse(flights)84, maka setelah proses join nama glimpse(flights)84 akan diganti menjadi glimpse(flights)86 untuk variabel yang berasal dari tabel ## [1] 336776 1960 dan glimpse(flights)88 yang berasal dari tabel glimpse(flights)74.

Jika ingin mengganti glimpse(flights)81, Anda dapat menggunakan argumen glimpse(flights)81 pada fungsi join.

distinct(flights, year)9

Ilustrasi Inner Join

## # A tibble: 1 x 1 ## year ## ## 1 20130## # A tibble: 1 x 1 ## year ## ## 1 20131## # A tibble: 1 x 1 ## year ## ## 1 20132## # A tibble: 1 x 1 ## year ## ## 1 20133

Karena semua variabel yang namanya sama di data frame ## [1] 336776 1952 dan glimpse(flights)42 digunakan sebagai key maka tidak ada variabel yang ditambahkan glimpse(flights)81.

4.10.2. Left, Right and Full Outer Join

Perhatikan ilustrasi untuk left, right, dan full outer join.

Ilustrasi Left, Right dan Full Outer Join

Pada kesempatan ini hanya akan dibahas mengenai left join. Pada dasarnya glimpse(flights)95 mengambil semua baris yang ada di tabel sebelah kiri (LHS), dalam ilustrasi di atas adalah tabel ## [1] 336776 1960, dan mencari nilai yang ada pasangannya di tabel sebelah kanan (RHS), yaitu tabel glimpse(flights)74.

Jika nilai dari variabel key di tabel ## [1] 336776 1960 tidak ada pasangannya di tabel glimpse(flights)74 maka nilai val untuk baris tersebut akan menjadi missing value atau NA.

## # A tibble: 1 x 1 ## year ## ## 1 20134## # A tibble: 1 x 1 ## year ## ## 1 20135## # A tibble: 1 x 1 ## year ## ## 1 20136## # A tibble: 1 x 1 ## year ## ## 1 20137

Jika diperhatikan, ada beberapa variabel dari ## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...00 yang namanya menggunakan ## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...01 dan ## Observations: 336,776 ## Variables: 19 ## $ year 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,... ## $ month 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ dep_time 517, 533, 542, 544, 554, 554, 555, 557, 557, 55... ## $ sched_dep_time 515, 529, 540, 545, 600, 558, 600, 600, 600, 60... ## $ dep_delay 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2... ## $ arr_time 830, 850, 923, 1004, 812, 740, 913, 709, 838, 7... ## $ sched_arr_time 819, 830, 850, 1022, 837, 728, 854, 723, 846, 7... ## $ arr_delay 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -... ## $ carrier "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",... ## $ flight 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79... ## $ tailnum "N14228", "N24211", "N619AA", "N804JB", "N668DN... ## $ origin "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR"... ## $ dest "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL"... ## $ air_time 227, 227, 160, 183, 116, 150, 158, 53, 140, 138... ## $ distance 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 94... ## $ hour 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,... ## $ minute 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, ... ## $ time_hour "2013-01-01 05:00:00", "2013-01-01 05:00:00", "...02. Hal ini menunjukkan ada variabel yang namanya sama dari hasil glimpse(flights)95 pertama dan kedua, yaitu nama variabel dari data frame glimpse(flights)36. Karena dua kali join maka akan ada nama variabel yang sama sehingga namanya ditambahkan glimpse(flights)81.

Apa itu substring MySQL?

Sama dengan pada bahasa pemrograman, substring pada mysql berfungsi untuk mengambil sebagian karakter atau seluruhnya dari suatu field di dalam database.

Trim SQL untuk apa?

Secara default, TRIM fungsi menghapus karakter spasi dari awal dan akhir string.

Apa itu Index di MySQL?

Indeks adalah tabel pencarian khusus yang dapat digunakan mesin pencari basis data untuk mempercepat pengambilan data. Sederhananya, indeks adalah penunjuk ke data dalam tabel.

Apa urutan perintah SQL yang benar?

Perintah Dasar SQL / Structured Query Language.
Perintah SELECT..
Perintah SELECT DISTINCT..
Perintah WHERE..
Perintah (operator) AND, OR dan NOT..
Perintah ORDER BY..
Perintah INSERT INTO..
Perintah UPDATE..
Perintah DELETE..

Postingan terbaru

LIHAT SEMUA