Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Daftar Isi: 1. Sekilas Regresi Linear Logistik 2. Mengukur Kecocokkan Model Regresi Logistik terhadap Data dengan Nagelkerke’s 3. Menguji Kecocokkan Model Regresi Logistik terhadap Data dengan -2log-likelihood, Hosmer-Lemeshow, dan Pearson Chi-Square 4. Uji Signifikansi Koefisien Regresi Logistik Secara Individu (Uji Wald) 5. Contoh Kasus Regresi Logistik dan Praktek dengan SPSS 6. Download File & Data

Dalam regresi linear, baik sederhana maupun berganda, variabel tak bebas bersifat metrik (interval atau rasio), sedangkan dalam regresi logistik, variabel tak bebas bersifat non-metrik (memiliki kategori). Pada regresi linear, variabel bebas bersifat metrik (interval atau rasio), sedangkan dalam regresi logistik, variabel bebas dapat bersifat metrik atau non-metrik atau kombinasi dari keduanya. Hair dkk. (2010:314) menyatakan sebagai berikut.

"Logistic regression may be described as estimating the relationship between a single nonmetric (binary) dependent variable and set of metric or non-metric independent variables, in this general form:


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Sejalan dengan Hair, Field (2009:265) menyatakan sebagai berikut.

"Logistic regression is multiple regression but with an outcome variable that is a categorical variable and predictors variables that are continuous or categorical."

Sebagai contoh aplikasi dari regresi logistik dapat menjawab pertanyaan-pertanyaan seperti berikut.

∇ Apakah seorang siswa diperkirakan memiliki peluang yang cukup besar untuk lulus ujian masuk perguruan tinggi negeri berdasarkan informasi jumlah jam belajar dalam sehari dan mengikuti kursus bimbingan belajar atau tidak di luar sekolah. ∇ Apakah seorang responden diperkirakan memiliki peluang yang cukup besar untuk memilih presiden A berdasarkan informasi usia dan pekerjaannya. ∇ Apakah seorang responden diperkirakan memiliki peluang yang cukup besar untuk terkena serangan jantung berdasarkan informasi jenis kelamin dan menghisap rokok atau tidak.

Pada regresi logistik, jika variabel tak bebas memiliki dua kategori, maka disebut regresi logistik biner (binary regression logistic). Namun, jika variabel tak bebas memiliki lebih dari dua kategori, maka disebut regresi logistik multinomial (multinomial/polychotomous logistic regression). Secara umum, persamaan regresi logistik sederhana (melibatkan satu variabel bebas) memiliki bentuk


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Nilai 3 tersebut menyatakan kejadian untuk lulus dengan menggunakan metode B 3 kali lebih mungkin dibandingkan untuk tidak lulus. Jika nilai odds pada metode B dibagi dengan nilai odds pada metode A, maka diperoleh


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Nilai 9 dapat diinterpretasikan mahasiswa dengan menggunakan metode B untuk lulus 9 kali lebih mungkin dibandingkan dengan mahasiswa dengan menggunakan metode A. Nilai 9 tersebut disebut odds ratio. Persamaan regresi logistik sederhana untuk probabilitas terjadinya sukses memiliki bentuk


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Persamaan regresi logistik untuk probabilitas dapat digunakan untuk mengestimasi probabilitas atau kemungkinan terjadinya suatu variabel tak bebas.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Pada bab sebelumnya telah dibahas mengenai regresi linear. Pada regresi linear mengasumsikan error e berdistribusi normal dan memiliki nilai varians yang sama pada setiap tingkatan variabel bebas (across levels of the independent variable). Error merupakan selisih antara nilai variabel tak bebas y dengan nilai estimasi variabel tak bebas y. Namun asumsi normalitas dan varians yang konstan dari error (homoskedastisitas) tidak berlaku ketika nilai dari variabel tak bebas hanya memiliki dua kemungkinan nilai (dichotomous outcome variable) (Hosmer dan Lemeshow, 2000:7).

Lebih lanjut Hosmer dan Lemeshow (2000:7) mengemukakan pada kondisi variabel tak bebas hanya memiliki dua kemungkinan nilai (dichotomous outcome variable), nilai dari variabel tak bebas y ketika diberikan nilai variabel x dapat dinyatakan ke dalam persamaan


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Dalam regresi linear, baik sederhana maupun berganda, koefisien determinasi digunakan untuk mengukur kemampuan model regresi linear dalam mencocokkan atau menyesuaikan (fits) data. Jika koefisien determinasi dari model regresi linear bernilai 1, maka model tersebut menyesuaikan atau mencocokkan data secara sempurna (Gambar 11.1). Jika koefisien determinasi dari model regresi linear bernilai mendekati 0, maka model tersebut kurang baik dalam menyesuaikan atau mencocokkan data (Gambar 11.2).


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Dalam regresi logistik, dapat digunakan statistik Nagelkerke's untuk mengukur kemampuan model regresi logistik dalam mencocokkan atau menyesuaikan data. Dengan kata lain, nilai statistik dari Nagelkerke's dapat diinterpretasikan sebagai suatu nilai yang mengukur kemampuan variabel-variabel bebas dalam menjelaskan atau menerangkan variation variabel tak bebas. Sebagaimana Hair dkk. (2010:342) menyatakan sebagai berikut.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Dalam regresi logisitik, hasil selisih statistik -2log-likelihood antara model regresi logistik yang menggunakan satu set variabel bebas dan model yang lebih sederhana (simpler model) dapat digunakan untuk mengetahui apakah model regresi logistik yang menggunakan satu set variabel bebas lebih baik dalam hal mencocokkan atau menyesuaikan data dibandingkan model regresi logistik yang sederhana. Jika statistik -2log-likelihood pada model regresi logistik yang menggunakan satu set variabel bebas lebih kecil dibandingkan model yang lebih sederhana, maka model regresi logistik yang menggunakan satu set variabel bebas lebih baik dalam hal mencocokkan data dibandingkan model yang lebih sederhana tersebut (Hair dkk., 2010:342; Agresti dan Finlay, 2009:499). Tabel 11.3 menyajikan nilai statistik dari -2log-likelihood untuk model yang sederhana dan model yang menggunakan satu set variabel bebas.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Pada Tabel 11.3 untuk Tabel Iteration History, nilai statistik -2log-likelihood pada iterasi ketiga adalah 803,570. Nilai statistik -2log-likelihood tersebut merupakan nilai untuk model sederhana (belum melibatkan variabel bebas, yakni variabel bebas korban dan hukuman). Pada Tabel 11.4 untuk Tabel Iteration History, nilai statistik -2log-likelihood pada iterasi kelima adalah 417,986. Nilai statistik -2log-likelihood tersebut merupakan nilai untuk model regresi logistik yang melibatkan variabel bebas (telah melibatkan variabel bebas korban dan hukuman). Perhatikan bahwa nilai statistik -2log-likelihood pada model regresi logistik yang menggunakan variabel bebas lebih kecil dibandingkan model yang tidak melibatkan variabel bebas, sehingga model regresi logistik yang melibakan variabel bebas lebih baik dalam hal mencocokkan data.

Selanjutnya perhatikan bahwa nilai Chi-square pada Step 1 (Step) untuk Tabel Omnibus Tests of Model Coefficients (Tabel 11.4) diperoleh berdasarkan hasil selisih 803,570-417,986=385,584. Untuk menguji apakah model regresi logistik yang melibatkan variabel bebas signifikan secara statistika lebih baik dibandingkan model sebelumnya (model sederhana) dalam hal mencocokkan data, maka bandingkan nilai Sig. untuk Step 1 (Step) pada Tabel Omnobus Tests of Model Coefficients, yakni 0,000 terhadap tingkat signifikansi alpha. Nilai Sig. disebut juga dengan nilai probabilitas. Jika nilai probabilitas lebih kecil dari tingkat signifikansi, maka disimpulkan bahwa model yang melibatkan variabel bebas signifikan secara statistika lebih baik dalam hal mencocokkan data dibandingkan model sederhana.



Sementara pada uji Hosmer-Lemeshow menguji signifikansi kecocokkan antara predicted probabilities (nilai probabilitas berdasarkan hasil prediksi) dan observed probabilities (nilai probabilitas pengamatan). Hipotesis nol menyatakan tidak terdapat perbedaan yang signifikan secara statistika antara predicted probabilities dan observed probabilities. Sementara hipotesis alternatif menyatakan terdapat perbedaan yang signifikan secara statistika antara predicted probabilities dan observed probabilities. Diterimanya hipotesis nol dapat diartikan bahwa variabel-variabel bebas yang digunakan dalam model mampu memprediksi dengan baik observed probabilities. Meyers dkk. (2005:240-241) menyatakan sebagai berikut.

"The Hosmer and Lemeshow test is another absolute measure to assess whether the predicted probabilities match the observed probabilities. A researcher is seeking a non significant p value for this test because the goal of the research is to derive a set of independent variables (covariates) that will accurately predict the actual probabilities. Thus, the researcher does not want to reject the null hypothesis. In this example, the goodness-of-fit statistic is 10.161, distributed as a chi-square value, with the p value of 0.180 indicating an acceptable match between predicted and observed probabilities."

Untuk pengambilan keputusan terhadap hipotesis, dapat dilakukan dengan membandingkan nilai statistik dari uji Hosmer-Lemeshow terhadap nilai kritis berdasarkan tabel distribusi chikuadrat. Berikut aturan pengambilan keputusan terhadap hipotesis.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Dalam regresi linear, baik sederhana maupun berganda, uji t digunakan untuk menguji signifikansi dari koefisien regresi populasi Bi secara individu. Pada regresi logistik, uji signifikansi koefisien regresi populasi secara individu dapat diuji dengan uji Wald. Dalam uji Wald, statistik yang diuji adalah statistik Wald (Wald statistic). Nilai statistik dari uji Wald berdistribusi chi-kuadrat. Hipotesis nol dari uji Wald menyatakan koefisien regresi populasi signifikan secara statistika bernilai nol. Hal ini berarti pengaruh variabel bebas terhadap variabel tak bebas tidak signifikan secara statistika. Hipotesis alternatif menyatakan koefisien regresi populasi signifikan secara statistika berbeda dari nol. Dengan kata lain, pengaruh variabel bebas terhadap variabel tak bebas signifikan secara statistika (Field, 2009:269-270). Berikut rumus untuk menghitung nilai statistik dari uji Wald.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Perhatikan bahwa SBi menyatakan standard error dari koefisien regresi Bi. Untuk pengambilan keputusan terhadap hipotesis, nilai statistik dari uji Wald dibandingkan dengan nilai kritis berdasarkan tabel distribusi chi-kuadrat. Berikut aturan pengambilan keputusan terhadap hipotesis berdasarkan uji Wald.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Pengambilan keputusan terhadap hipotesis juga dapat dilakukan dengan menggunakan pendekatan nilai probabilitas dari uji Wald. Berikut aturan pengambilan keputusan berdasarkan pendekatan nilai probabilitas.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Tabel 11.6 menyajikan nilai statistik dari uji Wald dan nilai probabilitas dari uji Wald. Berdasarkan Tabel 11.6 dapat diperiksa koefisien-koefisien regresi Bi manakah yang signifikan secara statistika berbeda dari 0. Untuk menentukan koefisien-koefisien regresi Bi yang signifikan secara statistika berbeda dari 0, dapat dilakukan dengan membandingkan nilai Sig. untuk masing-masing koefisien regresi Bi dengan alpha = 0,05. Jika nilai Sig. lebih kecil dari 0,05, maka koefisien regresi Bi signifikan secara statistika berbeda dari 0. Perhatikan bahwa nilai Sig. untuk jam(1), jam(2), jam(3), dan UTS lebih kecil dari 0,05, maka koefisien-koefisien regresi dari jam(1), jam(2), jam(3), dan UTS signifikan secara statistika berbeda dari 0.

Misalkan seorang peneliti bernama Ugi ingin meneliti pengaruh jumlah jam belajar dalam sehari dan hasil ujian tengah semester (UTS) matematika terhadap kelulusan dari ujian akhir semester (UAS) matematika. Berikut data yang telah dikumpulkan oleh peneliti tersebut.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?


Berdasarkan data pada Tabel 11.1, untuk variabel Jam, nilai 1 menyatatakan seorang mahasiswa menggunakan waktu untuk belajar matematika dalam sehari 4-6 jam, nilai 2 menyatakan 7-9 jam dalam sehari, nilai 3 menyatakan 10-12 jam dalam sehari, dan nilai 4 menyatakan 13-15 jam dalam sehari. Seorang mahasiswa dengan nomor urut 2 menghabiskan waktu untuk belajar dalam sehari 4-6 jam, memperoleh nilai UTS matematika 5, namun tidak lulus UAS matematika. Berikut hal-hal yang ingin diketahui oleh peneliti.

∇ Peneliti ingin mengestimasi berapa kali lebih mungkin lulus UAS matematika untuk mahasiswa dengan jumlah jam belajar dalam sehari 7-9 jam dibandingkan mahasiswa dengan jumlah jam belajar dalam sehari 4-6 jam (dengan mengontrol pengaruh dari variabel bebas lain dalam model). ∇ Peneliti ingin mengestimasi berapa kali lebih mungkin lulus UAS matematika untuk mahasiswa dengan jumlah jam belajar dalam sehari 10-12 jam dibandingkan mahasiswa dengan jumlah jam belajar dalam sehari 4-6 jam. ∇ Peneliti ingin mengestimasi berapa kali lebih mungkin lulus UAS matematika untuk mahasiswa dengan jumlah jam belajar dalam sehari 13-15 jam dibandingkan mahasiswa dengan jumlah jam belajar dalam sehari 4-6 jam. ∇ Peneliti ingin mengestimasi probabilitas mahasiswa untuk lulus UAS matematika ketika mahasiswa tersebut menghabiskan waktu untuk belajar 4-6 jam dalam sehari dan memperoleh nilai UTS matematika 5. ∇ Peneliti ingin mengestimasi probabilitas mahasiswa untuk lulus UAS matematika ketika mahasiswa tersebut menghabiskan waktu untuk belajar 7-9 jam dalam sehari dan memperoleh nilai UTS matematika 5. ∇ Peneliti ingin mengestimasi kemungkinan mahasiswa untuk lulus UAS matematika ketika seorang mahasiswa menghabiskan waktu untuk belajar 10-12 jam dalam sehari dan memperoleh nilai UTS 7.

∇ Peneliti ingin mengestimasi berapa kali lebih mungkin mahasiswa dengan nilai UTS matematika 7 untuk lulus UAS matematika dibandingkan mahasiswa dengan nilai UTS matematika 6. Berapa kali lebih mungkin mahasiswa dengan nilai UTS matematika 8 untuk lulus UAS matematika dibandingkan mahasiswa dengan nilai UTS 7. Dengan kata lain, mengestimasi berapa kali lebih mungkin seorang mahasiswa dengan nilai UTS matematika 1 satuan lebih tinggi untuk lulus UAS matematika dibandingkan mahasiswa dengan nilai UTS 1 satuan lebih rendah.



Bangun data pada Tabel 11.1 dalam SPSS (Gambar 11.1). Untuk variabel kelulusan, beri Value 1 untuk Label lulus dan Value 0 untuk Label tidak lulus. Pada variabel jam beri Value 1 untuk Label 4-6 jam, Value 2 untuk Label 7-9 jam, Value 3 untuk Label 10-12 jam, dan Value 4 untuk Label 13-15 jam. Selanjutnya pilih Analyze => Regression => Binary Logistic, sehingga muncul kotak dialog Logistic Regression (Gambar 11.2). Pada kotak dialog Logistics Regression, masukkan variabel kelulusan pada kotak Dependent, serta masukkan variabel jam dan UTS pada kotak Covariates (Gambar 11.2).

Kemudian pilih Categorical, sehingga muncul kotak dialog Logistic Regression: Define Categorical Variables (Gambar 11.3). Masukkan variabel jam pada kotak Categorical Covariates. Kemudian pilih First pada Reference Category dan pilih Change. Sehingga berubah menjadi jam(Indicator(first))). Hal ini berarti pada variabel jam untuk kategori 4-6 jam (Value 1) menjadi baseline category. Selanjutnya pilih Continue. Pilih Options, sehingga muncul kotak dialog Logistic Regression: Options (Gambar 11.4). Pada kotak dialog Logistic Regression: Options, pilih Hosmer-Lemeshow goodness-of-fit dan Iteration history. Kemudian pilih Continue dan OK.


Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?

Apa fungsi dari tabel Hosmer and Lemeshow Test pada analisis regresi logistik?