Regresi Logistik : STATISTIKA
A. Pengertian
dan Konsep Regresi Logistik
Analisis
regresi logistik digunakan untuk menjelaskan hubungan antara variabel respon
yang berupa data dikotomik/biner dengan variabel bebas yang berupa data
berskala interval dan atau kategorik (Hosmer dan Lemeshow, 1989). Variabel yang
dikotomik/biner adalah variabel yang hanya mempunyai dua kategori saja, yaitu
kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang menyatakan
kejadian gagal (Y=0). Jadi, intinya
regresi logistic disebut juga model logit karena menggunakan model dengan
variable rensponya dikotomus.
Pada model
model linear umum komponen acak tidak harus mengikuti sebaran normal, tapi
harus masuk dalam sebaran distribusi eksponensial. Sebaran bernoulli termasuk
dalam salah satu dari sebaran keluarga eksponensial. Variabel respon Y ini,
diasumsikan mengikuti distribusi Bernoulli. Berikut contoh spesifik model
regrsi logistic (Agresti,2002, hal, 166):
Transformasi
dari menjadi focus pada regresi logistic adalah
tranformasi logit. Transformasi tersebut didefinisikan dalam bentuk logit =g(x) , sebagai
berikut :
Asumsi-asumsi
dalam regresi logistik:
a) Tidak
mengasumsikan hubungan linier antar variabel dependen dan independent
b) Variabel
dependen harus bersifat dikotomi (2 variabel)
c) Variabel
independent tidak harus memiliki keragaman yang sama antar kelompok variabel
d) Kategori
dalam variabel independent harus terpisah satu sama lain atau bersifat
eksklusif
e) Sampel
yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel
data untuk sebuah variabel predikt
Contoh Kasus dalam regresi logsitik biner :
1. Pengaruh
Tingkat Pendidikan, Lapangan Kerja yg dimasuki, Pendapatan, Pengeluaran, Jumlah
ART terhadap status kemiskinan (Miskin/TIdak Miskin).
2. Pengaruh
Pendapatan Keluarga, Banyaknya Anggota Keluarga, Jenis rumah, Usia Kepala
Keluarga terhadap Kepemilikan rumah (Punya rumah/tidak).
A. Pendugaan
Parameter
1. Uji
chi-Square
2. Uji
Kesesuaiam Model (Goodness of Fit –Test)
3. Uji
Simultan (Likelihood Ratio Test)
4. Uji
Parsial (Wald Test)
5. Rasio
Krcenderungan (Odds Ratio
6. Tambahan
???
B. Terapannya
di R
Pada
PPT ini akan dicontohkan penerapannya dengan R. contoh mengambil dataset yang
tersedia pada link (https://stats.idre.ucla.edu/stat/data/binary.csv).
Pada dataset tersebut ada beberapa variabel, yaitu variabel admit, gre, gpa, dan rank. Variabel tersebut dideskripsikan
bahwa variabel admit sebagai variabel
respon yang terdiri dari dua kategori (biner), yaitu diterima (0) dan tidak
diterima (1). Dan variabel gre, gpa, dan
rank menjadi variabel bebasnya. Misalkan
seorang peneliti ingin melihat apakah perlakuan seseorang dipengaruhi oleh gre, gpa dan rank-nya. Implementasi ke program R sebagai berikut:
Perintah
ini digunakan untuk mempermudah dalam penyebutan nama variabel dalam dataset,
tanpa menggunakan tanda $
>
Rank <= factor(rank)
Sebelumnya kita bentuk variabel rank
sebagai faktor. Karena jika tidak dirubah menjadi faktor, maka R akan membaca
variabel tersebut bukan sebagai variabel kategorik.
> mylogic <= glm(admit~gre+gpa+rank, family =
"binomial")
Kita definisikan mylogit sebagai model logit yang akan kita bentuk dari
fungsi glm dengan family = binomial.
Ketika kita panggil mylogit, maka akan muncul koefisien dari regresi
logitistiknya. Dalam contoh diatas terlihat variabel gre dan gpa berpengaruh
positif terhadap admit. Sedangkan
untuk kategori rank 2, rank 3 dan rank 4 berpengaruh negative terhadap admit.
Perintah
Summary adalah ringkasan terkait
model yang digunakan, dan berisi koefisien logistic, Wald Z-statistiknya dan p-value. Pada output diatas terlihat bahwa semua p-value kurang dari tingkat signifikansi α=0,05.
Sehingga model yang terbentuk berdasarkan output diatas adalah sebagai berikut :
PI(D)=e^coef/1-e^coef
Sehingga setelah di transformasi logit, persamaannya
menjadi seperti berikut:
ĝ(D) =
Kita
bisa menggunakan fungsi confint untuk mendapatkan interval kepercayaan untuk
perkiraan nilai koefisien. Perhatikan bahwa untuk model logistik, interval kepercayaan
didasarkan pada fungsi log-likehood yand diprofilkan. Kita juga bisa
mendapatkan interval kepercayaan berdasarkan hanya pada standar errornya.
Dibawah ini adalah interval kepercayaan jika menggunakan standar errornya.
Hasilnya tidak berbeda, hanya berbeda di koma belakangnya.
Komentar
Posting Komentar