Regresi Logistik : STATISTIKA


A.     Pengertian dan Konsep Regresi Logistik
Analisis regresi logistik digunakan untuk menjelaskan hubungan antara variabel respon yang berupa data dikotomik/biner dengan variabel bebas yang berupa data berskala interval dan atau kategorik (Hosmer dan Lemeshow, 1989). Variabel yang dikotomik/biner adalah variabel yang hanya mempunyai dua kategori saja, yaitu kategori yang menyatakan kejadian sukses (Y=1) dan kategori yang menyatakan kejadian gagal (Y=0).  Jadi, intinya regresi logistic disebut juga model logit karena menggunakan model dengan variable rensponya dikotomus.
Pada model model linear umum komponen acak tidak harus mengikuti sebaran normal, tapi harus masuk dalam sebaran distribusi eksponensial. Sebaran bernoulli termasuk dalam salah satu dari sebaran keluarga eksponensial. Variabel respon Y ini, diasumsikan mengikuti distribusi Bernoulli. Berikut contoh spesifik model regrsi logistic (Agresti,2002, hal, 166):



Transformasi dari  menjadi focus pada regresi logistic adalah tranformasi logit. Transformasi tersebut didefinisikan dalam bentuk logit =g(x) , sebagai berikut : 

Asumsi-asumsi dalam regresi logistik:
a)       Tidak mengasumsikan hubungan linier antar variabel dependen dan independent
b)      Variabel dependen harus bersifat dikotomi (2 variabel)
c)       Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel
d)      Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif
e)       Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel predikt
Contoh  Kasus dalam regresi logsitik biner :
1.       Pengaruh Tingkat Pendidikan, Lapangan Kerja yg dimasuki, Pendapatan, Pengeluaran, Jumlah ART terhadap status kemiskinan (Miskin/TIdak Miskin).
2.       Pengaruh Pendapatan Keluarga, Banyaknya Anggota Keluarga, Jenis rumah, Usia Kepala Keluarga terhadap Kepemilikan rumah (Punya rumah/tidak).

A.     Pendugaan Parameter
1.       Uji chi-Square
2.       Uji Kesesuaiam Model (Goodness of Fit –Test)
3.       Uji Simultan (Likelihood Ratio Test)
4.       Uji Parsial (Wald Test)
5.       Rasio Krcenderungan (Odds Ratio
6.       Tambahan ???

B.      Terapannya di R

Pada PPT ini akan dicontohkan penerapannya dengan R. contoh mengambil dataset yang tersedia pada link (https://stats.idre.ucla.edu/stat/data/binary.csv). Pada dataset tersebut ada beberapa variabel, yaitu variabel admit, gre, gpa, dan rank. Variabel tersebut dideskripsikan bahwa variabel admit sebagai variabel respon yang terdiri dari dua kategori (biner), yaitu diterima (0) dan tidak diterima (1). Dan variabel gre, gpa, dan rank menjadi variabel bebasnya. Misalkan seorang peneliti ingin melihat apakah perlakuan seseorang dipengaruhi oleh gre, gpa dan rank-nya. Implementasi ke program R sebagai berikut:













Perintah ini digunakan untuk mempermudah dalam penyebutan nama variabel dalam dataset, tanpa menggunakan tanda $
> Rank <= factor(rank)

Sebelumnya kita bentuk variabel rank sebagai faktor. Karena jika tidak dirubah menjadi faktor, maka R akan membaca variabel tersebut bukan sebagai variabel kategorik.
> mylogic <= glm(admit~gre+gpa+rank, family = "binomial")

Kita definisikan mylogit sebagai model logit yang akan kita bentuk dari fungsi glm dengan family = binomial.

 


Ketika kita panggil mylogit, maka akan muncul koefisien dari regresi logitistiknya. Dalam contoh diatas terlihat variabel gre dan gpa berpengaruh positif terhadap admit. Sedangkan untuk kategori rank 2, rank 3 dan rank 4 berpengaruh negative terhadap admit.
 

 



Perintah Summary adalah ringkasan terkait model yang digunakan, dan berisi koefisien logistic, Wald Z-statistiknya dan p-value. Pada output diatas terlihat bahwa semua p-value kurang dari tingkat signifikansi α=0,05.
Sehingga model yang terbentuk berdasarkan output diatas adalah sebagai berikut :
 



PI(D)=e^coef/1-e^coef

Sehingga setelah di transformasi logit, persamaannya menjadi seperti berikut:
ĝ(D) =


  

Kita bisa menggunakan fungsi confint untuk mendapatkan interval kepercayaan untuk perkiraan nilai koefisien. Perhatikan bahwa untuk model logistik, interval kepercayaan didasarkan pada fungsi log-likehood yand diprofilkan. Kita juga bisa mendapatkan interval kepercayaan berdasarkan hanya pada standar errornya. Dibawah ini adalah interval kepercayaan jika menggunakan standar errornya. Hasilnya tidak berbeda, hanya berbeda di koma belakangnya.








Komentar

Postingan populer dari blog ini

LAPORAN PRAKTIKUM KIMIA UJI NYALA API UNSUR ALKALI DAN ALKALI TANAH

LAPORAN PRAKTIKUM KIMIA ELEKTROLISIS LARUTAN KI

LAPORAN PRAKTIKUM BIOLOGI UJI MAKANAN