2  Pendalaman Materi 1

Asumsi, Hipotesis, dan Distribusi Data

Author

Tim Pengampu Biostatistika

Published

March 12, 2025

2.1 Pendahuluan

Dalam tugas ini, kita akan membahas konsep asumsi, hipotesis, distribusi data, dan sampel. Konsep-konsep ini merupakan dasar dalam statistik dan analisis data.

2.1.1 Asumsi

Asumsi adalah kondisi yang kita anggap benar untuk keperluan analisis. Asumsi membentuk dasar bagi model statistik dan uji statistik. Beberapa asumsi umum meliputi:

  • Independensi observasi
  • Kenormalan data
  • Homogenitas varians

2.1.2 Hipotesis

Hipotesis adalah pernyataan yang dapat diuji secara statistik. Terdapat dua jenis hipotesis:

  • Hipotesis Nol (H0): Hipotesis yang menyatakan tidak ada efek atau perbedaan.
  • Hipotesis Alternatif (H1): Hipotesis yang menyatakan adanya efek atau perbedaan.

2.1.3 Distribusi Data

Distribusi data mengacu pada cara data tersebar atau terdistribusi. Beberapa jenis distribusi data yang umum meliputi:

  • Distribusi normal
  • Distribusi binomial
  • Distribusi Poisson

2.2 Contoh Visualisasi Dataset

Untuk berlatih mengaplikasikan apa yang sudah kita pelajari terkait dengan asumsi, hipotesis, dan distribusi data, kita akan mencoba memvisualisasikan data dari bunga Iris (Unwin and Kleinman 2021), sebuah data penting yang sering digunakan dalam pengajaran statistika dan machine learning.

Semua data pengukuran morfologi bunga Iris versicolor dan Iris setosa dikumpulkan oleh ahli botani Edgar Anderson pada tahun 1935 di lokasi yang sama. Anderson juga mengumpulkan data sebelumnya tentang Iris virginica, yang kemudian ditambahkan oleh Fisher ke dalam kumpulan dataset ini.

Anderson memilih untuk meneliti iris karena ia ingin memahami sifat dasar spesies dengan mempelajari spesies yang mudah dikenali dan dibedakan. Penelitiannya sejak tahun 1923 hingga 1928 membawanya pada kesimpulan bahwa I. versicolor dan I. virginica, yang awalnya sulit dibedakan, sebenarnya adalah dua spesies yang berbeda.

Dalam makalahnya pada tahun 1936, Anderson menyarankan bahwa I. versicolor mungkin merupakan hasil hibridisasi antara I. virginica dan spesies iris lain, kemungkinan besar I. setosa. Ia kemudian mengembangkan gagasan tentang hibridisasi introgressif, yaitu proses kawin silang berulang yang dapat menjadi mekanisme penting dalam evolusi.

(a) Iris setosa
(b) Iris versicolor
(c) Iris virginica
Figure 2.1: Tiga spesies bunga Iris
Table 2.1: Iris Dataset
sepal length sepal width petal length petal width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
... ... ... ... ... ...
145 6.7 3.0 5.2 2.3 Iris-virginica
146 6.3 2.5 5.0 1.9 Iris-virginica
147 6.5 3.0 5.2 2.0 Iris-virginica
148 6.2 3.4 5.4 2.3 Iris-virginica
149 5.9 3.0 5.1 1.8 Iris-virginica

150 rows × 5 columns

Figure 2.2: Distribusi panjang sepal dari tiga spesies bunga Iris

2.3 TUGAS

  • Dosen atau Ketua Kelas membagi mahasiswa menjadi 10 kelompok
  • Masing-masing kelompok akan melakukan analisis dan visualisasi data dari dataset yang tersedia di tabel berikut:
Kelompok Deskripsi Dataset Unduh Referensi
1 Bunga Iris Unduh Dataset (Unwin and Kleinman 2021)
2 Bunga Iris Unduh Dataset (Unwin and Kleinman 2021)
3 Wolf River Pollution Unduh Dataset (Jaffe, Parker, and Wilson 1982)
4 Wolf River Pollution Unduh Dataset (Jaffe, Parker, and Wilson 1982)
5 Childhood Respiratory Disease Unduh Dataset (Tager et al. 1979)
6 Childhood Respiratory Disease Unduh Dataset (Tager et al. 1979)
7 Sleep in Mammals Unduh Dataset (Allison and Cicchetti 1976)
8 Sleep in Mammals Unduh Dataset (Allison and Cicchetti 1976)
9 Tapak Dara Unduh Dataset
10 Tapak Dara Unduh Dataset
  1. Berdasarkan informasi atau keterangan singkat yang ada dalam masing-masing dataset serta jurnal referensi, diskusikan hal berikut:
    • a. Ajukan asumsi statistik yang mungkin berlaku dalam dataset anda!
    • b. Buatlah hipotesis statistik berdasarkan asumsi yang anda ajukan!
    • c. Uji statistik apa yang dapat digunakan untuk menguji hipotesis yang anda kemukakan?
    • d. Ajukan judul penelitian yang sesuai dengan hipotesis dan uji statistik yang dapat digunakan!
  2. Unduh data yang sudah disediakan untuk masing-masing kelompok dan lakukan hal berikut:
    • a. Susunlah raw data (data mentah) yang diperoleh ke dalam salah satu bentuk visualisasi data yang relevan untuk digunakan!
    • b. Tentukan jenis data yang diperoleh, cara pengukurannya, dan alasan visualisasi yang dipilih pada poin a!
  3. Rangkum hasil diskusi dan visualisasi ke dalam bentuk file presentasi Power Point (.pptx) dan buat rekaman video narasi dari presentasi tersebut. Detail pengiriman tugas akan disampaikan oleh dosen. DEADLINE: 26 Maret 2025