Dalam tugas ini, kita akan membahas konsep asumsi, hipotesis, distribusi data, dan sampel. Konsep-konsep ini merupakan dasar dalam statistik dan analisis data.
2.1.1 Asumsi
Asumsi adalah kondisi yang kita anggap benar untuk keperluan analisis. Asumsi membentuk dasar bagi model statistik dan uji statistik. Beberapa asumsi umum meliputi:
Independensi observasi
Kenormalan data
Homogenitas varians
2.1.2 Hipotesis
Hipotesis adalah pernyataan yang dapat diuji secara statistik. Terdapat dua jenis hipotesis:
Hipotesis Nol (H0): Hipotesis yang menyatakan tidak ada efek atau perbedaan.
Hipotesis Alternatif (H1): Hipotesis yang menyatakan adanya efek atau perbedaan.
2.1.3 Distribusi Data
Distribusi data mengacu pada cara data tersebar atau terdistribusi. Beberapa jenis distribusi data yang umum meliputi:
Distribusi normal
Distribusi binomial
Distribusi Poisson
2.2 Contoh Visualisasi Dataset
Untuk berlatih mengaplikasikan apa yang sudah kita pelajari terkait dengan asumsi, hipotesis, dan distribusi data, kita akan mencoba memvisualisasikan data dari bunga Iris (Unwin and Kleinman 2021), sebuah data penting yang sering digunakan dalam pengajaran statistika dan machine learning.
Semua data pengukuran morfologi bunga Iris versicolor dan Iris setosa dikumpulkan oleh ahli botani Edgar Anderson pada tahun 1935 di lokasi yang sama. Anderson juga mengumpulkan data sebelumnya tentang Iris virginica, yang kemudian ditambahkan oleh Fisher ke dalam kumpulan dataset ini.
Anderson memilih untuk meneliti iris karena ia ingin memahami sifat dasar spesies dengan mempelajari spesies yang mudah dikenali dan dibedakan. Penelitiannya sejak tahun 1923 hingga 1928 membawanya pada kesimpulan bahwa I. versicolor dan I. virginica, yang awalnya sulit dibedakan, sebenarnya adalah dua spesies yang berbeda.
Dalam makalahnya pada tahun 1936, Anderson menyarankan bahwa I. versicolor mungkin merupakan hasil hibridisasi antara I. virginica dan spesies iris lain, kemungkinan besar I. setosa. Ia kemudian mengembangkan gagasan tentang hibridisasi introgressif, yaitu proses kawin silang berulang yang dapat menjadi mekanisme penting dalam evolusi.
(a) Iris setosa
(b) Iris versicolor
(c) Iris virginica
Figure 2.1: Tiga spesies bunga Iris
Table 2.1: Iris Dataset
sepal length
sepal width
petal length
petal width
class
0
5.1
3.5
1.4
0.2
Iris-setosa
1
4.9
3.0
1.4
0.2
Iris-setosa
2
4.7
3.2
1.3
0.2
Iris-setosa
3
4.6
3.1
1.5
0.2
Iris-setosa
4
5.0
3.6
1.4
0.2
Iris-setosa
...
...
...
...
...
...
145
6.7
3.0
5.2
2.3
Iris-virginica
146
6.3
2.5
5.0
1.9
Iris-virginica
147
6.5
3.0
5.2
2.0
Iris-virginica
148
6.2
3.4
5.4
2.3
Iris-virginica
149
5.9
3.0
5.1
1.8
Iris-virginica
150 rows × 5 columns
Figure 2.2: Distribusi panjang sepal dari tiga spesies bunga Iris
2.3 TUGAS
Dosen atau Ketua Kelas membagi mahasiswa menjadi 10 kelompok
Masing-masing kelompok akan melakukan analisis dan visualisasi data dari dataset yang tersedia di tabel berikut:
Berdasarkan informasi atau keterangan singkat yang ada dalam masing-masing dataset serta jurnal referensi, diskusikan hal berikut:
a. Ajukan asumsi statistik yang mungkin berlaku dalam dataset anda!
b. Buatlah hipotesis statistik berdasarkan asumsi yang anda ajukan!
c. Uji statistik apa yang dapat digunakan untuk menguji hipotesis yang anda kemukakan?
d. Ajukan judul penelitian yang sesuai dengan hipotesis dan uji statistik yang dapat digunakan!
Unduh data yang sudah disediakan untuk masing-masing kelompok dan lakukan hal berikut:
a. Susunlah raw data (data mentah) yang diperoleh ke dalam salah satu bentuk visualisasi data yang relevan untuk digunakan!
b. Tentukan jenis data yang diperoleh, cara pengukurannya, dan alasan visualisasi yang dipilih pada poin a!
Rangkum hasil diskusi dan visualisasi ke dalam bentuk file presentasi Power Point (.pptx) dan buat rekaman video narasi dari presentasi tersebut. Detail pengiriman tugas akan disampaikan oleh dosen. DEADLINE: 26 Maret 2025
Allison, T, and D V Cicchetti. 1976. “Sleep in Mammals: Ecological and Constitutional Correlates.”Science 194 (November): 732–34. https://doi.org/10.1126/science.982039.
Jaffe, Peter R, Frank L Parker, and David J Wilson. 1982. “Distribution of Toxic Substances in Rivers.”J. Environ. Eng. Div. 108 (August): 639–49. https://doi.org/10.1061/jeegav.0001315.
Tager, I B, S T Weiss, B Rosner, and F E Speizer. 1979. “Effect of Parental Cigarette Smoking on the Pulmonary Function of Children.”Am. J. Epidemiol. 110 (July): 15–26. https://doi.org/10.1093/oxfordjournals.aje.a112783.
Unwin, Antony, and Kim Kleinman. 2021. “The Iris Data Set: In Search of the Source ofvirginica.”Signif. (Oxf.) 18 (December): 26–29. https://doi.org/10.1111/1740-9713.01589.