Thursday, March 5, 2009

Box Plot

Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Box Plot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran. John Tukey memperkenalkan metode yang efisien untuk menampilkan lima summary dalam data. Metode ini dikenal dengan Box Plot (atau Box and Whisker plot) mengukur median, quartile atas dan bawah, data maksimum dan minimum.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
1. Rata-rata (mean)
2. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
3. Q1, merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
4. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
5. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

Dalam Box Plot dikenal juga yang disebut dengan hamparan (H-spread) atau jarak antar quartile (range interquartile-IQR), yaitu jarak antara Q1 dan Q3.

“Step” didefinisikan sebagai 1.5*H-spread. Pagar dalam (inner fences) adalah 1 * “Step”, Q1 - 1.5*H-spread dan Q3 + 1.5*H-spread, sedangkan pagar luar (outer fences) adalah 2* “Step” atau 3*H-spread, Q1 - 3*H-spread dan Q3 + 3*H-spread. Data yang terletak diluar pagar dalam (inner fences) disebut outlier, dan data yang terletak di luar pagar luar (outer fences) disebut data ekstrem.

Intepretasi dari Box Plot adalah sebagai berikut:
1. Box mengandung 50% dari data. Tepi atas dari box disebut Q3 (75% dari data) dan tepi bawah dari box disebut Q1(25 % dari data).
2. Garis yang terdapat pada box disebut dengan median data (Q2)
3. Apabila jarak antara tepi bawah dan tepi atas ke median data tidak sama, berarti distribusi data tersebut tidak simetris (skew).
4. Titik terakhir dari garis vertical merupakan nilai maksimum dan minimum, kecuali jika terdapat outlier dalam data tersebut. Panjang garis vertical tersebut adalah 1.5 kali inter quartile range (IQR = Q3 – Q1)
5. Titik yang berada di luar garis tersebut disebut dengan outlier.
6. Luas kotak menunjukkan besar kecilnya keragaman data.
7. Data yang terletak di antara dua pagar dalam merupakan data yang baik karena masih merupakan anggota kelompok data.
8. Garis whisker, jarak antara Q1 dan statistic peringkat paling dekat dengan pagar dalam dan jarak antara Q3 dengan statistic peringkat yang bernilai paling dekat dengan pagar dalam.


Misal berikut ini terdapat data tinggi badan siswa dalam cm:
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

Dari data tersebut diperoleh beberapa statistic:
Mean : 150.37 cm
Median : 150.38 cm
SE Mean: 0.46
St. Dev: 3.31
Nilai minimum: 142.4 cm
Nilai maximum: 160 cm
Q1: 148.49 cm
Q3: 152.69 cm

Box Plot untuk data tersebut:



Data tersebut menunjukkan adanya outlier yaitu data dengan nilai 160,00 karena nilai tersebut diluar 1,5*IQR. Kemudian dari boxplot tersebut dapat dilihat bahwa garis whiskers tidak sama panjang, dan median (Q2) tidak sama dengan mean (rata-rata) maka data tersebut tidak setangkup.

Kelebihan boxplot:
1. Secara visual menggambarkan lokasi dari data
2. Menunjukkan sebaran data tersebut simetri atau tidak
3. Tidak seperti metode yang lain, box plot memperlihatkan outlier
4. Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data pada satu tampilan secara bersamaan.

Kelemahan boxplot:
1. Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam suatu data.
2. Selain itu bentuk distribusi terpengaruh pula adanya outlier.
3. Cenderung menyembunyikan detail dari distribusi data
Untuk mengurangi kelemahan ini, perlu disertakan pula histogram data sebagai pelengkap.

No comments: