Aturan empiris muncul karena pengulangan kurva distribusi yang terus muncul berulang kali kepada ahli statistik. Aturan empiris dikaitkan dengan distribusi normal. Dalam tutorial ini, Anda akan menjelajahi Aturan empiris dalam Statistik secara mendalam Show Program Sertifikat Profesional dalam Analisis DataBermitra dengan Universitas Purdue Lihat KursusApa itu Aturan Empiris dalam Statistik?Aturan empiris, juga dikenal sebagai aturan tiga sigma atau 68-95-99. 7 aturan, adalah aturan statistik yang menyatakan bahwa hampir semua data yang diamati untuk distribusi normal akan berada dalam tiga standar deviasi (dilambangkan dengan σ) dari rata-rata atau rata-rata (dilambangkan dengan µ) Menurut aturan ini, 68% data termasuk dalam satu standar deviasi, 95% dalam dua standar deviasi, dan 99. 7% dalam tiga standar deviasi dari rata-rata Ketika Anda secara wajar mengharapkan data Anda mendekati distribusi normal, rata-rata dan standar deviasi menjadi lebih berharga, berkat aturan empiris. Anda dapat menghitung probabilitas dan persentase untuk berbagai hasil hanya dengan mengetahui kedua statistik ini Penjelasan Grafis
Kursus GRATIS. Pengantar Analisis DataPelajari Konsep, Alat, dan Keterampilan Analisis Data Mulai BelajarRumusRumus Aturan Empiris adalah. µ = Rata-rata σ = Simpangan baku m = Pengali ContohMisalkan denyut nadi 100 siswa berbentuk lonceng dengan rata-rata 75 dan standar deviasi 4
KeterbatasanAturan Empiris atau 68–95–99. 7 hanya dapat diterapkan pada distribusi simetris dan unimodal karena hanya berlaku pada Distribusi Statistik Normal Menantikan karir di Analisis Data? KesimpulanAturan Empiris adalah konsep statistik yang membantu menunjukkan probabilitas pengamatan dan sangat berguna saat memperkirakan populasi besar. Penting untuk diingat bahwa ini hanya perkiraan. Selalu ada kemungkinan outlier yang tidak sesuai dengan distribusi. Akibatnya, temuannya tidak akurat, dan Anda harus berhati-hati saat bertindak berdasarkan perkiraan Jika Anda ingin mengejar ini lebih jauh dan berkarier sebagai Ilmuwan Data, Program Sertifikasi Analisis Data Simplilearn bekerja sama dengan Universitas Purdue & bekerja sama dengan IBM adalah program untuk Anda Jika Anda memerlukan klarifikasi atau ragu, sebutkan di bagian komentar halaman tutorial ini. Kami akan meminta pakar kami memeriksanya dan segera menanggapi dengan jawaban tentang PenulisKartik MenonKartik adalah ahli strategi konten berpengalaman dan spesialis pemasaran teknologi ulung yang bersemangat merancang pengalaman pengguna yang menarik dengan solusi pemasaran dan komunikasi terintegrasi Salah satu langkah pertama dalam analisis data eksplorasi adalah mengidentifikasi karakteristik data, yang penting termasuk pengujian pola distribusi. Dalam contoh ini, pelajari cara memeriksa apakah data Anda terdistribusi secara normal di Python dengan visualisasi serta perhitungan yang diberikan oleh pustaka Scipy Terlampir, temukan file CSV dengan 130 catatan pembacaan suhu tubuh manusia yang berasal dari Journal of Statistics Education (Shoemaker 1996). Mulailah dengan memuat CSV ke situs Anda (). Dalam contoh ini, kami akan membuat fungsi distribusi kumulatif empiris (ECDF) untuk memvisualisasikan distribusi data Sebagian besar pekerjaan akan dilakukan dengan Python, jadi untuk kode SQL, gunakan yang berikut ini
Dalam Python 3. 6, mulailah dengan mengimpor paket _ Panda akan digunakan untuk menangani kerangka data; . pyplot dan seaborn akan digunakan bersama untuk menghasilkan plot, dan scipy akan digunakan untuk perhitungan matematis dari statistik normal Selanjutnya, mari kita tentukan fungsi yang akan menghasilkan poin yang dapat diplot
Fungsi ini mengambil daftar pembacaan sampel (suhu dalam contoh ini) dan mengurutkannya dari terendah ke tertinggi. Ini mengembalikan satu set pasangan (x,y) yang mewakili pembacaan suhu dan posisi relatif dalam daftar yang diurutkan, atau persentil, dari setiap pembacaan Selanjutnya, kami akan menjalankan fungsi itu pada data sampel kami untuk mendapatkan titik data yang dapat diplot
Kita kemudian dapat menggunakan matplotlib dan seaborn untuk memplot data sampel kita dengan kode berikut _ Menjalankan ini akan menghasilkan bagan yang terlihat seperti berikut Bagus sekali. Kita benar-benar dapat mulai melihat kurva di sini. Sekarang, untuk membandingkannya dengan distribusi normal yang sempurna, kita perlu memplot rangkaian data kedua. Ini dapat dilakukan dengan beberapa cara, tetapi dalam tutorial ini, kita akan menggunakan teknik yang disebut bootstrap untuk menyelesaikan tugas tersebut Kode berikut akan menghasilkan 10.000 'suhu' yang mengikuti distribusi normal menggunakan rata-rata dan standar deviasi kumpulan data kami untuk menskalakan rentang
Data ini hanya akan menjadi daftar suhu. Kita dapat mengubah data acak ini menjadi pasangan x,y menggunakan fungsi yang sama yang telah kita definisikan sebelumnya, memungkinkan kita untuk memplot data di samping sampel aktual dengan kode berikut _ Contoh-contoh teoretis ini menunjukkan bagaimana data akan terlihat jika kita memiliki 10.000 sampel dan distribusi pembacaannya normal. Ini adalah hipotetis yang bisa kita gunakan untuk membandingkan kenyataan Mari plot ini pada bagan yang sama dengan data kita sebelumnya dengan kode berikut dan tambahkan legenda
Dan tentunya jangan lupakan fungsi outputnya _ Kita harus mendapatkan grafik seperti ini Lihat itu. Sepertinya data sampel kami (biru) sangat dekat dengan distribusi normal yang sebenarnya. Kami mungkin dapat menganggap data ini terdistribusi secara normal. Mari tambahkan satu baris kode lagi untuk memberikan wawasan lebih lanjut tentang distribusi _ Apa pun yang dicetak dapat dilihat di tab Stdout Ini akan menjalankan uji normal SciPy dan mencetak hasilnya termasuk p yang mewakili probabilitas chi kuadrat dua sisi untuk uji hipotesis. Jika nilai p lebih kecil dari alpha kita (nilai signifikansi), kita dapat menolak hipotesis bahwa data sampel ini terdistribusi secara normal. Jika lebih besar, kita tidak dapat menolak hipotesis nol dan harus menyimpulkan bahwa data berdistribusi normal. Cobalah. Berdasarkan pemeriksaan terhadap 130 sampel tersebut, dapatkah kita menyimpulkan bahwa suhu tubuh manusia berdistribusi normal? Bagaimana Anda menguji aturan empiris dengan Python?Dengan demikian, Aturan empiris diverifikasi. . 68% dari nilai yang diamati terletak di antara 1 standar deviasi di sekitar rata-rata 95% dari nilai yang diamati terletak di antara 2 standar deviasi di sekitar rata-rata 99. 7% dari nilai yang diamati terletak di antara 3 standar deviasi di sekitar rata-rata Bagaimana Anda tahu jika data mengikuti aturan empiris?Aturan empiris (juga disebut "68-95-99. 7 rule") adalah pedoman bagaimana data didistribusikan dalam distribusi normal. Aturan tersebut menyatakan bahwa (kurang-lebih). - 68% titik data akan berada dalam satu standar deviasi rata-rata . - 95% titik data akan berada dalam dua standar deviasi rata-rata.
Bisakah Anda menggunakan aturan empiris untuk memeriksa apakah data normal?Aturan empiris juga merupakan uji normalitas sederhana . Berdasarkan probabilitas, Anda tahu bahwa 99. 7% dari semua pengamatan harus berada dalam tiga standar deviasi dari rata-rata. Oleh karena itu, hanya 100 – 99. 7 = 0. 3% harus berada di luar batas untuk distribusi normal. |