Periksa apakah data mengikuti aturan empiris dengan python

Question

Aturan empiris muncul karena pengulangan kurva distribusi yang terus muncul berulang kali kepada ahli statistik. Aturan empiris dikaitkan dengan distribusi normal. Dalam tutorial ini, Anda akan menjelajahi Aturan empiris dalam Statistik secara mendalam

Table of Contents Show

Apa itu Aturan Empiris dalam Statistik?
Penjelasan Grafis
Keterbatasan
tentang Penulis
Bagaimana Anda menguji aturan empiris dengan Python?
Bagaimana Anda tahu jika data mengikuti aturan empiris?
Bisakah Anda menggunakan aturan empiris untuk memeriksa apakah data normal?

Program Sertifikat Profesional dalam Analisis Data

Bermitra dengan Universitas Purdue Lihat Kursus

Apa itu Aturan Empiris dalam Statistik?

Aturan empiris, juga dikenal sebagai aturan tiga sigma atau 68-95-99. 7 aturan, adalah aturan statistik yang menyatakan bahwa hampir semua data yang diamati untuk distribusi normal akan berada dalam tiga standar deviasi (dilambangkan dengan σ) dari rata-rata atau rata-rata (dilambangkan dengan µ)

Menurut aturan ini, 68% data termasuk dalam satu standar deviasi, 95% dalam dua standar deviasi, dan 99. 7% dalam tiga standar deviasi dari rata-rata

Ketika Anda secara wajar mengharapkan data Anda mendekati distribusi normal, rata-rata dan standar deviasi menjadi lebih berharga, berkat aturan empiris. Anda dapat menghitung probabilitas dan persentase untuk berbagai hasil hanya dengan mengetahui kedua statistik ini

Penjelasan Grafis

Distribusi normal dikaitkan dengan 68-95-99. 7 aturan yang ditunjukkan pada gambar di atas
68% data berada dalam 1 simpangan baku (σ) dari rata-rata (μ)
95% data berada dalam 2 simpangan baku (σ) dari rata-rata (μ)
99. 7% dari data berada dalam 3 standar deviasi (σ) dari rata-rata (μ)

Kursus GRATIS. Pengantar Analisis Data

Pelajari Konsep, Alat, dan Keterampilan Analisis Data Mulai Belajar

Rumus

Rumus Aturan Empiris adalah.

µ = Rata-rata

σ = Simpangan baku

m = Pengali

Contoh

Misalkan denyut nadi 100 siswa berbentuk lonceng dengan rata-rata 75 dan standar deviasi 4

Sekitar 68% pria memiliki denyut nadi dalam interval 75 土 1(4) = [71, 79]
Sekitar 95% pria memiliki denyut nadi dalam interval 75 土 2(4) = [67, 83]
Sekitar 99. 7% pria memiliki denyut nadi dalam interval 75 土 3(4) = [63, 87]

Keterbatasan

Aturan Empiris atau 68–95–99. 7 hanya dapat diterapkan pada distribusi simetris dan unimodal karena hanya berlaku pada Distribusi Statistik Normal

Menantikan karir di Analisis Data?

Kesimpulan

Aturan Empiris adalah konsep statistik yang membantu menunjukkan probabilitas pengamatan dan sangat berguna saat memperkirakan populasi besar. Penting untuk diingat bahwa ini hanya perkiraan. Selalu ada kemungkinan outlier yang tidak sesuai dengan distribusi. Akibatnya, temuannya tidak akurat, dan Anda harus berhati-hati saat bertindak berdasarkan perkiraan

Jika Anda ingin mengejar ini lebih jauh dan berkarier sebagai Ilmuwan Data, Program Sertifikasi Analisis Data Simplilearn bekerja sama dengan Universitas Purdue & bekerja sama dengan IBM adalah program untuk Anda

Jika Anda memerlukan klarifikasi atau ragu, sebutkan di bagian komentar halaman tutorial ini. Kami akan meminta pakar kami memeriksanya dan segera menanggapi dengan jawaban

tentang Penulis

Kartik Menon

Kartik adalah ahli strategi konten berpengalaman dan spesialis pemasaran teknologi ulung yang bersemangat merancang pengalaman pengguna yang menarik dengan solusi pemasaran dan komunikasi terintegrasi

Salah satu langkah pertama dalam analisis data eksplorasi adalah mengidentifikasi karakteristik data, yang penting termasuk pengujian pola distribusi. Dalam contoh ini, pelajari cara memeriksa apakah data Anda terdistribusi secara normal di Python dengan visualisasi serta perhitungan yang diberikan oleh pustaka Scipy

Terlampir, temukan file CSV dengan 130 catatan pembacaan suhu tubuh manusia yang berasal dari Journal of Statistics Education (Shoemaker 1996).

Mulailah dengan memuat CSV ke situs Anda (). Dalam contoh ini, kami akan membuat fungsi distribusi kumulatif empiris (ECDF) untuk memvisualisasikan distribusi data

Sebagian besar pekerjaan akan dilakukan dengan Python, jadi untuk kode SQL, gunakan yang berikut ini

1
select * from [human_body_temperature]

Dalam Python 3. 6, mulailah dengan mengimpor paket

1
2
3
4
5
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

_

Panda akan digunakan untuk menangani kerangka data; . pyplot dan seaborn akan digunakan bersama untuk menghasilkan plot, dan scipy akan digunakan untuk perhitungan matematis dari statistik normal

Selanjutnya, mari kita tentukan fungsi yang akan menghasilkan poin yang dapat diplot

1
2
3
4
5
6
7
8
9
10
11
12
13
def ecdf(data):
    """Compute ECDF for a one-dimensional array of measurements."""

    # Number of data points: n
    n = len(data)

    # x-data for the ECDF: x
    x = np.sort(data)

    # y-data for the ECDF: y
    y = np.arange(1, n+1) / n

    return x, y

Fungsi ini mengambil daftar pembacaan sampel (suhu dalam contoh ini) dan mengurutkannya dari terendah ke tertinggi. Ini mengembalikan satu set pasangan (x,y) yang mewakili pembacaan suhu dan posisi relatif dalam daftar yang diurutkan, atau persentil, dari setiap pembacaan

Selanjutnya, kami akan menjalankan fungsi itu pada data sampel kami untuk mendapatkan titik data yang dapat diplot

1
x, y = ecdf(df["temperature"])

Kita kemudian dapat menggunakan matplotlib dan seaborn untuk memplot data sampel kita dengan kode berikut

1
2
3
4
5
plt.figure(figsize=(8,7))
sns.set()
plt.plot(x, y, marker=".", linestyle="none")
plt.xlabel("Body Temperature (F)")
plt.ylabel("Cumulative Distribution Function")

_

Menjalankan ini akan menghasilkan bagan yang terlihat seperti berikut

Bagus sekali. Kita benar-benar dapat mulai melihat kurva di sini. Sekarang, untuk membandingkannya dengan distribusi normal yang sempurna, kita perlu memplot rangkaian data kedua. Ini dapat dilakukan dengan beberapa cara, tetapi dalam tutorial ini, kita akan menggunakan teknik yang disebut bootstrap untuk menyelesaikan tugas tersebut

Kode berikut akan menghasilkan 10.000 'suhu' yang mengikuti distribusi normal menggunakan rata-rata dan standar deviasi kumpulan data kami untuk menskalakan rentang

1
samples = np.random.normal(np.mean(df["temperature"]), np.std(df["temperature"]), size=10000)

Data ini hanya akan menjadi daftar suhu. Kita dapat mengubah data acak ini menjadi pasangan x,y menggunakan fungsi yang sama yang telah kita definisikan sebelumnya, memungkinkan kita untuk memplot data di samping sampel aktual dengan kode berikut

1
x_theor, y_theor = ecdf(samples)

_

Contoh-contoh teoretis ini menunjukkan bagaimana data akan terlihat jika kita memiliki 10.000 sampel dan distribusi pembacaannya normal. Ini adalah hipotetis yang bisa kita gunakan untuk membandingkan kenyataan

Mari plot ini pada bagan yang sama dengan data kita sebelumnya dengan kode berikut dan tambahkan legenda

1
2
plt.plot(x_theor, y_theor)
plt.legend(('Normal Distribution', 'Empirical Data'), loc='lower right')

Dan tentunya jangan lupakan fungsi outputnya

1
periscope.output(plt)

_

Kita harus mendapatkan grafik seperti ini

Lihat itu. Sepertinya data sampel kami (biru) sangat dekat dengan distribusi normal yang sebenarnya. Kami mungkin dapat menganggap data ini terdistribusi secara normal.

Mari tambahkan satu baris kode lagi untuk memberikan wawasan lebih lanjut tentang distribusi

1
print(stats.normaltest(df["temperature"]))

_

Apa pun yang dicetak dapat dilihat di tab Stdout

Ini akan menjalankan uji normal SciPy dan mencetak hasilnya termasuk p yang mewakili probabilitas chi kuadrat dua sisi untuk uji hipotesis. Jika nilai p lebih kecil dari alpha kita (nilai signifikansi), kita dapat menolak hipotesis bahwa data sampel ini terdistribusi secara normal. Jika lebih besar, kita tidak dapat menolak hipotesis nol dan harus menyimpulkan bahwa data berdistribusi normal.

Cobalah. Berdasarkan pemeriksaan terhadap 130 sampel tersebut, dapatkah kita menyimpulkan bahwa suhu tubuh manusia berdistribusi normal?

Bagaimana Anda menguji aturan empiris dengan Python?

Dengan demikian, Aturan empiris diverifikasi. .

68% dari nilai yang diamati terletak di antara 1 standar deviasi di sekitar rata-rata

95% dari nilai yang diamati terletak di antara 2 standar deviasi di sekitar rata-rata

99. 7% dari nilai yang diamati terletak di antara 3 standar deviasi di sekitar rata-rata

Bagaimana Anda tahu jika data mengikuti aturan empiris?

Aturan empiris (juga disebut "68-95-99. 7 rule") adalah pedoman bagaimana data didistribusikan dalam distribusi normal. Aturan tersebut menyatakan bahwa (kurang-lebih). - 68% titik data akan berada dalam satu standar deviasi rata-rata . - 95% titik data akan berada dalam dua standar deviasi rata-rata.

Bisakah Anda menggunakan aturan empiris untuk memeriksa apakah data normal?

Aturan empiris juga merupakan uji normalitas sederhana . Berdasarkan probabilitas, Anda tahu bahwa 99. 7% dari semua pengamatan harus berada dalam tiga standar deviasi dari rata-rata. Oleh karena itu, hanya 100 – 99. 7 = 0. 3% harus berada di luar batas untuk distribusi normal.

kode python