Standardafvigelse vs standardfejl: Hvad er forskellen?

Genudgivet af Platon

Abonnenter: 0

Tvillinger fra forskellige universer

Standard Deviation og Standard Error er to statistiske begreber, der ofte forårsager forvirring. Har de de samme fortolkninger, eller er det meningen, at de skal repræsentere noget helt andet? Vi vil diskutere mere i dette indlæg.

Hvad er standardafvigelse (SD)?

standardafvigelse måler variabilitet (alias den spredes) af datapunkter omkring betyde i et givet datasæt. Med andre ord fortæller den os i gennemsnit, hvor langt hvert datapunkt er væk fra middelværdien.

Population standardafvigelse

I den virkelige verden er vi interesserede i at estimere en bestemt egenskab i en befolkning. Standardafvigelse er en eksempel på disse egenskaber.

Når du har ALLE datapunkterne fra en population, kan du beregne TRUE værdien af populationens standardafvigelse ved hjælp af følgende formel.

Eksempel på standardafvigelse

Ofte er det svært at indsamle alle datapunkter fra befolkningen på grund af tidsmæssige, økonomiske eller tekniske begrænsninger. For eksempel, hvis vi gerne vil beregne TRUE standardafvigelse af husstandsindkomst i Los Angeles, ville vi være nødt til at få indkomst fra alle husstande i Los Angeles, hvilket er næsten umuligt at gøre.

I stedet kan vi indsamle tilfældige stikprøver fra populationen og drage slutninger om populationens standardafvigelse vha Eksempel på standardafvigelse. Formlen for prøvens standardafvigelse er

Hvorfor bruge N-1 til prøvestandardafvigelse?

Du vil bemærke, at vi bruger stikprøvegennemsnittet (x̄) i stedet for populationsmiddelværdien (μ) for prøvens standardafvigelse, fordi vi ikke ved noget om populationsmiddelværdien. x̄ er et rimeligt estimat for μ.

Derfor vil enhver værdi X i prøvedatasættet være tættere på x̄ end på μ. Tælleren i prøvens standardafvigelse ville blive kunstigt mindre, end den formodes at være. Som et resultat ville prøvens standardafvigelse være undervurderet.

For at rette op på dette skævhed i prøven standardafvigelse, ville vi bruge "N-1" i stedet for "N" (aka, Bessels rettelse) for prøvestandardafvigelse.

Brug af N-1 ville gøre stikprøvens standardafvigelse større end ellers ved brug af N. Derfor har vi et mindre forudindtaget estimat af populationens standardafvigelse, hvilket giver os et konservativt estimat af variabilitet.

Hvad er standardfejl (SE)?

Før vi diskuterer standardfejlen, lad os først blive fortrolige med begreberne Prøvefordeling , Prøveudtagning.

Prøvefordeling vs stikprøvefordeling

prøvefordeling er simpelthen den datadistribution af stikprøven, som er tilfældigt taget fra populationen.

For eksempel spørger vi 100 tilfældige mennesker i Los Angeles, hvad deres indkomst er. Prøvefordelingen beskriver AKTUEL indkomstfordeling i disse 100 personer.

Men hvad er Sampling Distribution?

stikprøvefordeling er fordeling af stikprøvestatistikken (f.eks. stikprøvegennemsnittet, stikprøvevarians, prøvestandardafvigelse og stikprøveandel) over mange prøver udtaget fra den samme population (dvs. gentagen prøveudtagning).

For eksempel spørger vi 100 tilfældige mennesker i Los Angeles, hvad deres indkomst er. Beregn derefter den gennemsnitlige indkomst. Vi gentager dette 1000 gange, så har vi 1000 forskellige gennemsnitsindkomster. Fordelingen af disse 1000 gennemsnitsindkomster kaldes stikprøvefordelingen.

Derfor, prøvefordeling er fordelingen af prøvedata mens stikprøvefordeling er fordelingen af stikprøvestatistik.

Konceptet er standard fejl er relevant for stikprøvefordelingen, IKKE stikprøvefordelingen.

Standard fejl er en metrik, der beskriver variabilitet af en statistik i prøveudtagningsfordeling.

Hvordan fortolker man standardfejl (SE)?

Standardfejlen måler, hvor langt stikprøvestatistik (f.eks. prøvegennemsnit) er sandsynligvis fra ægte befolkningsstatistik (f.eks. befolkningsgennemsnittet).

Hvorfor har vi brug for Standard Error (SE)?

Typisk vil du måske gerne bygge konfidensintervaller når vi forsøger at lave statistiske slutninger, og det er mere informativt at tildele en sandsynlighed for at konstruere et konfidensinterval, der indeholder middelværdien.

Hvis de underliggende data er normalfordelt, så er stikprøvefordelingen også normalfordelt. Så kan vi sige, at vi er 68% sikre på, at populationsgennemsnittet ligger inden for 1 standardfejl eller 95% vil være inden for 2 standardfejl osv.
Hvis de underliggende data IKKE er normalfordelt, men stikprøvestørrelsen er stor nok, kan vi stole på Central Limit Theorem (CLT) at sige, at stikprøvefordelingen er tilnærmelsesvis normalfordelt, så kan vi lave lignende udsagn om konfidensintervaller.

Hvordan beregner man standardfejl (SE)?

Vi bruger typisk følgende formel til at beregne standardfejlen. Jeg vil diskutere, hvordan man udleder denne formel i de næste afsnit.

Hvad er eksemplerne på standardfejl?

Standardfejl kan anvendes på forskellige typer statistikker. Nogle populære eksempler er

Standardfejlen for prøvegennemsnittet (aka, standardfejlen for gennemsnittet, SEM)
Standardfejlen for prøveandelen (aka, standardfejlen for proportionen, SEP)

Hvad er Standard Error of the Mean (SEM)?

Standardfejlen for middelværdien (eller blot standardfejlen) angiver, hvor forskellig den prøve middel er sandsynligvis fra befolkningsmiddel.

Teknisk set beregnes standardfejlen for gennemsnittet som standardafvigelsen for prøvegennemsnittet.

Hypotetisk kan vi beregne standardfejlen under gentagne prøver ved hjælp af følgende trin:

Tegn en ny stikprøve fra populationen.
Beregn prøvegennemsnittet af den udtrukne prøve i trin 1
Gentag trin 1 og 2 flere gange.
Standardfejlen opnås ved at beregne standardafvigelsen for de foregående trins prøvemiddelværdier.

Tak til Central Limit Theorem (CLT), behøver vi ikke at overveje prøveudtagningsfordelingen under gentagne prøver. I stedet kan stikprøvefordelingen af stikprøvemiddelværdierne estimeres ud fra kun EN tilfældig stikprøve.

Central Limit Theorem siger, at stikprøvegennemsnittet har en tilnærmelsesvis normalfordeling med a middelværdi af μ og en standardafvigelse (eller standardfejl) af σ/√n.

Hvordan udleder man formlen for SEM?

Derfor,

Billede af forfatter

I de fleste tilfælde er standardafvigelsen af populationsdataene ukendt. Vi vil estimere det ved hjælp af standardafvigelsen af prøvedataene (prøvestandardafvigelse).

Derfor,

Hvad er standardfejlen for proportionen (SEP)?

Standardfejlen for andelen angiver, hvor forskellig den prøveproportion er sandsynligvis fra befolkningsandel.

Standardfejlen for andelen beregnes som standardafvigelsen af stikprøveproportionerne.

Du vil bemærke, at vi i hver eksempeldata kun har data enten 1 eller 0. Hver værdi følger en Bernouilli distribution. De beregnede prøveproportioner er ikke længere binære værdier. I stedet kan de være en hvilken som helst værdi mellem 0 og 1.

Central Limit Theorem siger, at stikprøveandelen har en tilnærmelsesvis normalfordeling med a middel af p og en standardafvigelse (eller standardfejl) af √P(1-P)/√n, hvor P er befolkningsandelen.

Hvordan udleder man formlen for SEP?

Svarende til SEM,

Billede af forfatter

Vi kan vurdere σ ved at bruge prøvens standardafvigelse √p(1-p) (dvs. standardafvigelsen for en Bernouilli-fordeling)

konklusion:

Standardafvigelse og standardfejl er lignende begreber, som begge bruges til at måle variabilitet.

Standardafvigelse angiver, hvordan eksempeldataværdier er forskellige fra middelværdien i prøvefordeling.

Standard fejl angiver, hvordan eksempeldatastatistik er forskellige fra befolkningsstatistikken i stikprøvefordeling.

Tak fordi du læste !!!

Hvis du kan lide denne artikel og gerne vil Køb mig en kaffe, Vær venlig Klik her.

Du kan tilmelde dig en medlemskab at låse op for fuld adgang til mine artikler, og have ubegrænset adgang til alt på Medium. Vær venlig Hold mig opdateret hvis du gerne vil have en e-mail notifikation, hver gang jeg poster en ny artikel.

Standardafvigelse vs standardfejl: Hvad er forskellen? Genudgivet fra kilde https://towardsdatascience.com/standard-deviation-vs-standard-error-whats-the-difference-ae969f48adef?source=rss—-7f60cf5620c9—4 via https://towardsdatascience.com/feed

<!–

Tidsstempel: November 2, 2022November 3, 2022