Standardna deviacija v primerjavi s standardno napako: Kakšna je razlika?

Dvojčka iz različnih vesolj

Foto: Martin sanchez on Unsplash

Sstandardna deviacija in standardna napaka sta dva statistična pojma, ki pogosto povzročata zmedo. Imajo enake interpretacije ali naj bi predstavljale nekaj povsem drugega? Več o tem bomo razpravljali v tej objavi.

Kaj je standardni odklon (SD)?

O standardni odklon meri variabilnost (znan tudi kot namaz) podatkovnih točk okoli pomeni v danem nizu podatkov. Z drugimi besedami, v povprečju nam pove, kako daleč je vsaka podatkovna točka od povprečja.

Standardni odklon populacije

V resničnem svetu nas zanima ocena določene značilnosti v a prebivalstvo. Standardni odklon je an primer teh lastnosti.

Ko boš VSE podatkovnih točk iz populacije, lahko izračunate TRUE vrednost standardnega odklona populacije z uporabo naslednje formule.

Slika avtorja

Standardni odklon vzorca

Pogosto je težko zbrati vse podatkovne točke iz populacije zaradi časovnih, finančnih ali tehničnih omejitev. Na primer, če bi radi izračunali TRUE standardni odklon dohodka gospodinjstev v Los Angelesu, bi morali pridobiti dohodke vseh gospodinjstev v Los Angelesu, kar je skoraj nemogoče storiti.

Namesto tega lahko zberemo naključne vzorce iz populacije in sklepamo o standardnem odklonu populacije z uporabo Standardni odklon vzorca. Formula za standardno odstopanje vzorca je

Slika avtorja

Zakaj uporabiti N-1 za standardni odklon vzorca?

Opazili boste, da za standardni odklon vzorca uporabljamo povprečje vzorca (x̄) namesto povprečja populacije (μ), ker ne vemo ničesar o povprečju populacije. x̄ je razumna ocena za μ.

Zato bi bila katera koli vrednost X v vzorčnem naboru podatkov bližje x̄ kot μ. Števec v vzorčnem standardnem odklonu bi postal umetno manjši, kot naj bi bil. Posledično bi bil vzorčni standardni odklon podcenjena.

Da to popravim pristranskosti v standardnem odklonu vzorca, bi uporabili "N-1" namesto "N" (aka, Besselov popravek) za standardno odstopanje vzorca.

Z uporabo N-1 bi standardno odstopanje vzorca postalo večje kot sicer z uporabo N. Zato imamo manj pristransko oceno standardnega odstopanja populacije, kar nam daje konzervativno oceno variabilnosti.

Kaj je standardna napaka (SE)?

Preden razpravljamo o standardni napaki, se najprej seznanimo s koncepti Distribucija vzorcev in Porazdelitev vzorčenja.

Porazdelitev vzorcev proti porazdelitvi vzorčenja

O distribucija vzorcev je preprosto distribucija podatkov vzorca, ki je naključno vzet iz populacije.

Na primer, vprašamo 100 naključnih ljudi v Los Angelesu, kakšni so njihovi dohodki. Vzorčna porazdelitev opisuje AKTUALNO porazdelitev dohodka v teh 100 ljudeh.

Toda kaj je distribucija vzorčenja?

O porazdelitev vzorcev ali je porazdelitev vzorčne statistike (npr. povprečje vzorca, varianca vzorca, standardni odklon vzorca in delež vzorca) v številnih vzorcih, vzetih iz iste populacije (tj. ponovljeno vzorčenje).

Na primer, vprašamo 100 naključnih ljudi v Los Angelesu, kakšni so njihovi dohodki. Nato izračunajte povprečni dohodek. To ponovimo 1000-krat, potem imamo 1000 različnih povprečnih dohodkov. Porazdelitev teh 1000 povprečnih dohodkov se imenuje vzorčna porazdelitev.

Zato distribucija vzorcev je distribucija vzorčni podatki medtem porazdelitev vzorcev je distribucija vzorčna statistika.

Koncept je standardna napaka je pomembna za distribucijo vzorčenja, NE pa za distribucijo vzorca.

O Standardna napaka je metrika, ki opisuje variabilnost statistike v porazdelitev vzorčenja.

Kako razlagati standardno napako (SE)?

Standardna napaka meri, kako daleč je vzorčna statistika (npr. povprečje vzorca) je verjetno iz prava populacijska statistika (npr. povprečje prebivalstva).

Zakaj potrebujemo standardno napako (SE)?

Običajno boste morda želeli zgraditi intervali zaupanja ko skušamo narediti statistične sklepe, je bolj informativno dodeliti verjetnost za izgradnjo intervala zaupanja, ki vsebuje povprečje.

  • Če so osnovni podatki normalno porazdeljeni, je normalno porazdeljena tudi vzorčna porazdelitev. Potem lahko rečemo, da smo 68 % prepričani, da je povprečje populacije znotraj 1 standardne napake ali da bo 95 % znotraj 2 standardnih napak itd.
  • Če osnovni podatki NISO normalno porazdeljeni, vendar je velikost vzorca dovolj velika, se lahko zanesemo na Centralni mejni izrek (CLT) če rečemo, da je porazdelitev vzorčenja približno normalno porazdeljena, potem lahko podamo podobne izjave o intervalih zaupanja.

Kako izračunati standardno napako (SE)?

Za izračun standardne napake običajno uporabljamo naslednjo formulo. O tem, kako izpeljati to formulo, bom razpravljal v naslednjih razdelkih.

Slika avtorja

Kateri so primeri standardne napake?

Standardno napako je mogoče uporabiti za različne vrste statistika. Nekateri priljubljeni primeri so

  • Standardna napaka povprečja vzorca (tudi standardna napaka povprečja, SEM)
  • Standardna napaka deleža vzorca (tudi standardna napaka deleža, SEP)

Kaj je standardna napaka povprečja (SEM)?

Standardna napaka povprečja (ali preprosto standardna napaka) kaže, kako različne so vzorec srednja vrednost je verjetno iz povprečna populacija.

Tehnično se standardna napaka povprečja izračuna kot standardni odklon vzorčnega povprečja.

Slika avtorja

Hipotetično lahko izračunamo standardno napako pri ponovljenih vzorcih z naslednjimi koraki:

  1. Iz populacije izvlecite nov vzorec.
  2. Izračunajte vzorčno povprečje izvlečenega vzorca v 1. koraku
  3. Večkrat ponovite 1. in 2. korak.
  4. Standardno napako dobimo z izračunom standardnega odklona vzorčnih povprečij prejšnjih korakov.

Zahvaljujoč Centralni mejni izrek (CLT), nam ni treba upoštevati distribucije vzorčenja pri ponovljenih vzorcih. Namesto tega je mogoče vzorčno porazdelitev vzorčnih povprečij oceniti samo na ENEM naključnem vzorcu.

Centralni mejni izrek pravi, da ima vzorčna sredina približno normalno porazdelitev z a povprečje μ in standardni odklon (ali standardna napaka) σ/√n.

Kako izpeljati formulo za SEM?

Slika avtorja

Zato

Slika avtorja

V večini primerov standardni odklon podatkov o populaciji ni znan. Ocenili ga bomo s standardnim odklonom vzorčnih podatkov (standardni odklon vzorca).

Zato

Slika avtorja

Kaj je standardna napaka razmerja (SEP)?

Standardna napaka deleža kaže, kako različni so delež vzorca je verjetno iz delež prebivalstva.

Standardna napaka deleža se izračuna kot standardni odklon vzorčnih deležev.

Slika avtorja

Opazili boste, da imamo v vsakem vzorčnem podatku samo podatke 1 ali 0. Vsaka vrednost sledi a Bernouillijeva porazdelitev. Izračunani vzorčni deleži niso več binarne vrednosti. Namesto tega so lahko katere koli vrednosti med 0 in 1.

Centralni mejni izrek pravi, da ima vzorčni delež približno normalno porazdelitev z a povprečje p in standardna deviacija (ali standardna napaka) √P(1-P)/√n, kjer je P delež populacije.

Kako izpeljati formulo za SEP?

Slika avtorja

Podobno kot SEM,

Slika avtorja
Slika avtorja

Lahko ocenimo σ z uporabo vzorčnega standardnega odklona √p(1-p) (tj. standardni odklon Bernouillijeve porazdelitve)

Slika avtorja

ugotovitev:

Standardni odklon in standardna napaka sta podobna koncepta, ki se uporabljata za merjenje spremenljivost.

Standardni odklon nakazuje, kako vrednosti vzorčnih podatkov se razlikujejo od povprečja v distribucija vzorcev.

Standardna napaka nakazuje, kako statistika vzorčnih podatkov se razlikujejo od populacijske statistike v porazdelitev vzorcev.

Hvala za branje!!!

Če vam je ta članek všeč in bi ga radi Kupi mi kavo, prosim Klikni tukaj.

Lahko se prijavite za članstvo za odklepanje polnega dostopa do mojih člankov in neomejen dostop do vsega na Medium. prosim naročiti če želite prejeti e-poštno obvestilo, ko objavim nov članek.

Standardna deviacija v primerjavi s standardno napako: Kakšna je razlika? Ponovno objavljeno iz vira https://towardsdatascience.com/standard-deviation-vs-standard-error-whats-the-difference-ae969f48adef?source=rss—-7f60cf5620c9—4 prek https://towardsdatascience.com/feed

<!–

->

Časovni žig:

Več od Svetovalci v verigi blokov