Normal distribution i statistik - Definition, exempel, tolkning

Vad är normalfördelning i statistik?

Normalfördelning är en klockformad frekvensfördelningskurva som hjälper till att beskriva alla möjliga värden som en slumpmässig variabel kan ta inom ett givet intervall med det mesta av fördelningsområdet i mitten och få är i svansarna, ytterst. Denna fördelning har två nyckelparametrar: medelvärdet (µ) och standardavvikelsen (σ) som spelar nyckelroll i beräkningen av tillgångarnas avkastning och i riskhanteringsstrategin.

Hur man tolkar normal distribution

Ovanstående figur visar att den statistiska normalfördelningen är en klockformad kurva. Utbudet av möjliga resultat av denna fördelning är hela reella tal som ligger mellan -∞ till + ∞. Klockkurvens svansar sträcker sig på båda sidor av diagrammet (+/-) utan begränsningar.

  • Cirka 68% av all observation faller inom +/- en standardavvikelse (σ)
  • Cirka 95% av all observation faller inom +/- två standardavvikelser (σ)
  • Cirka 99% av all observation faller inom +/- tre standardavvikelser (σ)

Den har en snedhet på noll (symmetri för en distribution). Om datadistributionen är asymmetrisk är fördelningen ojämn om datamängden har en snedhet större än noll eller positiv snedhet. Då är distributionens högra svans längre än den vänstra och för negativ snedhet (mindre än noll) kommer vänster svans att vara längre än den högra svansen.

Den har en kurtos på 3 (mäter fördelningens toppnivå), vilket indikerar att fördelningen varken är för toppad eller för tunn svans. Om kurtosen är mer än tre än fördelningen är mer toppad med fetare svansar, och om kurtosen är mindre än tre, har den tunna svansar och toppunkten är lägre än normalfördelningen.

Egenskaper

  • De representerar en distributionsfamilj där medelvärdet och avvikelsen bestämmer distributionens form.
  • Medelvärdet, medianen och sättet för denna fördelning är alla lika.
  • Hälften av värdena är till vänster om mitten och den andra hälften till höger.
  • Det totala värdet under standardkurvan kommer alltid att vara ett.
  • Förmodligen är distributionen i centrum, och färre värden ligger i svansänden.

Transformation (Z)

Sannolikhetsdensitetsfunktionen (PDF) för en slumpmässig variabel (X) efter fördelning ges av:

där -∞ <x <∞; -∞ <µO

Var,

  • F (x) = Normal sannolikhetsfunktion
  • x = slumpmässig variabel
  • µ = medelvärde för distribution
  • σ = Standardavvikelse för fördelningen
  • π = 3,14159
  • e = 2,71828

Transformationsformel

Var,

  • X = slumpmässig variabel

Exempel på normal distribution i statistik

Låt oss diskutera följande exempel.

Exempel 1

Antag att ett företag har 10000 anställda och flera lönestrukturer enligt den arbetsroll som anställd arbetar i. Lönerna fördelas i allmänhet med populationsmedelvärdet µ = $ 60.000 och befolkningsstandardavvikelsen σ = $ 15000. Vad är sannolikheten för att slumpmässigt utvald anställd har en lön under 45 000 dollar per år.

Lösning

Som visas i ovanstående figur, för att svara på den här frågan, måste vi ta reda på området under den normala kurvan från 45 till vänster svans. Vi måste också använda Z-tabellvärde för att få rätt svar.

För det första måste vi konvertera det givna medelvärdet och standardavvikelsen till en standardnormalfördelning med medelvärdet (µ) = 0 och standardavvikelsen (σ) = 1 med hjälp av transformationsformeln.

Efter konverteringen måste vi leta upp Z-tabellen för att ta reda på motsvarande värde, vilket ger oss rätt svar.

Given,

  • Medelvärde (µ) = $ 60.000
  • Standardavvikelse (σ) = $ 15000
  • Slumpmässig variabel (x) = $ 45000

Transformation (z) = (45000 - 60000/15000)

Transformation (z) = -1

Nu är värdet som motsvarar -1 i Z-tabellen 0,1587, vilket representerar området under kurvan från 45 till vägen till vänster. Det indikerade att när vi slumpmässigt väljer en anställd är sannolikheten att tjäna mindre än 45000 $ per år 15,87%.

Exempel 2

Håll nu samma scenario som ovan och ta reda på sannolikheten för att slumpmässigt utvalda anställda tjänar mer än $ 80 000 per år med normalfördelningen.

Lösning

Så i den här frågan måste vi ta reda på det skuggade området från 80 till höger svans med samma formel.

Given,

  • Medelvärde (µ) = $ 60.000
  • Standardavvikelse (σ) = $ 15000
  • Slumpmässig variabel (X) = $ 80.000

Transformation (z) = (80000 - 60000/15000)

Transformation (z) = 1,33

Enligt Z-tabellen är motsvarande värde 1,33 0,9082 eller 90,82%, vilket visar att sannolikheten för att slumpmässigt väljer anställda som tjänar mindre än $ 80 000 per år är 90,82%.

Men enligt frågan måste vi bestämma sannolikheten för att de slumpmässiga anställda tjänar mer än $ 80 000 per år, så vi måste subtrahera värdet från 100.

  • Slumpmässig variabel (X) = 100% - 90,82%
  • Slumpmässig variabel (X) = 9,18%

Så sannolikheten för att anställda tjänar mer än 80 000 $ per år är 9,18%.

Användningar

  • Aktiemarknadens tekniska diagram är ofta en klockkurva, vilket gör det möjligt för analytiker och investerare att göra statistiska slutsatser om förväntad avkastning och risk för aktier.
  • Det används i den verkliga världen, som att bestämma den mest troliga bästa tiden som pizzaföretag tar för att leverera pizza och många fler riktiga applikationer.
  • Används för att jämföra höjder för en viss befolkningsuppsättning där de flesta har en genomsnittlig storlek med väldigt få personer som har över genomsnittet eller under genomsnittlig höjd.
  • De används för att bestämma studenternas genomsnittliga akademiska resultat, vilket hjälper till att jämföra studenternas rang.

Slutsats

Normal distribution hittar applikationer inom datavetenskap och dataanalys. Avancerad teknik som artificiell intelligens och maskininlärning som används tillsammans med denna distribution kan ge bättre datakvalitet, vilket kommer att hjälpa individer och företag att effektivt fatta beslut.

Intressanta artiklar...