Avvikande formel - Steg för steg-beräkning av Outlier (med exempel)

Innehållsförteckning

Outlier-formel ger ett grafiskt verktyg för att beräkna data som ligger utanför den givna fördelningsuppsättningen som kan vara inre eller yttre sidan beroende på variablerna.

Vad är Outlier Formula?

En outlier är datapunkten för det givna provet eller den givna observationen eller i en fördelning som ska ligga utanför det övergripande mönstret. En vanligt förekommande regel som säger att en datapunkt kommer att betraktas som en outlier om den har mer än 1,5 IQR under den första kvartilen eller över den tredje kvartilen.

Sagt annorlunda ska låga avvikare ligga under Q1-1.5 IQR och höga avvikare ska ligga Q3 + 1.5IQR

Man måste beräkna median, kvartiler, inklusive IQR, Q1 och Q3.

Avvikelseformeln representeras enligt följande,

Formeln för Q1 = ¼ (n + 1) : te termen  i formeln för Q3 = ¾ (n + 1) : te termen  i formeln för Q2 = Q3 - Q1

Steg för steg-beräkning av Outlier

Nedanstående steg måste följas för att beräkna Outlier.

  • Steg 1: Beräkna först kvartilerna, dvs Q1, Q2 och interkvartilen
  • Steg 2: Beräkna nu värdet Q2 * 1.5
  • Steg 3: subtrahera nu Q1-värdet från det värde som beräknades i steg 2
  • Steg 4: Lägg till Q3 med det värde som beräknades i steg 2
  • Steg 5: Skapa intervallet för de värden som beräknats i Steg 3 och Steg 4
  • Steg 6: Ordna data i stigande ordning
  • Steg 7: Kontrollera om det finns några värden som ligger under eller högre än intervallet som skapades i steg 5.

Exempel

Tänk på en datamängd med följande siffror: 10, 2, 4, 7, 8, 5, 11, 3, 12. Du måste beräkna alla avvikare.

Lösning:

Först måste vi ordna data i stigande ordning för att hitta medianen, som blir Q2 för oss.

2, 3, 4, 5, 7, 8, 10, 11, 12

Eftersom antalet observationer är udda, vilket är 9, skulle medianen ligga på en femte position, vilket är 7, och detsamma kommer att vara Q2 för detta exempel.

Därför är beräkningen av Q1 som följer -

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 blir -

Q1 = 2,5 term

Detta innebär att Q1 är genomsnittet av 2 : a och 3 : e positionen av observationerna, som är 3 & 4 här, och ett medelvärde av de samma är (3 + 4) / 2 = 3,5

Beräkningen av Q3 är därför följande:

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 blir -

Q3 = 7,5 term

Detta betyder att Q3 är genomsnittet för den 7: e och 8: e positionen för observationerna, vilket är 10 & 11 här, och ett genomsnitt av detsamma är (10 + 11) / 2 = 10,5

Nu ska låga avvikare ligga under Q1-1.5IQR, och höga avvikare ska ligga Q3 + 1.5IQR

Så värdena är 3,5 - (1,5 * 7) = -7 och högre intervall är 10,5 + (1,5 * 7) = 110,25.

Eftersom det inte finns några observationer som ligger varken över eller lägre än 110,25 och -7, har vi inga avvikelser i detta prov.

Exempel på Outlier Formula i Excel (med Excel-mall)

Kreativa coachningskurser överväger att belöna studenter som ligger i topp 25%. Men de vill undvika eventuella avvikelser. Uppgifterna gäller för de 25 studenterna. Använd Outlier-ekvationen för att avgöra om det finns en outlier?

Lösning:

Nedan ges uppgifter för att beräkna avvikaren.

Antalet observationer här är 25, och vårt första steg är att konvertera ovanstående rådata i stigande ordning.

Median blir -

Medianvärdet = ½ (n + 1)

= ½ = ½ (26)

= 13: e termin

Q2 eller median är 68,00

Vilket är 50% av befolkningen.

Q1 blir -

Q1 = ¼ (n + 1) term

= ¼ (25 + 1)

= ¼ (26)

= 6,5: e term, vilket motsvarar 7: e term

Q1 är 56,00, vilket är 25% lägre

Q3 blir -

Slutligen är Q3 = ¾ (n + 1) term

= ¾ (26)

= 19,50 term

Här de genomsnittliga behov som skall vidtas, vilket är av 19 : e och 20 : e villkor som är 77 och 77 och medelvärdet av samma är (77 + 77) / 2 = 77,00

Q3 är 77, vilket är de 25% bästa

Kort räckvidd

Nu ska låga avvikare ligga under Q1-1.5IQR, och höga avvikare ska ligga Q3 + 1.5IQR

Hög räckvidd -

Så värdena är 56 - (1,5 * 68) = -46 och högre intervall är 77 + (1,5 * 68) = 179.

Det finns inga avvikelser.

Relevans och användningsområden

Formulär för avvikare är mycket viktigt att veta eftersom det kan finnas data som skulle bli snedställda av ett sådant värde. Ta ett exempel på observationer 2, 4, 6, 101, och nu om någon tar ett genomsnitt av dessa värden blir det 28,25, men 75% av observationerna ligger under 7, och därför skulle man vara ett felaktigt beslut angående observationer av detta prov.

Det kan noteras här att 101 tydligt ser ut att skissera, och om detta tas bort, skulle genomsnittet vara 4, vilket säger om värdena eller observationerna att de ligger inom intervallet 4. Därför är det mycket viktigt att genomföra detta beräkning för att undvika missbruk av ledande information om data. Dessa används i stor utsträckning av statistiker runt om i världen när de forskar.

Intressanta artiklar...