Linjär regression (definition, exempel) - Hur ska man tolka?

Innehållsförteckning

Vad är en linjär regression?

Vad är en linjär regression?

Linjär regression är i grunden en statistisk modelleringsteknik som visade förhållandet mellan en beroende variabel och en eller flera oberoende variabler. Det är en av de vanligaste typerna av prediktiv analys. Denna typ av distribution bildas i en linje, därför kallas detta linjär regression. I den här artikeln tar vi exemplen på linjär regressionsanalys i Excel.

För att göra linjär regressionsanalys först måste vi lägga till excel-tillägg genom att följa stegen.

Klicka på Arkiv - Alternativ (Detta öppnar Excel-alternativ som dyker upp för dig).

Klicka på tillägg - Välj Excel-tillägg från Hantera rullgardinsmeny i Excel, klicka sedan på Gå.

Detta öppnar popup-tillägg. Välj Analysis ToolPak och klicka sedan på Ok.

Tillägget för dataanalys visas under fliken Infoga.

Låt oss förstå av nedanstående exempel på linjär regressionsanalys i Excel.

Exempel på linjära regressionsanalyser

Exempel 1

Anta att vi har månadsförsäljning och spenderat på marknadsföring för förra året, och nu måste vi förutsäga framtida försäljning utifrån förra årets försäljning och marknadsföring.

Månad	Reklam	Försäljning
Jan	40937	502729
Feb	42376	507553
Mar	43355	516885
Apr	44126	528347
Maj	45060	537298
Juni	49546	544066
Jul	56105	553664
Aug	59322	563201
Sep	59877	568657
Okt	60481	569384
Nov	62356	573764
Dec	63246	582746

Klicka på dataanalys under fliken data, så öppnas dataanalys som dyker upp för dig.

Välj nu Regression från listan och klicka på Ok.

Pop-up för regression öppnas.

Välj försäljningsintervall $ C $ 1: $ C $ 13 i rutan Y-axel eftersom detta är den beroende variabeln och $ B $ 1: $ B $ 14 i X-axeln eftersom annonsen som används är den oberoende variabeln.

Kryssa i rutan Etiketter om du har valt rubriker i data annars kommer det att ge dig felet.

Välj Utdataområde om du vill få värdet på det specifika intervallet i kalkylbladet, annars välj Nytt kalkylblad: detta lägger till ett nytt kalkylblad och ger dig resultatet.

Markera sedan rutan Residuals och klicka på Ok.

Detta kommer att lägga till kalkylblad och ge dig följande resultat.

Låt oss förstå produktionen.

Sammanfattning Output

Multipel R: Detta representerar korrelationskoefficienten. Värdet 1 visar ett positivt förhållande och värdet 0 visar inget samband.

R Square: R Square representerar bestämningskoefficienten. Detta berättar procentandelen poäng på regressionslinjen. 0,49 betyder att 49% av värdena passar modellen

Justerad R-kvadrat : Detta justeras R-kvadrat, vilket kräver när du har mer än en X-variabel.

Standardfel: Detta representerar en uppskattning av standardavvikelsen för felet. Detta är precisionen som regressionskoefficienten mäts.

Observationer: Detta är antalet observationer som du har tagit i ett urval.

ANOVA - Df: Grader av frihet

SS: Summan av rutorna.

MS: vi har två MS

Regression MS är regression SS / Regression Df.
Rest MS är medelkvadratfelet (Rest SS / Residual Df).

F: F-test för nollhypotesen.

Betydelse F: P-värden associerade med betydelse

Koefficient: Koefficient ger dig en uppskattning av minsta kvadrater.

T-statistik: T-statistik för nollhypotes vs den alternativa hypotesen.

P-värde: Detta är p-värdet för hypotesprovet.

Nedre 95% och Övre 95%: Dessa är den nedre gränsen och den övre gränsen för konfidensintervallet

Restprodukter: Vi har 12 observationer baserat på data. 2 ^{: a} kolumnen representerar Predicted försäljning och 3 ^{: e} kolumn Residuals. Restprodukter är i grunden skillnaden i förutsagd försäljning från den faktiska.

Exempel 2

Välj den förutsagda försäljnings- och marknadsföringskolonnen

Gå till diagramgruppen under fliken infoga. Välj spridningsikonen

Detta infogar spridningsdiagrammet i Excel. Se bilden nedan

Högerklicka på valfri punkt och välj sedan Lägg till trendlinje i Excel. Detta kommer att lägga till en trendlinje i ditt diagram.

Du kan formatera trendlinjen genom att högerklicka var som helst på trendlinjen och sedan välja format trendlinje.
Du kan göra fler förbättringar i diagrammet. dvs formatera trendlinjen, färga och ändra titel osv
Du kan också visa formeln i diagrammet genom att markera Visa formel i diagrammet och visa R-kvadratvärde i diagrammet.

Några fler exempel på linjär regressionsanalys:

Förutsägelse av paraply som sålts baserat på regnet hände i området.
Förutsägelse av AC såld baserat på temperaturen på sommaren.
Under examensäsongen ökade försäljningen av Stationary i grund och botten.
Förutsägelse av försäljning när reklam har gjorts baserat på hög TRP-serie där en annons görs, popularitet för brandambassadör och fotfall på platsen för anläggningen där en annons publiceras.
Försäljning av ett hus baserat på lokalitet, område och pris.

Exempel # 3

Antag att vi har nio studenter med deras IQ-nivå och antalet de fick på testet.

Studerande	Testpoäng	IQ
Bagge	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Steg 1: Ta reda på de beroende och oberoende variablerna. Här är Testpoäng den beroende variabeln och IQ är den oberoende variabeln eftersom Testpoängen varierar när IQ blir förändrad.

Steg 2: Gå till fliken Data - Klicka på dataanalys - Välj regression - klicka på Ok.

Detta öppnar regressionsfönstret åt dig.

Steg 3. Ingångstestintervall i Inmatningsområde Y-intervall och IQ i Inmatningsområde X-intervall. (Kontrollera på etiketter om du har rubriker i ditt dataområde. Välj utmatningsalternativ och kontrollera sedan de önskade resterna. Klicka på Ok.

Du får den sammanfattande utdata som visas i bilden nedan.

Steg 4: Analysera regressionen genom sammanfattande resultat

Sammanfattning Output

Multipel R: Här är korrelationskoefficienten 0,99, vilket är mycket nära 1, vilket innebär att det linjära förhållandet är mycket positivt.

R Square: R Square värde är 0,983, vilket innebär att 98,3% av värdena passar modellen.

P-värde: Här är P-värdet 1,86881E-07, vilket är mycket mindre än .1, vilket betyder att IQ har betydande prediktiva värden.

Se diagrammet nedan.

Du kan se att nästan alla punkter faller inline eller en närliggande trendlinje.

Exempel 4

Vi måste förutsäga försäljning av AC baserat på försäljning och temperatur under en annan månad.

Månad	Temp	Försäljning
Jan	25	38893
Feb	28	42254
Mar	31	42845
Apr	33	47917
Maj	37	51243
Juni	40	69588
Jul	38	56570
Aug	37	50000

Följ stegen nedan för att få regressionsresultatet.

Steg 1: Ta reda på de beroende och oberoende variablerna. Här är Försäljning den beroende variabeln och Temperatur är en oberoende variabel eftersom Försäljningen varierar när Temp blir förändrad.

Steg 2: Gå till fliken Data - Klicka på dataanalys - Välj regression - klicka på Ok.

Detta öppnar regressionsfönstret åt dig.

Steg 3. Ingångsförsäljning i Inmatningsområde Y-intervall och Temp i Inmatningsområde X-intervall. (Kontrollera på etiketter om du har rubriker i ditt dataområde. Välj utmatningsalternativ och kontrollera sedan de önskade resterna. Klicka på Ok.

Detta ger dig en sammanfattande produktion enligt nedan.

Steg 4: Analysera resultatet.

Multipel R: Här är korrelationskoefficienten 0,877, vilket är nära 1, vilket innebär att det linjära förhållandet är positivt.

R Square: R Square värde är 0,770, vilket innebär att 77% av värdena passar modellen

P-värde: Här är P-värdet 1,86881E-07, vilket är mycket mindre än .1, vilket betyder att IQ har betydande prediktiva värden.

Exempel # 5

Låt oss nu göra en regressionsanalys för flera oberoende variabler:

Du måste förutsäga försäljningen av en mobil som kommer att lanseras nästa år. Du har priset och befolkningen i de länder som påverkar försäljningen av mobiltelefoner.

Mobilversion	Försäljning	Kvantitet	Befolkning
USA	63860	858	823
Storbritannien	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Följ stegen nedan för att få regressionsresultatet.

Steg 1. Ta reda på de beroende och oberoende variablerna. Här är försäljningen beroende av variabel och kvantitet och befolkning. Båda är oberoende variabler eftersom försäljningen varierar beroende på kvantitet och befolkning i landet.

Steg 2. Gå till fliken Data - Klicka på dataanalys - Välj regression - klicka på Ok.

Detta öppnar regressionsfönstret åt dig.

Steg 3. Inmatningsförsäljning i rutan Ingång Y-intervall och välj kvantitet och population i Ingång X-intervall. (Kontrollera på etiketter om du har rubriker i ditt dataområde. Välj utmatningsalternativ och kontrollera sedan de önskade resterna. Klicka på Ok.

Kör nu regressionen med hjälp av dataanalys under fliken Data. Detta ger dig resultatet nedan.

Sammanfattning Output

Multipel R: Här är korrelationskoefficienten 0,93, vilket är mycket nära 1, vilket innebär att det linjära förhållandet är mycket positivt.

R Square: R Square värde är 0,866, vilket innebär att 86,7% av värdena passar modellen.

Betydelse F: Betydelse F är mindre än .1, vilket betyder att regressionsekvationen har signifikant prediktivt värde.

P-värde : Om du tittar på P-värde för Kvantitet och befolkning kan du se att värdena är mindre än .1, vilket innebär att kvantitet och population har ett betydande prediktivt värde. De färre P-värdena innebär att en variabel har mer signifikanta prediktiva värden.

Men både kvantitet och befolkning har ett betydande prediktivt värde, men om du tittar på P-värde för kvantitet och befolkning kan du se att kvantiteten har ett lägre P-värde i excel än befolkning. Detta betyder att kvantitet har ett mer betydande prediktivt värde än befolkning.

Saker att komma ihåg

Kontrollera alltid variablerna Beroende och Oberoende när du väljer data.
Linjär regressionsanalys tar hänsyn till sambandet mellan variablernas medelvärde.
Den här modellen modellerar bara förhållandet mellan variablerna som är linjära
Ibland passar det inte bäst för ett verkligt problem. Till exempel: (Ålder och löner). För det mesta ökar lönen i takt med att åldern ökar. Efter pensionen ökar dock åldern men lönerna minskar.