Variationsinflationsfaktor (VIF) - Oversigt, formel, anvendelser

Variationsinflationsfaktoren (VIF) måler sværhedsgraden af ​​multikollinearitet i regressionsanalyse. Regressionsanalyse Regressionsanalyse er et sæt statistiske metoder, der anvendes til estimering af sammenhænge mellem en afhængig variabel og en eller flere uafhængige variabler. Det kan bruges til at vurdere styrken af ​​forholdet mellem variabler og til modellering af det fremtidige forhold mellem dem. . Det er et statistisk koncept, der indikerer stigningen i variansen af ​​en regressionskoefficient som et resultat af kollinearitet.

Variationsinflationsfaktor

Resumé

  • Variansinflationsfaktor (VIF) bruges til at detektere sværhedsgraden af ​​multikollinearitet i den almindelige mindst firkantede (OLS) regressionsanalyse.
  • Multikollinearitet puster variansen og type II-fejlen op. Det gør koefficienten for en variabel konsistent, men upålidelig.
  • VIF måler antallet af oppustede afvigelser forårsaget af multikollinearitet.

Variationsinflationsfaktor og multikollinearitet

I almindelig mindst kvadratisk (OLS) regressionsanalyse eksisterer multikollinearitet, når to eller flere af de uafhængige variabler Uafhængig variabel En uafhængig variabel er en input, antagelse eller driver, der ændres for at vurdere dens indvirkning på en afhængig variabel (resultatet) . demonstrere et lineært forhold mellem dem. For eksempel for at analysere forholdet mellem virksomhedsstørrelser og indtægter til aktiekurser i en regressionsmodel er markedsværdier og indtægter de uafhængige variabler.

En virksomheds markedsværdi Markedsværdi Markedsværdi (Market Cap) er den seneste markedsværdi af en virksomheds udestående aktier. Market Cap er lig med den aktuelle aktiekurs ganget med antallet af udestående aktier. Investeringssamfundet bruger ofte markedsværdien til at rangere virksomheder, og dets samlede indtægter er stærkt korreleret. Da en virksomhed tjener stigende indtægter, vokser den også i størrelse. Det fører til et multikollinearitetsproblem i OLS-regressionsanalysen. Hvis de uafhængige variabler i en regressionsmodel viser et perfekt forudsigeligt lineært forhold, er det kendt som perfekt multikollinearitet.

Med multikollinearitet er regressionskoefficienterne stadig konsistente, men er ikke længere pålidelige, da standardfejlene er oppustet. Det betyder, at modelens forudsigelige effekt ikke reduceres, men koefficienterne er muligvis ikke statistisk signifikante med en type II-fejl Type II-fejl I statistisk hypotesetest er en type II-fejl en situation, hvor en hypotesetest ikke afviser nulhypotesen er falsk. I andre .

Derfor, hvis koefficienterne for variabler ikke er individuelt signifikante - kan ikke afvises i henholdsvis t-testen - men kan sammen forklare variansen af ​​den afhængige variabel med afvisning i F-testen og en høj bestemmelseskoefficient (R2), multikollinearitet kan eksistere. Det er en af ​​metoderne til at detektere multikollinearitet.

VIF er et andet almindeligt anvendt værktøj til at opdage, om der findes multikollinearitet i en regressionsmodel. Det måler, hvor meget variansen (eller standardfejl) af den estimerede regressionskoefficient er oppustet på grund af kollinearitet.

Brug af variationsinflationsfaktor

VIF kan beregnes ved hjælp af nedenstående formel:

Variationsinflationsfaktor - formel

Hvor R i 2 betegner den ujusterede determinationskoefficienten for regression den i'te uafhængig variabel på de resterende. Gensidigheden af ​​VIF er kendt som tolerance . Enten VIF eller tolerance kan bruges til at opdage multikollinearitet afhængigt af personlig præference.

Hvis R i 2 er lig med 0, kan variansen af de resterende uafhængige variable ikke forudsiges ud fra den i'te uafhængige variabel. Derfor, når VIF eller tolerance er lig med 1, er den uafhængige variabel ikke korreleret med de resterende, hvilket betyder, at multikollinearitet ikke findes i denne regressionsmodel. I dette tilfælde pumpes ikke variansen af ​​ith-regressionskoefficienten op.

Generelt indikerer en VIF over 4 eller tolerance under 0,25, at multikollinearitet muligvis eksisterer, og yderligere undersøgelse er påkrævet. Når VIF er højere end 10, eller tolerancen er lavere end 0,1, er der signifikant multikollinearitet, der skal rettes.

Der er dog også situationer, hvor høje VFI'er sikkert kan ignoreres uden at lide af multikollinearitet. Følgende er tre sådanne situationer:

1. Høje VIF'er findes kun i kontrolvariabler, men ikke i variabler af interesse. I dette tilfælde er variablerne af interesse ikke sammenhængende med hinanden eller kontrolvariablerne. Regressionskoefficienterne påvirkes ikke.

2. Når høje VIF'er forårsages som følge af inkludering af produkter eller beføjelser fra andre variabler, forårsager multikollinearitet ikke negative virkninger. For eksempel inkluderer en regressionsmodel både x og x2 som dens uafhængige variabler.

3. Når en dummyvariabel, der repræsenterer mere end to kategorier, har en høj VIF, findes der ikke nødvendigvis multikollinearitet. Variablerne vil altid have høje VIF'er, hvis der er en lille del af sagerne i kategorien, uanset om de kategoriske variabler er korreleret med andre variabler.

Korrektion af multikollinearitet

Da multikollinearitet opblæser variationen i koefficienter og forårsager type II-fejl, er det vigtigt at opdage og rette det. Der er to enkle og almindeligt anvendte måder til at korrigere multikollinearitet, som angivet nedenfor:

1. Den første er at fjerne en (eller flere) af de stærkt korrelerede variabler. Da informationen fra variablerne er overflødig, vil bestemmelseskoefficienten ikke blive væsentligt forringet af fjernelsen.

2. Den anden metode er at anvende hovedkomponentanalyse (PCA) eller delvis mindst kvadratisk regression (PLS) i stedet for OLS-regression. PLS-regression kan reducere variablerne til et mindre sæt uden sammenhæng mellem dem. I PCA oprettes nye ikke-korrelerede variabler. Det minimerer tab af information og forbedrer forudsigeligheden af ​​en model.

Flere ressourcer

Finance er den officielle udbyder af den globale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -certificering Certified Banking & Credit Analyst (CBCA) ™ -akkreditering er en global standard for kreditanalytikere, der dækker finansiering, regnskab, kreditanalyse, cash flow-analyse , modellering af pagter, tilbagebetaling af lån og mere. certificeringsprogram designet til at hjælpe alle med at blive en finansanalytiker i verdensklasse. For at fortsætte din karriere vil de yderligere ressourcer nedenfor være nyttige:

  • Grundlæggende statistikbegreber i økonomi Grundlæggende statistikbegreber for økonomi En solid forståelse af statistik er af afgørende betydning for at hjælpe os med bedre at forstå økonomi. Desuden kan statistiske begreber hjælpe investorer med at overvåge
  • Prognosemetoder Prognosemetoder Topprognosemetoder. I denne artikel vil vi forklare fire typer indtægtsprognosemetoder, som finansielle analytikere bruger til at forudsige fremtidige indtægter.
  • Multipel lineær regression Multipel lineær regression Multipel lineær regression refererer til en statistisk teknik, der bruges til at forudsige resultatet af en afhængig variabel baseret på værdien af ​​uafhængige variabler
  • Tilfældig variabel Tilfældig variabel En tilfældig variabel (stokastisk variabel) er en type variabel i statistik, hvis mulige værdier afhænger af resultatet af et bestemt tilfældigt fænomen