Ensemblemetoder - Oversigt, kategorier, hovedtyper

Ensemblemetoder er teknikker, der sigter mod at forbedre nøjagtigheden af resultaterne i modeller ved at kombinere flere modeller i stedet for at bruge en enkelt model. De kombinerede modeller øger nøjagtigheden af resultaterne markant. Dette har øget populariteten af ensemblemetoder i maskinindlæring.

Hurtigt resume

Ensemblemetoder sigter mod at forbedre forudsigeligheden i modeller ved at kombinere flere modeller for at gøre en meget pålidelig model.
De mest populære ensemblemetoder er boosting, bagging og stacking.
Ensemblemetoder er ideelle til regression og klassificering, hvor de reducerer bias og varians for at øge nøjagtigheden af modeller.

Kategorier af ensemblemetoder

Ensemblemetoder falder i to brede kategorier, dvs. sekventielle ensembleteknikker og parallelle ensembleteknikker. Sekventielle ensembleteknikker genererer baselever i en sekvens, fx Adaptive Boosting (AdaBoost). Den sekventielle generation af baselærere fremmer afhængigheden mellem baselærerne. Modelens ydeevne forbedres derefter ved at tildele højere vægte til tidligere vildledende elever.

I parallelle ensembleteknikker genereres baselever i et parallelt format, f.eks. Tilfældig skov Tilfældig skov Tilfældig skov er en teknik, der bruges i modellering af forudsigelser og adfærdsanalyse og er bygget på beslutningstræer. En tilfældig skov indeholder mange beslutningstræer. Parallelle metoder bruger den parallelle generation af baselærere til at tilskynde til uafhængighed mellem basislærerne. Basiselevanders uafhængighed reducerer signifikant fejlen på grund af anvendelsen af gennemsnit.

Størstedelen af ensembleteknikker anvender en enkelt algoritme i basisindlæring, hvilket resulterer i homogenitet hos alle basiselever. Homogene baselever refererer til baselever af samme type med lignende kvaliteter. Andre metoder anvender heterogene baselever, hvilket giver anledning til heterogene ensembler. Heterogene baselever er elever af forskellige typer.

Hovedtyper af ensemblemetoder

1. Bagging

Bagging, den korte form for sammenlægning af bootstrap, anvendes hovedsageligt i klassificering og regression Regressionsanalyse Regressionsanalyse er et sæt statistiske metoder, der anvendes til estimering af sammenhænge mellem en afhængig variabel og en eller flere uafhængige variabler. Det kan bruges til at vurdere styrken af forholdet mellem variabler og til modellering af det fremtidige forhold mellem dem. . Det øger nøjagtigheden af modeller ved brug af beslutningstræer, hvilket i vid udstrækning reducerer variansen. Reduktion af varians øger nøjagtigheden og eliminerer dermed overmontering, hvilket er en udfordring for mange forudsigelige modeller.

Bagging klassificeres i to typer, dvs. bootstrapping og aggregering. Bootstrapping er en prøvetagningsteknik, hvor prøver stammer fra hele populationen (sæt) ved hjælp af udskiftningsproceduren. Prøveudtagningen med udskiftningsmetoden hjælper med at gøre udvælgelsesproceduren randomiseret. Basisindlæringsalgoritmen køres på prøverne for at fuldføre proceduren.

Aggregering i bagning sker for at inkorporere alle mulige resultater af forudsigelsen og randomisere resultatet. Uden sammenlægning vil forudsigelser ikke være korrekte, fordi alle resultater ikke tages i betragtning. Aggregeringen er derfor baseret på sandsynligheden for bootstrapping-procedurer eller på basis af alle resultater af de prædiktive modeller.

Bagging er fordelagtigt, da elever med svag base kombineres til en enkelt stærk elev, der er mere stabil end enkeltelever. Det eliminerer også enhver varians, hvilket reducerer overmontering af modeller. En begrænsning ved sække er, at det er beregningsmæssigt dyrt. Således kan det føre til mere bias i modeller, når den korrekte fremgangsmåde til sække ignoreres.

2. Boosting

Boosting er en ensembleteknik, der lærer af tidligere forudsigelsesfejl for at komme med bedre forudsigelser i fremtiden. Teknikken kombinerer flere elever med svag base for at danne en stærk elev, hvilket forbedrer forudsigeligheden af modeller betydeligt. Boosting fungerer ved at arrangere svage elever i en sekvens, således at svage elever lærer af den næste elev i sekvensen for at skabe bedre forudsigelige modeller.

Boosting har mange former, som inkluderer gradient boosting, Adaptive Boosting (AdaBoost) og XGBoost (Extreme Gradient Boosting). AdaBoost gør brug af svage elever, der er i form af beslutningstræer, som for det meste inkluderer en split, der populært kaldes beslutningstubber. AdaBoosts vigtigste beslutningsstub omfatter observationer, der bærer lignende vægte.

Gradient boosting Gradient Boosting Gradient boosting er en teknik, der bruges til at skabe modeller til forudsigelse. Teknikken bruges mest i regressions- og klassificeringsprocedurer. tilføjer forudsigere sekventielt til ensemblet, hvor foregående forudsigere korrigerer deres efterfølgere og derved øger nøjagtigheden af modellen. Nye forudsigere er egnede til at imødegå virkningerne af fejl i de tidligere forudsigere. Gradient af afstamning hjælper gradientbooster med at identificere problemer i elevernes forudsigelser og imødegå dem i overensstemmelse hermed.

XGBoost bruger beslutningstræer med forstærket gradient, hvilket giver forbedret hastighed og ydeevne. Det er stærkt afhængig af beregningshastigheden og målmodelens ydeevne. Modeluddannelse skal følge en sekvens og dermed gøre implementeringen af gradientforstærkede maskiner langsom.

3. stabling

Stacking, en anden ensemblemetode, kaldes ofte stablet generalisering. Denne teknik fungerer ved at lade en træningsalgoritme samle flere andre lignende forudsigelser for indlæringsalgoritme. Stacking er med succes implementeret i regression, tæthedsestimater, fjernundervisning og klassifikationer. Det kan også bruges til at måle den fejlprocent, der er involveret under sække.

Variansreduktion

Ensemblemetoder er ideelle til at reducere variansen i modeller og derved øge nøjagtigheden af forudsigelser. Variansen elimineres, når flere modeller kombineres for at danne en enkelt forudsigelse, der vælges blandt alle andre mulige forudsigelser fra de kombinerede modeller. Et ensemble af modeller er handlingen ved at kombinere forskellige modeller for at sikre, at den resulterende forudsigelse er den bedst mulige, baseret på hensynet til alle forudsigelser.

Yderligere ressourcer

Finance er den officielle udbyder af den globale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -certificering Certified Banking & Credit Analyst (CBCA) ™ -akkreditering er en global standard for kreditanalytikere, der dækker finansiering, regnskab, kreditanalyse, cash flow-analyse , modellering af pagter, tilbagebetaling af lån og mere. certificeringsprogram designet til at hjælpe alle med at blive en finansanalytiker i verdensklasse. For at fortsætte din karriere vil de yderligere finansressourcer nedenfor være nyttige:

Elastiknet Elastiknet Elastisk net benytter lineært sanktionerne fra både lasso- og rygteknikker til at regulere regressionsmodeller. Teknikken kombinerer både lasso og
Overfitting Overfitting Overfitting er et udtryk, der bruges i statistik, der refererer til en modelleringsfejl, der opstår, når en funktion svarer for tæt på et bestemt datasæt
Skalerbarhed Skalerbarhed Skalerbarhed kan falde i både økonomiske og forretningsstrategiske sammenhænge. I begge tilfælde står det for enhedens evne til at modstå pres fra
Spoofing Spoofing Spoofing er en forstyrrende algoritmisk handelspraksis, der involverer afgivelse af bud til køb eller tilbud om at sælge futureskontrakter og annullering af bud eller tilbud inden aftalens udførelse. Praksis har til formål at skabe et falsk billede af efterspørgsel eller falsk pessimisme på markedet.