Bagging (Bootstrap Aggregation) - Oversigt, hvordan det fungerer, fordele

Ensemblerindlæring kan primært kategoriseres i bagging og boosting. Poseteknikken er nyttig til både regression og statistisk klassificering. Bagging bruges sammen med beslutningstræer, hvor det markant øger modellernes stabilitet i reduktion af varians og forbedrer nøjagtighed, hvilket eliminerer udfordringen ved overmontering.

Bagging

Figur 1. Flow bagging (Bootstrap Aggregation). Kilde

Bagging i ensemble-maskinindlæring tager flere svage modeller, der samler forudsigelserne for at vælge den bedste forudsigelse. De svage modeller er specialiserede i forskellige dele af funktionsområdet, hvilket gør det muligt at forudsige bagage-gearing fra hver model for at nå det største formål.

Hurtig su mmary

  • Bagging og boosting er de to vigtigste metoder til ensemble maskinindlæring.
  • Bagging er en ensemblemetode, der kan bruges i regression og klassificering.
  • Det er også kendt som bootstrap-aggregering, som danner de to klassifikationer for bagging.

Hvad er Bootstrapping?

Bagging består af to dele: aggregering og bootstrapping. Bootstrapping er en prøvetagningsmetode, hvor en prøve vælges ud af et sæt ved hjælp af erstatningsmetoden. Læringsalgoritmen køres derefter på de valgte prøver.

Bootstrapping-teknikken bruger sampling med erstatninger for at gøre udvælgelsesproceduren helt tilfældig. Når en prøve vælges uden erstatning, afhænger de efterfølgende valg af variabler altid af de tidligere valg, hvilket gør kriterierne ikke-tilfældige.

Hvad er aggregering?

Model forudsigelser gennemgår aggregering for at kombinere dem til den endelige forudsigelse for at overveje alle mulige resultater. Aggregeringen kan udføres baseret på det samlede antal resultater eller på sandsynligheden for forudsigelser, der stammer fra bootstrapping af hver model i proceduren.

Hvad er en ensemble metode?

Både bagging og boosting udgør de mest fremtrædende ensemble-teknikker. En ensemblemetode er en maskinlæringsplatform, der hjælper flere modeller i træning ved hjælp af den samme læringsalgoritme. Ensemblemetoden er deltager i en større gruppe af multiklassifikatorer.

Multi-klassifikatorer er en gruppe af flere elever, der løber ind i tusinder med et fælles mål, der kan smelte og løse et fælles problem. En anden kategori af multiklassifikatorer er hybridmetoder. Hybridmetoderne bruger et sæt elever, men i modsætning til multiklassifikatorerne kan de bruge forskellige læringsmetoder.

Læring står over for flere udfordringer, såsom fejl, der hovedsageligt skyldes bias, støj og varians. Nøjagtigheden og stabiliteten af ​​maskinindlæring er garanteret af ensemble-metoder såsom bagging og boosting. Flere kombinationer af klassifikatorer reducerer varians, især hvor klassifikatorer er ustabile, og de er vigtige for at præsentere mere pålidelige resultater end en enkelt klassifikator.

Anvendelsen af ​​enten bagging eller boosting kræver først valg af en baselæringsalgoritme. For eksempel, hvis man vælger et klassificeringstræ, ville boosting og bagging være en pulje af træer med en størrelse svarende til brugerens præference.

Fordele og ulemper ved bagging

Tilfældig skov Tilfældig skov Tilfældig skov er en teknik, der bruges i modellering af forudsigelser og adfærdsanalyse og er bygget på beslutningstræer. En tilfældig skov indeholder mange beslutningstræer er en af ​​de mest populære sækkealgoritmer. Bagging giver fordelen ved at lade mange svage elever kombinere indsatsen for at overgå en enkelt stærk elev. Det hjælper også med at reducere variansen, hvorfor eliminering af overfitting Overfitting Overfitting er et udtryk, der bruges i statistik, der refererer til en modelleringsfejl, der opstår, når en funktion svarer for tæt på et bestemt datasæt af modeller i proceduren.

En ulempe ved sække er, at den indfører et tab af fortolkningsevne for en model. Den resulterende model kan opleve masser af bias, når den korrekte procedure ignoreres. På trods af at sække er meget nøjagtige, kan det være beregningsmæssigt dyrt, og dette kan modvirke dets anvendelse i visse tilfælde.

Bagging vs Boosting

Den bedste teknik, der skal bruges mellem bagging og boosting, afhænger af de tilgængelige data, simulering og eventuelle eksisterende forhold på det tidspunkt. Et estimats varians reduceres signifikant ved indpakning og boostingsteknikker under kombinationsproceduren, hvorved nøjagtigheden øges. De opnåede resultater viser derfor højere stabilitet end de individuelle resultater.

Når en begivenhed udfordrer den lave ydeevne, vil baggingsteknikken ikke resultere i en bedre bias. Imidlertid genererer boostingsteknikken en samlet model med lavere fejl, da den koncentrerer sig om optimering af fordele og reduktion af mangler i en enkelt model.

Når udfordringen i en enkelt model er overmontering, fungerer posemetoden bedre end boosteteknikken. Boosting står over for udfordringen med at håndtere overmontering, da det kommer med overmontering i sig selv.

Relaterede målinger

Finance tilbyder Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certificering Deltag i 350.600+ studerende, der arbejder for virksomheder som Amazon, JP Morgan og Ferrari-certificeringsprogram for dem, der ønsker at tage deres karriere til det næste niveau. For at fortsætte med at lære og udvikle din videnbase, bedes du udforske de yderligere relevante finansressourcer nedenfor:

  • Cluster Sampling Cluster Sampling I statistikker er cluster sampling en prøvetagningsmetode, hvor hele undersøgelsens population er opdelt i eksternt homogen, men internt
  • Overtillid Bias Overtillid bias Overtillid bias er en falsk og vildledende vurdering af vores færdigheder, intellekt eller talent. Kort sagt er det en egoistisk overbevisning om, at vi er bedre, end vi faktisk er. Det kan være en farlig bias og er meget produktiv inden for adfærdsmæssig finansiering og kapitalmarkeder.
  • Regressionsanalyse Regressionsanalyse Regressionsanalyse er et sæt statistiske metoder, der anvendes til estimering af sammenhænge mellem en afhængig variabel og en eller flere uafhængige variabler. Det kan bruges til at vurdere styrken af ​​forholdet mellem variabler og til modellering af det fremtidige forhold mellem dem.
  • Tidsserie-dataanalyse Tidsserie-dataanalyse Tidsserie-dataanalyse er analysen af ​​datasæt, der ændres over en periode. Tidsseriedatasæt registrerer observationer af den samme variabel over forskellige tidspunkter. Finansanalytikere bruger tidsseriedata såsom aktiekursbevægelser eller en virksomheds salg over tid