Prosjekt 5
Veke 14 Bootstrap
9.1. Veke 14 Bootstrap
9.1.2 Bootstrap
9.1.3 Kontroll
9.1.4 Eit døme til (Ekstra)
9.1.5 Rekneøving (Ekstra)
Les 14 Frå Frisvold og Moe: Kapittel 14.
Sett at me studerer fordelinga åt vekta til ein bestemt fiskeart. Vekta til ein tilfeldig fisk er ein stokastisk variabel med ei viss sannsynsfordeling. Sett at me har fiska fisk, og målt fylgjande vekter:
Dette er eit utval, med observasjonar av .
Me veit korleis me kan rekna ut utvalsgjennomsnittet og utvalsstandardavviket for dette utvalet.
Utvalsgjennomsnittet vert brukt for å estimera populasjonsgjennomsnittet . Sidan er rekna ut frå observasjonane , er ogso ein observasjon av ein stokastisk variabel som me noterer . Dvs. utvalsgjennomsnittet har ein sannsynsfordeling, og kvar gong me finn gjennomsnittet i eit nytt utval får me ein ny observasjon og som regel eit nytt tal. Me vil (nesten) aldri treffa populasjonsgjennomsnittet akkurat, men som regel vil me treffa nær.
Kor nær me treff avheng av standardavviket åt . Standardavviket åt ein estimator vert òg kalt standardfeilen. Me veit at standardfeilen her er gjeve som
der er standardavviket åt . Me kan estimera standardfeilen som
Dette gjev eit mål for kor presis er som estimator for .
Sett no at me ynskjer å studera standardavviket like djupt som me kan studera . Me har utvalsstandardavviket som estimator for , men korleis kan me estimera standardfeilen åt ?
Med mindre me kjenner den underliggjande sannsynsfordelinga åt finst der inga analytisk løysing på dette. I mange tilfelle må me rett og slett observera mange gongar, slik at me har eit utval å rekna med. Me kan gjenta forsøket gongar, og kvar gong observera eit utval på fisk. For kvart utval kan me rekna ut eit utvalsstandardavvik, slik at me til slutt har observasjonar av . Då kan me rekna ut gjennomsnittet og utvalsstandardavviket .
Problemet med dette er at det er kostbart å samla data. Me treng gongar so mykje data for å estimera standardfeilen for det opprinnelege forsøket. Bootstrap er ei vanleg løysing som går ut på å simulera gjentakne utval basert på det eine opprinnelege utvalet.
For å laga eit bootstrap-utval, trekk me 20 tilfeldige fisk frå det fyrste utvalet med tilbakelegging; dvs. same måling kan verta utvald fleire gongar. Dersom det opprinnelege utvalet er representativt for populasjonen, so har bootstrap-utvalet òg ei rimeleg sannsynsfordeling.
I dette bootstrap-utvalet finn me og . Gjentek med dette eksperimentet gongar, kan me få eit utval med observasjonar av , og rekna ut utvalsstandardavviket for utvalet av observasjonar av , og bruka det som estimat for standardfeilen ved estimering av .
Bootstrap er mykje rekning og vert sjelden gjort for hand. Det er ei typisk simuleringsøving, og enkelt å gjera på maskin.
9.1.1. Forundersøking
Oppgåve 9.1 Last ned bootstrapgen.m, som du skal bruka til å laga syntetiske datasett.
Oppgåve 9.3 Lag eit histogram over datasettet X. Bruk minst 20 søyler for å få eit godt inntrykk av fordelinga.
Oppgåve 9.4 Prøv å tippa på gjennomsnittet og utvalsstandardavviket på augamål frå histogrammet. Kva verdiar vil du venta å finna når du startar å rekna?
Oppgåve 9.5 Bruk Matlab til å rekna ut gjennomsnittet og utvalsstandardavviket for X.
9.1.2. Bootstrap
No skal me analysera standardavviket i dømet over vha. bootstrap.
Oppgåve 9.6 Estimer standardfeilen for gjennomsnittet i datasettet X over.
Oppgåve 9.7 Lag ein matlabfunksjon som tek eit utval X som argument, og returnerer eit bootstrap-utval med same storleik. Test funksjonen på datasettet X som du har brukt over. Finn og for bootstrap-utvalet. Ser tala fornuftige ut?
Oppgåve 9.8 Skriv ein funksjon som genererer bootstrap-utval frå det same datasettet X og reknar ut utvalsstandardavviket kvar gong. Returverdien skal vera ein matrise (vektor) med observasjonar av .
Oppgåve 9.9 Test funksjonen frå forrige oppgåve på datasettet X, og lag eit datasett S med observasjonar av . Vel sjølv. Plott S i eit histogram.
9.1.3. Kontroll
Får å validera bootstrap som metode, skal me no gjenta oppgåvene 9.8–9.10 med ein liten variasjon. I staden for å generera bootstrap-utval skal me generera «ekte» utval ved hjelp av bootstrapgen.m.
Oppgåve 9.11 Skriv ein funksjon som genererer utval vha. bootstrapgen.m, kvart med observasjonar. Rekn ut utvalsstandardavviket for kvart utval og returner ein matrise med observasjonar av .
Oppgåve 9.12 Test funksjonen frå forrige oppgåve og lag eit datasett S2 med observasjonar av . Bruk same som i oppgåve 9.9. Plott S2 i eit histogram.
Oppgåve 9.13 Rekn ut gjennomsnitt og utvalsstandardavviket for datasettet S2.
9.1.4. Eit døme til (Ekstra)
Oppgåve 9.14 Sjå på datasettet som me brukte som døme i starten:
Estimer standardavviket og standardfeilen for estimatoren vha. bootstrap.
9.1.5. Rekneøving (Ekstra)
Oppgåve 9.15 Ta utgangspunkt i fylgjande datasett:
Svar på fylgjande
- 1.
- Estimer standardavviket for populasjonen. (Punktestimat er tilrekkeleg.)
- 2.
- Vis korleis du bruker bootstrap for å estimera standardfeilen for estimatoren du brukte over.
Oppgåve 9.16 Eksamen våren 2015, oppgåve 1.
Oppgåve 9.17 Eksamen våren 2015, oppgåve 7 og 9.
Oppgåve 9.18 Eksamen våren 2015, oppgåve 5 og 6.