Thursday, 12 October 2017

Moving Gjennomsnittet Autocovariance


Autokorrelasjonsfunksjon Merk at 0 er variansen i den stokastiske prosessen. Autokovariansfunksjonen ved lag k. for k 0, av tidsseriene er definert av Autokorrelasjonsfunksjonen (ACF) ved lag k. for k 0, av tidsserien er definert av Variansen av tidsserien er r 0. Et plot av rk mot k er kjent som et korrelogram. Observasjon. Definisjonen av autokovarians gitt ovenfor er litt forskjellig fra den vanlige definisjonen av kovarians mellom 1. , y n-k og k 1. , y n på to måter: (1) vi deler med n i stedet for nk og vi trekker totalt gjennomsnittet i stedet for middelene til 1. , y n-k og k 1. , henholdsvis y n. For verdier av n som er store med hensyn til k. forskjellen vil være liten. Eksempel 1. Beregn s 2 og r 2 for dataene i område B4: B19 i figur 1. Figur 1 ACF ved lag 2 Formlene for beregning s 2 og r 2 ved hjelp av de vanlige COVARIANCE. S og CORREL-funksjonene er vist i celler G4 og G5. Formlene for s 0. s 2 og r 2 fra definisjon 2 er vist i celler G8, G11 og G12 (sammen med en alternativ formel i G13). Vær oppmerksom på at verdiene for s 2 i cellene E4 og E11 ikke er så forskjellige, som verdiene for R2 som er vist i celler E5 og E12, desto større er prøven, desto mer sannsynlig vil disse verdiene være like Real Statistics Function. Ressurspakken for reell statistikk leverer følgende funksjoner: ACF (R1, k) ACF-verdien ved lag k for tidsseriene i rekkevidde R1 ACVF (R1, k) Autovarians ved lag k for tidsseriene i område R1 Merk at ACF (R1, k) er ekvivalent med SUMPRODUCT (OFFSET (R1,0,0, COUNT (R1) - k) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - k) )) DEVSQ (R1) Observasjon. Det er teoretiske fordeler for å bruke divisjon med n i stedet for nk i definisjonen av s k. nemlig at kovarians - og korrelasjonsmatrisene alltid vil være bestemte ikke-negative (se Positive Definite Matrices). Observasjon. Selv om definisjonen av autokorrelasjon er litt forskjellig fra korrelasjonsforhold, tar k (eller r k) fortsatt en verdi mellom -1 og 1, som vi ser i Egenskap 2. Eksempel 2. Bestem ACF for lag 1 til 10 for Dow Jones avsluttende gjennomsnitt for oktober 2015, som vist i kolonne A og B i figur 2 og konstruer korresponderende korrelogram. Resultatene er vist i figur 2. Verdiene i kolonne E beregnes ved å plassere formelen ACF (B4: B25, D5) i celle E5, markere område E5: E14 og trykke Ctrl-D. Figur 2 ACF og korrelogram Som det kan ses fra verdiene i kolonne E eller diagrammet, går ACF-verdiene sakte ned mot null. Dette er typisk for en autoregressiv prosess. Observasjon. En tommelfingerregel er å utføre ovennevnte prosess for lag 1 til n 3 eller n 4, som for de ovennevnte dataene er 224 6 eller 223 7. Vårt mål er å se om ACF er av denne tiden betydelig (dvs. statistisk forskjellig fra null). Vi kan gjøre dette ved å bruke følgende eiendom. Eiendom 3 (Bartlett): I store prøver, hvis en tidsserie av størrelse n er rent tilfeldig, så for alle k Eksempel 3. Bestem om ACF ved lag 7 er signifikant for dataene fra eksempel 2. Som vi kan se fra figur 3, er kritisk verdi for testen i egenskap 3, .417866. Siden r 7, 303809 lt. 417866, konkluderer vi at det ikke er vesentlig forskjellig fra null. Figur 3 Bartletts Test Merk at verdier på k opp til 5 er signifikante og de høyere enn 5 er ikke signifikante. En mer statistisk kraftig versjon av Bolig 4, spesielt for mindre prøver, gis av den neste eiendommen. Eksempel 4. Bruk boksen Pierce og Ljung-Box statistikk for å avgjøre om ACF verdiene i eksempel 2 er statistisk lik null for alle lag mindre enn eller lik 5 (null hypotesen). Resultatene er vist i figur 4. Figur 4 Box-Pierce og Ljung-Box Tests Vi ser fra disse testene at ACF (k) er signifikant forskjellig fra null for minst en k 5, som er i samsvar med korrelogrammet i figur 2. Virkelige statistikkfunksjoner. Real Statistics Resource Pack gir følgende funksjoner for å utføre testene beskrevet av de ovennevnte egenskapene. BARTEST (r, n, lag) p-verdi av Bartletts test for korrelasjonskoeffisient r basert på en tidsserie av størrelse n for det angitte lag. BARTEST (R1, lag) BARTEST (r, n, lag) hvor n antall elementer i område R1 og r ACF (R1, lag) PIERCE (R1 ,, lag) Box-Pierce statistikk Q for område R1 og spesifisert lag BPTEST (R1 ,, lag) p-verdi for Box-Pierce-testen for område R1 og det angitte lag LJUNG (R1 ,, lag) Ljung-Box statistikk Q for område R1 og spesifisert lag LBTEST (R1 ,, lag) p - verdien for Ljung-Box-testen for område R1 og det angitte lagret I de ovennevnte funksjonene der det andre argumentet mangler, utføres testen med autokorrelasjonskoeffisienten (ACF). Hvis verdien som tildeles i stedet er 1 eller pacf, utføres testen med den delvise autokorrelasjonskoeffisienten (PACF) som beskrevet i neste avsnitt. Egentlig hvis det andre argumentet tar noen verdi unntatt 1 eller pacf, blir ACF-verdien brukt. F. eks BARTEST (.303809,22,7) .07708 for eksempel 3 og LBTEST (B4: B25, acf, 5) 1,81E-06 for eksempel 4.GEOS 585A, anvendt tidsserieanalyse Telefon: (520) 621-3457 Faks: (520) 621-8229 Kontortid Fredag ​​1: 00-6: 00 PM (vennligst send epost til planlagt møte) Kursbeskrivelse Analyseverktøy i tid - og frekvensdomenene blir introdusert i sammenheng med prøve tidsserier. Jeg bruker et datasett av prøve tidsserier for å illustrere metoder, og endre datasett hvert semester kurset tilbys. I år kommer prøvedatabasen fra et NSF-prosjekt på snøscootervariabilitet i American River Basin of California. Dette datasettet inneholder trekringschronologier, klimaindekser, strømningsrekord og tidsserier av snøvannekvivalenter målt på snøbanestasjoner. Du vil sette sammen dine egne tidsserier for bruk i kurset. Disse kan være fra ditt eget forskningsprosjekt. Tilbake til toppen av siden Dette er et innledende kurs, med vekt på praktiske aspekter av tidsserieanalyse. Metoder er hierarkisk introdusert - starter med terminologi og utforskende grafikk, flyttes til beskrivende statistikk, og slutter med grunnleggende modelleringsprosedyrer. Emner inkluderer detrending, filtrering, autoregressiv modellering, spektralanalyse og regresjon. Du bruker de første to ukene til å installere Matlab på din bærbare datamaskin, få en grunnleggende introduksjon til Matlab, og sette sammen datasettet av tidsserier for kurset. Tolv emner, eller leksjoner er da dekket, hver tildelt en uke eller to klasseperioder. Tolv klasseoppgaver går sammen med emnene. Oppgaver består av å anvende metoder ved å kjøre forhåndskrevne Matlab-skript (programmer) på tidsseriene og tolke resultatene. Kurset er 3 studiepoeng for studenter på campus ved University of Arizona i Tucson, og 1 studiepoeng for nettstudenter. Eventuelle tidsserier med konstant tidsforhøyelse (f. eks. Dag, måned, år) er en kandidat til bruk i kurset. Eksempler er daglige nedbørsmålinger, sesongmessig total strømning, sommermiddelluftemperatur, årlige indekser av trevekst, indekser for sjøoverflatetemperatur og den daglige høyden for en busk. Som et resultat av å ta kurset, bør du: forstå grunnleggende tidsserier konsepter og terminologi være i stand til å velge tidsserie metoder som er hensiktsmessige til mål å kunne kritisk evaluere vitenskapelig litteratur som bruker tidsserie metoder dekket har bedre forståelse av tidsserie egenskaper av din eget datasett kunne kortfattet oppsummere resultatene av tidsserieanalysen skriftlig Forutsetninger Et introduksjonsstatistikkkurs Tilgang til en bærbar datamaskin med evne til å ha Matlab installert på den Tillatelse fra instruktøren (undergraduate og online studenter) Andre krav Hvis du er på et universitet i Arizona (UA) student på campus i Tucson, har du tilgang til Matlab og nødvendige verktøykasser via et UA-nettstedslisens som ingen kostnadsprogramvare. Ingen tidligere erfaring med Matlab er nødvendig, og dataprogrammering er ikke en del av kurset. Hvis du er online, ikke på campus på UA, vil du kunne ta kurset i vår 2017 semester som en iCourse. Du må sørge for at du har tilgang til Matlab og de nødvendige verktøykassaene (se nedenfor) på ditt sted. Tilgang til internett. Det er ingen papirutveksling i kurset. Notater og oppgaver blir utvekslet elektronisk og gjennomførte oppgaver sendes elektronisk via University of Arizona Desire2Learn (D2L) - systemet. Matlab versjon. Jeg oppdaterer skript og funksjoner nå og da ved hjelp av gjeldende nettstedslisensutgave av Matlab, og oppdateringene kan bruke Matlab-funksjoner som ikke er tilgjengelige i tidligere Matlab-utgivelser. For 2017 bruker jeg Matlab versjon 9.1.0.441655 (R2016b). Hvis du bruker en tidligere utgave, må du kontrollere at det er Matlab Release 2007b eller høyere. I tillegg til de viktigste Matlab-pakken, brukes fire verktøykasser: Statistikk, Signalbehandling, Systemidentifikasjon, og enten Spline (Matlab Release 2010a eller tidligere), eller Kurvefitting (Matlab Release 2010b eller senere) Tilgjengelighet Kurset tilbys i vårsemester hvert annet år (2015, 2017, etc.). Det er åpent for studenter og kan også bli tatt av bachelor seniorer med tillatelse fra instruktøren. Registrering av bosatte UA-studenter er avkortet til 18 for vårferie 2017. Et lite antall nettstudenter har også vanligvis blitt innkvartert ved å tilby kurset på ulike måter. Måten nå er iCourse-lokalet beskrevet ovenfor. Tilbake til toppen av siden Kursoversikt (leksjoner) Tidsplanen lar vanligvis om to uker for å samle data og bli kjent med Matlab. Deretter er en uke (to klasseperioder) viet til hver av de 12 leksjonene eller emnene. Klassen møtes tirsdag og torsdag. Et nytt emne blir introdusert tirsdag, og fortsetter påfølgende torsdag. Torsdagsklassen slutter med en oppgave og en demonstrasjon av å kjøre skriptet på mine prøvedata. Oppdraget er forfalt (må lastes opp av deg til D2L) før klassen følgende tirsdag. Den første 12 timers tirsdagsklasse brukes til veiledning av selvbedømmelse og gradering av oppdraget og opplasting av vurderte (graderte) oppgaver til D2L. De resterende 45 minuttene brukes til å introdusere neste emne. Du må ta med din bærbare til klassen på tirsdager. De 12 leksjonene eller emnene som er dekket av kurset er oppført i klassebeskrivelsen. Nettstudenter forventes å følge samme tidsplan for innlevering av oppdrag som hjemmehørende studenter, men har ikke tilgang til forelesningene. Innleverte oppgaver av elektroniske studenter er ikke selvbestemte, men er gradert av meg. Nettstudenter skal ha tilgang til D2L for innlevering av oppgaver. Vår 2017 semester. Klasse møtes to ganger i uken i 75 minutters økter, 9: 00-10: 15 TTh, i rom 424 (Konferanserom) av Bryant Bannister Tree-Ring Building (bygning 45B). Den første dagen i klassen er jan 12 (torsdag). Den siste dagen i klassen er 2. mai (tirsdag). Det er ingen klasse i løpet av uken av Spring Break (11-19 mars). Du analyserer data av eget valg i klassetildelingene. Som nevnt i kursoversikten. Det er mye fleksibilitet i valg av tidsserier. Jeg vil lage en katalog over passende tidsserier tilgjengelig, men det er best å fokusere kurset på ditt eget datasett. Den første oppgaven innebærer å kjøre et skript som lagrer dataene og metadataene du har samlet i matfilen, det opprinnelige formatet til Matlab. Etterfølgende oppdrag tegner data fra matfilen for tidsserieanalyse. Oppgaver De 12 emnene behandles sekventielt i løpet av semesteret, som dekker ca 15 uker. Om de første to ukene (4-5 klassemøter) brukes det noen introduksjonsmateriale, bestemmer seg for og samler tidsseriene, og klargjør Matlab på den bærbare datamaskinen. Hver uke etter det er viet til en av de 12 emnene. Hver oppgave består i å lese et kapittel med notater, kjører et tilhørende Matlab-skript som bruker utvalgte metoder for tidsserieanalyse til dataene dine, og skriver opp tolkningen av resultatene. Oppgaver krever forståelse av forelesningsemner samt evne til å bruke datamaskinen og programvaren. Du sender inn oppgaver ved å laste dem opp til D2L før tirsdagskursen når neste emne blir introdusert. Den første halvtime av den tirsdagsklassen brukes til veiledning av selvoppgave av oppgaven, inkludert opplasting av selvoppgraderte pdfs til D2L. Jeg sjekker en eller flere av de selvoppgraderte oppgavene hver uke (ved tilfeldig utvalg), og kan endre karakteren. For å finne ut hvordan du får tilgang til oppgaver, klikk på oppdragsfiler. Lesingene består av notater. Det er tolv sett med. pdf notater filer. en for hvert emne. Disse. pdf-filene kan nås via nettet. Mer informasjon om de ulike emnene som er dekket i kurset, finner du ved hjelp av referanser som er oppført på slutten av hvert kapittel i notater. Karakterene er helt basert på ytelse på oppgavene, som hver er verdt 10 poeng. Det er ingen eksamener. Det totale antall mulige poeng for de 12 emnene er 12 x 10 120. En karakter på A kreves 90-100 prosent av mulige poeng. En klasse på B krever 80-90 prosent. En klasse på C krever 70-80 prosent, og så videre. Karakterene tilordnes ved selvvurdering styrt av en rubrik presentert i klassen. Antall poeng opptjent skal merkes øverst på hver karakterisert oppgave. Oppgavens oppgave skal inneholde annotasjon av eventuelle markdowns med henvisning til et rubrikpunkt som er illustrert i klassen (f. eks. -0,5, rp3 angir fradrag på -0,5 på grunn av en feil relatert til rubrik punkt 3). Oppgaver, gitt i klassen på torsdag, vil Forfaller (opplastet til D2L av deg) før starten av klassen følgende tirsdag. Den første halvtimen på tirsdagens møteperiode vil bli dedikert til presentasjon av en klassifisering, selvvurdering av gjennomførte oppgaver og opplasting av selvoppgraderte oppgaver til D2L. Denne timeplanen gir deg 4 dager å fullføre og laste opp oppdraget til D2L før kl. 9.00 tirsdag. D2L holder oversikt over tidspunktet for oppdraget ble lastet opp, og ingen straff er vurdert så lenge den lastes opp før 9:00 på tirsdag for forfallsdato. Hvis du har noen planlagte behov for å være borte fra klassen (f. eks. Oppmøte på en konferanse), er du ansvarlig for opplasting av oppdraget ditt før klokken 09:00 tirsdag den forfaller, og for opplasting av selvgradert versjon kl. 10:15 den samme dagen. Med andre ord, timeplanen er den samme som for elevene som er i klassen. Hvis en nødsituasjon kommer opp (for eksempel får du influensa) og kan ikke gjøre oppdraget eller vurderingen på skjema, vennligst send meg en e-post, og vi vil nå noen overnatting. Ellers vil en straff på 5 poeng (halvparten av de totale tilgjengelige poengene for øvelsen) bli vurdert. Introduksjon til tidsserier organisering av data for analyse En tidsserie er bredt definert som hvilken som helst serie av målinger tatt på forskjellige tidspunkter. Noen grunnleggende beskrivende kategorier av tidsserier er 1) lang vs kort, 2) selv tids-trinn vs ujevnt tidsrom, 3) diskret vs kontinuerlig, 4) periodisk vs aperiodisk, 5) stasjonær vs ikke-stationær, og 6) univariate vs multivariate . Disse egenskapene samt den tidsmessige overlappingen av flere serier må vurderes ved valg av datasett for analyse i dette kurset. Du vil analysere dine egne tidsserier i kurset. De første trinnene er å velge disse seriene og lagre dem i strukturer i en matfil. Enhetlig lagring i utgangspunktet er praktisk for denne klassen, slik at oppmerksomheten da kan fokusere på å forstå tidsserie metoder, snarere feilsøking av datakode for å klargjøre dataene for analyse. En struktur er en Matlab-variabel som ligner på en database ved at innholdet nås av tekstfeltbetegnere. En struktur kan lagre data av forskjellige former. Et felt kan for eksempel være en numerisk tidsseriematriks, en annen kan være tekst som beskriver datakilden osv. I den første oppgaven kjører du et Matlab-skript som leser tidsseriene og metadataene fra ascii tekstfiler du forbereder på forhånd og lagrer dataene i Matlab strukturer i en enkelt matfil. I etterfølgende oppgaver vil du bruke tidsseriemetoder til dataene ved å kjøre Matlab-skript og funksjoner som laster matfilen og opererer på disse strukturene. Velg prøvedata som skal brukes til oppgaver i løpet av kurset. Les: (1) Notes1.pdf, (2) Komme i gang, tilgjengelig fra MATLAB-hjelpemenyen Svar: Kjør script geosa1.m og svar på spørsmålene som er oppført i filen i a1.pdf Slik skiller du kategoriene av tidsserier Slik starter du og avslutter MATLAB Slik skriver du inn MATLAB-kommandoer ved kommandoprompt Slik lager du figurer i figurvindu Slik eksporterer du tall til tekstbehandleren Forskjell mellom MATLAB-skript og funksjoner Slik kjører du skript og funksjoner form av en MATLAB struktur variabel Slik bruker du skriptet geosa1.m for å få et sett med tidsserier og metadata i MATLAB strukturer Sannsynlighetsfordelingen av en tidsserie beskriver sannsynligheten for at en observasjon faller inn i et spesifisert verdierområde. En empirisk sannsynlighetsfordeling for en tidsserie kan nås ved å sortere og rangere verdiene av serien. Kvantiler og prosentiler er nyttig statistikk som kan tas direkte fra den empiriske sannsynlighetsfordelingen. Mange parametriske statistiske tester antar at tidsserien er et utvalg fra en befolkning med en bestemt populasjonssannsynlighetsfordeling. Ofte antas befolkningen å være normal. Dette kapittelet inneholder noen grunnleggende definisjoner, statistikk og plott knyttet til sannsynlighetsfordelingen. I tillegg er det innført en test (Lilliefors test) for å teste om en prøve kommer fra en normal fordeling med uspesifisert gjennomsnitt og varians. Svar: Kjør script geosa2.m og svar på spørsmålene som er oppført i filen i a2.pdf Definisjoner av termer: tidsserier, stasjonar, sannsynlighetstetthet, distribusjonsfunksjon, kvantilstand, spredning, plassering, gjennomsnitt, standardavvik og skjevhet. Hvordan tolke mest verdifulle grafikk i tidsserieanalyse - tidsseriens plot Hvordan tolke boksplot, histogram og normal sannsynlighetsdiagram Parametre og form av normalfordeling Lilliefors test for normalitet: grafisk beskrivelse, antagelser, null og alternative hypoteser Hensyn til tolkning av signifikansnivåer av statistiske tester når tidsserier ikke er tilfeldige i tid Hvordan søke geosa2.m for å sjekke distribusjonsegenskapene til en tidsserie og teste serien for normalitet Autokorrelasjon refererer til korrelasjonen av en tidsserie med egne fortid og fremtidige verdier. Autokorrelasjon kalles også noen ganger forsinket korrelasjon eller seriell korrelasjon. som refererer til sammenhengen mellom medlemmer av en rekke tall som er arrangert i tide. Positiv autokorrelasjon kan betraktes som en bestemt form for utholdenhet. en tendens til at et system forblir i samme tilstand fra en observasjon til den neste. For eksempel er sannsynligheten for at morgenen blir regnfull, større hvis det i dag er regnfull enn om det i dag er tørt. Geofysiske tidsserier er ofte autokorrelert på grunn av inerti eller overføringsprosesser i det fysiske systemet. For eksempel kan de langsomt utviklende og bevegelige lavtrykkssystemene i atmosfæren gi utholdenhet til daglig nedbør. Eller den langsomme dreneringen av grunnvannsreserver kan føre til korrelasjon til suksessive årlige strømmer av en elv. Eller lagrede fotosyntater kan gi sammenheng med suksessive årlige verdier av tre-ring-indekser. Autokorrelasjon kompliserer anvendelsen av statistiske tester ved å redusere antall uavhengige observasjoner. Autokorrelasjon kan også komplisere identifiseringen av signifikant kovarians eller korrelasjon mellom tidsserier (for eksempel utfelling med en treringsserie). Autokorrelasjon kan utnyttes for spådommer: En autokorrelert tidsserie er forutsigbar, probabilistisk fordi fremtidige verdier avhenger av nåværende og tidligere verdier. Tre verktøy for å vurdere autokorrelasjonen av en tidsserie er (1) tidsserien, (2) den forsinkede scatterplot, og (3) autokorrelasjonsfunksjonen. Svar: Kjør script geosa3.m og svar på spørsmål som er oppført i filen i a3.pdf Definisjoner: autokorrelasjon, utholdenhet, seriell korrelasjon, autokorrelasjonsfunksjon (acf), autokovariansfunksjon (acvf), effektiv prøvestørrelse Hvordan gjenkjenne autokorrelasjon i tidsseriene plot Hvordan bruke lagged scatterplots for å vurdere autocorrelation Hvordan tolke den plottet acf Hvordan justere prøvestørrelsen for autokorrelasjon Matematisk definisjon av autokorrelasjonsfunksjonen Vilkår som påvirker bredden på det beregnede konfidensbåndet av acf Differansen mellom en ensidig og to - sidig test av signifikant lag-1 autokorrelasjon Hvordan søke geos3.m for å studere autokorrelasjon av en tidsserie Spekteret av en tidsserier er fordelingen av varians av serien som en funksjon av frekvens. Målet med spektralanalyse er å estimere og studere spekteret. Spekteret inneholder ingen ny informasjon utover det i autokovariansfunksjonen (acvf), og faktisk kan spekteret beregnes matematisk ved transformasjon av acvf. Men spektret og ACVF presenterer informasjonen om variansen av tidsseriene fra komplementære synspunkter. Akkumulatoren oppsummerer informasjon i tidsdomene og spekteret i frekvensdomenet. Svar: Kjør script geosa4.m og svar på spørsmål som er oppført i filen i a4.pdf Definisjoner: frekvens, periode, bølgelengde, spektrum, Nyquist-frekvens, Fourier-frekvenser, båndbredde Grunner til analyse av et spektrum Hvordan tolke et plottet spektrum i form av distribusjon av varians Forskjellen mellom et spektrum og et normalisert spektrum Definisjon av forsinkelsesvinduet som brukt til å estimere spekteret ved hjelp av Blackman-Tukey-metoden Hvordan valget av lagvindu påvirker båndbredden og variansen av estimert spektrum Hvordan definerer et hvitt støyspektrum og autoregressivt spektrum Hvordan skisse noen typiske spektrale former: hvit støy, autoregressiv, kvasjonsperiodisk, lavfrekvent, høyfrekvente Hvordan bruke geosa4.m til å analysere spekteret av en tidsserie med Blackman-Tukey-metoden Autoregressive-Moving Gjennomsnittlig (ARMA) modellering Autoregressive-moving-average (ARMA) - modeller er matematiske modeller av persistensen, eller autokorrelasjon, i en tidsserie. ARMA-modeller er mye brukt i hydrologi, dendrochronology, økonometri og andre felt. Det er flere mulige grunner for å tilpasse ARMA-modeller til data. Modellering kan bidra til å forstå det fysiske systemet ved å avsløre noe om den fysiske prosessen som bygger utholdenhet i serien. For eksempel kan en enkel fysisk vannbalansemodell bestående av betingelser for nedbørsproduksjon, fordampning, infiltrering og grunnvannslager vises for å gi en strømstrømserie som følger en bestemt form for ARMA-modell. ARMA-modeller kan også brukes til å forutse atferd av en tidsserie fra tidligere verdier alene. En slik prediksjon kan brukes som en basislinje for å vurdere mulig betydning av andre variabler til systemet. ARMA-modeller er mye brukt til å forutsi økonomiske og industrielle tidsserier. ARMA-modeller kan også brukes til å fjerne utholdenhet. I dendrokronologi, for eksempel, brukes ARMA modellering rutinemessig for å generere gjenværende kronologier tidsserier av ringbreddeindeks uten avhengighet av tidligere verdier. Denne operasjonen, som kalles prewhitening, er ment å fjerne biologisk relatert persistens fra serien, slik at gjenværende kan være mer egnet for å studere påvirkning av klima og andre eksterne miljøfaktorer på trevekst. Svar: Kjør script geosa5.m og svar på spørsmål som er oppført i filen i a5.pdf Funksjonsformen til de enkleste AR - og ARMA-modellene Hvorfor slike modeller refereres til som autoregressive eller bevegelige gjennomsnitt De tre trinnene i ARMA-modellering Diagnostiske mønstre av autokorrelasjon og delvise autokorrelasjonsfunksjoner for en AR (1) tidsserie Definisjon av den endelige prediksjonsfeilen (FPE) og hvordan FPE brukes til å velge en best ARMA-modell Definisjon av Portmanteau-statistikken, og hvordan den og gjenstanden for residualer kan være brukes til å vurdere om en ARMA-modell effektivt modellerer utholdenheten i en serie. Hvordan prinsippet om parsimoni brukes i ARMA-modellering. Definisjon av forvitring. Hvordan prewhitening påvirker (1) utseendet av en tidsserie, og (2) spekteret av en tidsserie Slik bruker du geosa5.m til ARMA-modellen en tidsserie Spektralanalyse - glatt periodogrammetode Det finnes mange tilgjengelige metoder for å estimere spektra av en tidsserie. I leksjon 4 så vi på Blackman-Tukey-metoden, som er basert på Fourier-transformasjon av den glatte, avkortede autokovariansfunksjonen. Den glattede periodogrammetoden omgår transformasjonen av acf ved direkte Fourier-transformasjon av tidsserier og beregning av råperiodogrammet, en funksjon som først ble introdusert på 1800-tallet for studier av tidsserier. Råperiodogrammet glattes ved å bruke kombinasjoner eller spenner av ett eller flere filtre for å produsere estimert spektrum. Glattheten, oppløsningen og variansen av spektralestimatene styres ved valg av filtre. En mer aksentuert utjevning av det rå periodogrammet gir et underliggende jevnt varierende spektrum, eller null kontinuum, mot hvilken spektrale topper kan testes for betydning. Denne tilnærmingen er et alternativ til spesifikasjonen av en funksjonell form for null-kontinuumet (for eksempel AR-spektrum). Svar: Kjør skript geosa6.m og svar på spørsmål som er oppført i filen i a6.pdf Definisjoner: Rå periodogram, Daniell filter, Spenning av filter, null kontinuum jevnhet, Stabilitet og oppløsning av spektrum tapering, polstring, Lekkasje De fire hovedtrinnene i estimering Spekteret ved det glatte periodogrammet Hvordan virkningen av filtervalg spenner over glatthet, stabilitet og oppløsning av spekteret Hvordan null-kontinuum brukes til testing for betydning av spektraltoppene Hvordan bruke geosa6.m for å estimere spekteret av tid serie ved den glatte periodogrammetoden og test for periodicitet ved en spesifisert frekvens. Trend i en tidsserie er en langsom, gradvis endring i noen egenskap av serien over hele intervallet som undersøkes. Trend er noen ganger løst definert som en langsiktig endring i gjennomsnittet (figur 7.1), men kan også referere til endring i andre statistiske egenskaper. For eksempel har tre-ring-serien av målt ringbredde ofte en tendens i varians så vel som gjennomsnittlig (figur 7.2). I tradisjonell tidsserieanalyse ble en tidsserie nedbrutt i trend, sesongmessige eller periodiske komponenter, og uregelmessige svingninger, og de ulike delene ble studert separat. Moderne analyseteknikker behandler ofte serien uten slik rutinemessig dekomponering, men det er ofte nødvendig med separat vurdering av trenden. Detrending er den statistiske eller matematiske operasjonen for å fjerne trenden fra serien. Avhending brukes ofte for å fjerne en funksjon som antas å forvride eller skjule forholdet av interesse. I klimatologi kan for eksempel en temperaturutvikling på grunn av urban oppvarming skjule et forhold mellom skyighet og lufttemperatur. Avhending brukes også noen ganger som et forbehandlingstrinn for å forberede tidsserier for analyse ved hjelp av metoder som antar stasjonar. Mange alternative metoder er tilgjengelige for detrending. Enkel lineær trend i gjennomsnitt kan fjernes ved å subtrahere en rett linje med minst kvadrater. Mer kompliserte trender kan kreve forskjellige prosedyrer. For eksempel brukes den kubiske utjevningssplineen vanligvis i dendrokronologi for å passe og fjerne ringenes bredde som kanskje ikke er lineær, eller ikke engang monotonisk økende eller avtagende over tid. Ved å studere og fjerne trenden er det viktig å forstå effekten av detrending på tidsseriens spektrale egenskaper. Denne effekten kan oppsummeres av frekvensresponsen av avvikende funksjon. Svar: Kjør skript geosa7.m og svar på spørsmål som er oppført i filen i a7.pdf Definisjoner: frekvensrespons, spline, kubisk utjevning spline Fordeler og ulemper med forholdet mot forskjellskonjunktur Fortolkning av termer i ligningen for spline-parameteren Hvordan velge en spline interaktivt fra ønsket frekvensrespons Hvordan spekteret påvirkes av detrending Hvordan måle viktigheten av trendkomponenten i en tidsserie Hvordan bruke geosa7.m for å interaktivt velge en spline-avvikende funksjon og avverge en tidsserie. Det estimerte spektrum av en tid serien gir fordelingen av variansen som en funksjon av frekvensen. Avhengig av formålet med analysen, kan enkelte frekvenser være av større interesse enn andre, og det kan være nyttig å redusere amplitude av variasjoner ved andre frekvenser ved å statistisk filtrere dem ut før du ser og analyserer serien. For eksempel kan høyfrekvente (år til år) variasjoner i en målrettet utslippsregistrering av et vannområde være relativt ubetydelig med vannforsyning i et basseng med store reservoarer som kan lagre flere års gjennomsnittlig årlig avrenning. Hvor lavfrekvensvariasjoner er av hovedinteresse, er det ønskelig å glatte utladningsrekordet for å eliminere eller redusere kortvarige svingninger før bruk av utladningsrekordet for å studere betydningen av klimatiske variasjoner i vannforsyningen. Utjevning er en form for filtrering som produserer en tidsserie hvor betydningen av spektrale komponenter ved høye frekvenser reduseres. Elektriske ingeniører kaller denne typen filter et lavpassfilter, fordi lavfrekvensvariasjonene får passere gjennom filteret. I et lavpasfilter påvirkes lavfrekvente (langvarige) bølger knapt av utjevningen. Det er også mulig å filtrere en serie slik at lavfrekvensvariasjonene blir redusert og høyfrekvensvariasjonene upåvirket. Denne typen filter kalles et høypassfilter. Avhending er en form for høypassfiltrering: Den tilpassede trendlinjen sporer de laveste frekvensene, og residuene fra trendlinjen har hatt de lave frekvensene fjernet. En tredje type filtrering, som kalles bandpass-filtrering, reduserer eller filtrerer ut både høye og lave frekvenser, og etterlater noe mellomfrekvensbånd relativt upåvirket. I denne leksjonen dekker vi flere metoder for utjevning, eller lavpassfiltrering. Vi har allerede diskutert hvordan den kubiske utjevningsspline kan være nyttig for dette formålet. Fire andre typer filtre diskuteres her: 1) Enkel glidende gjennomsnitt, 2) binomial, 3) Gaussisk og 4) Windowing (Hamming metode). Betraktninger ved å velge en type lavpassfilter er ønsket frekvensrespons og spenningen eller bredden av filteret. Svar: Kjør script geosa8.m og svar på spørsmål som er oppført i filen i a8.pdf Definisjoner: filter, filtervekter, filterspenning, lavpassfilter, høypassfilter, filterfilterfrekvensrespons for et filter filteret er relatert til den gaussiske distribusjonen. Hvordan lage et enkelt binomialfilter manuelt (uten datamaskinen). Hvordan beskrive frekvensresponsfunksjonen når det gjelder et system med sinusformet inngang og utgang. Hvordan bruke geosa8.m til å interagere designe en gaussisk, binomial eller Hamming-Window Lowpass-filter for en tidsserie Pearson-produkt-korrelasjonskoeffisienten er trolig den mest brukte statistikken for å oppsummere forholdet mellom to variabler. Statistisk betydning og forbehold for tolkning av korrelasjonskoeffisienten som brukt på tidsserier, er emner i denne leksjonen. Under visse antagelser avhenger den statistiske signifikansen av en korrelasjonskoeffisient bare av prøvestørrelsen, definert som antall uavhengige observasjoner. Hvis tidsseriene er autokorrelert, bør en effektiv prøvestørrelse, lavere enn den faktiske prøvestørrelsen, brukes når man vurderer betydningen. Forløpende eller falske forhold kan gi betydelig korrelasjon i noen perioder og ikke for andre. Tidsvariasjonen av styrken av lineær korrelasjon kan undersøkes med plott av korrelasjon beregnet for et skyvevindu. Men hvis mange korrelasjonskoeffisienter evalueres samtidig, bør konfidensintervallene justeres (Bonferroni-justering) for å kompensere for den økte sannsynligheten for å observere noen høye korrelasjoner der det ikke eksisterer forhold. Tolkning av glidende korrelasjoner kan også bli komplisert ved tidsvariasjoner av middel og varians av serien, idet glidende korrelasjon reflekterer kovariasjon i form av standardiserte avvik fra midler i tidsvinduet av interesse, som kan avvike fra langsiktige midler. Endelig bør det understrekes at Pearson korrelasjonskoeffisienten måler styrken av lineært forhold. Scatterplots er nyttige for å sjekke om forholdet er lineært. Svar: Kjør script geosa9.m ​​og svar på spørsmål som er oppført i filen i a9.pdf Matematisk definisjon av korrelasjonskoeffisienten Forutsetninger og hypoteser for signifikanstesting av korrelasjonskoeffisient Hvordan beregne signifikansnivået for korrelasjonskoeffisient og å justere signifikansnivået for autokorrelasjon i de individuelle tidsseriene Hensyn til tolkning av korrelasjonskoeffisient Bonferroni justering til signficansnivå korrelasjon under flere sammenligninger Inflasjon av varians av estimert korrelasjonskoeffisient når tidsserier autokorrelert Mulige effekter av datatransformasjon på korrelasjon Hvordan tolke plott av glidende korrelasjoner Hvordan søke geosa9. m for å analysere korrelasjoner og glidende korrelasjoner mellom par av tidsserier Lagrede relasjoner er karakteristiske for mange naturlige fysiske systemer. Lagget korrelasjon refererer til korrelasjonen mellom to tidsserier skiftet i tid i forhold til hverandre. Laget korrelasjon er viktig for å studere forholdet mellom tidsserier av to grunner. For det første kan en serie ha forsinket respons på den andre serien, eller kanskje en forsinket respons på en felles stimulus som påvirker begge seriene. For det andre kan responsen fra en serie til den andre serien eller en utvendig stimulus bli smurt i tid, slik at en stimulus begrenset til en observasjon utløser en respons ved flere observasjoner. For eksempel, på grunn av lagring i reservoarer, isbreer, etc., kan volumutslipp av en elv på ett år avhenge av nedbør i de foregående årene. Eller på grunn av endringer i kronetetthet og fotosynthatlagring, kan bredden på en trering på ett år avhenge av klimaet i flere foregående år. Den enkle korrelasjonskoeffisienten mellom de to seriene som er riktig justert i tid, er utilstrekkelig til å karakterisere forholdet i slike situasjoner. Nyttige funksjoner vi skal undersøke som alternativ til den enkle korrelasjonskoeffisienten er krysskorrelasjonsfunksjonen og impulsresponsfunksjonen. Korskorrelasjonsfunksjonen er korrelasjonen mellom serien skiftet mot hverandre som en funksjon av antall observasjoner av forskyvningen. Hvis den enkelte serie er autokorrelert, kan den estimerte krysskorrelasjonsfunksjonen bli forvrengt og villedende som et mål for det forsinkede forhold. Vi vil se på to tilnærminger for å avklare mønsteret av krysskorrelasjoner. Den ene er å individuelt fjerne persistensen fra, eller prewhiten, serien før krysskorrelasjonsestimering. I denne tilnærmingen betraktes de to seriene i likhet med likestilling. Et alternativ er systemtilnærmingen: se serien som et dynamisk lineært system - en serie inngang og den andre utgangen - og estimer impulsresponsfunksjonen. Impulsresponsfunksjonen er responsen på utgangen i nåværende og fremtidige tider til en hypotetisk puls av inngang begrenset til gjeldende tid. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. STA101 Introduction to Probability and Statistics STA102 Exploratory Data Analysis STA103 Principles of Sample Surveys STA121 Programming Methodology STA122 Computational Methods and Data Analysis I SMA101 Basic Mathematics SMA103 Calculus I SMA104 Calculus II SMA106 Calculus III STA 101: Introduction to Probability and Statistics Frequency distributions, relative and cumulative distributions, various frequency curves, mean, mode, median, quartiles and percentiles, standard deviation, symmetrical and skewed distributions. Probability: sample space and events definition of probability, properties of probability random variables probability distributions expected values of random variables. Elements of Markov chains. Co-requisites . SMA101, SMA103 STA 102: Exploratory Data Analysis Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. STA 103: Principles of Sample Surveys Uses, scope and advantages of sample survey types of survey survey organisation sample survey design. Purposive, probability and quota sampling. Simple random sampling stratified sampling systematic sampling multistage sampling and pps selections. Estimation of means, totals and proportions variance calculations. Sampling error. Sources of error, nonresponse. Management of surveys. STA 121: Programming Methodology Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. STA 122: Computational Methods and Data Analysis I Computer graphics. Statistical packages and libraries. Role of computers in data bases. Survey applications. Number systems errors and accuracy interpolation finite differences difference equations successive approximation or iterative techniques. Numerical solution of non-linear equations. Writing programs to implement numerical algorithms. Application of numerical analysis, software packages such as NAG. Pre-requisites: STA121, STA103, SMA103 STA201 Probability and Statistics I STA202 Principles of Statistical Inference STA221 Economic and Social Statistics STA222 Introduction to Time Series Analysis STA223 Operations Research I STA224 Computational Methods and Data Analysis II SMA201 Advanced Calculus SMA203 Linear Algebra I SMA204 Linear Algebra II SMA205 Introduction to Algebra SMA208 Ordinary Differential Equations STA201: Probability and Statistics I Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. STA202: Introduction to Statistical Inference Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. STA221: Economic and Social Statistics Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. STA222 Introduction to Time Series Analysis An introduction to time series in time domain and spectral domain. Estimation of trends and seasonal effects, autoregressive moving average models, forecasting, indicators, harmonic analysis, spectra. STA223: Operations Research I Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. STA224: Computational Methods and Data Analysis II Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 STA301 Probability and Statistics II STA302 Linear Modelling I STA303 Theory of Estimation STA304 Testing Hypotheses STA305 Probability Modelling STA306 Applied Time Series Analysis I STA307 Analysis of Experimental Designs I STA308 Sample Survey Theory and Methods I STA321 Operations Research II STA322 Computational Methods and Data Analysis III STA318 Statistical Inference I STA301: Probability and Statistics II Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. STA302: Linear Modelling I Linear models: linear regression analysis, analysis of variance and covariance, diagnostics of residuals, transformations. Non-linear regression: use of transformations, polynomial regression. Large sample theory for non-normal linear models. Collinearity. Outliers. Random effects models estimation of variance components in one-way and two-way models. GLIM package. Pre-requisite . STA303 Co-requisite: STA304 STA303: Theory of Estimation Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. STA304: Testing Hypotheses Concepts of statistical hypothesis and statistical test optimal tests, Neyman Pearson lemma properties of tests unbiasedness, consistency confidence sets and tests generalised likelihood ratio tests tests for correlation and regression, general linear hypotheses. STA305: Probability Modelling Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. STA306: Applied Time Series Analysis I Stationary time series, removal of trend and seasonal differences, moments and autocorrelation. Simple autoregressive and moving average models, moments and autocorrelations, the conditions of stationarity invertibility. Mixed (ARMA) models and the AR representation of MA and ARMA models. Fitting and testing time series models. Forecasting, methods of forecasting, scientific forecasting, basic forecasting models, forecasting criteria. Model building and identification. Series used as examples: simulated series, stock market prices etc. STA307: Analysis of Experimental Designs I General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Pre-requisite: STA202, Co-requisites STA302, STA304 STA308: Sample Survey Theory and Methods I Review of general principles of survey design. Populations and sampling frames. Simple random sampling properties of estimates, determination of sample size. Ratio and regression estimation. Stratification, optimality considerations. One-stage and two-stage cluster sampling. Systematic sampling. Multistage designs. Criteria for choosing sampling designs. Pre-requisites: STA201, STA103. STA318: Statistical Inference I Properties of point estimators: unbiasedness, sufficiency, minimal sufficiency, consistency, relative efficiency, minimum variance unbiased estimators evaluating the goodness of a point estimator. Method of moments, maximum likelihood estimators and their properties. Confidence intervals, large and small sample intervals. Concepts of statistical hypothesis and statistical test optimal tests, calculation of size and power of a test finding the sample size. Neyman Pearson lemma properties of tests - unbiasedness, consistency. Likelihood ratio tests-common large sample tests. Bayesian estimation Bayesian tests and confidence sets. Fundamental aspects of nonparametric inference such as rank, permutation and goodness of fit tests nonparametric estimation of quantiles and density functions robust estimation of location and scale parameters. Pre-requisites: STA202, STA301 Note: STA318 must not be taken together with STA303 andor STA304 STA321: Operations Research II Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Pre-requisites: STA223, STA201 STA322: Computational Methods and Data Analysis III Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Pre-requisite: STA 224 STA401 Measure, Probability and Integration STA402 Bayesian Inference and Decision Theory STA403 Nonparametric Methods STA404 Applied Multivariate Methods STA420 Project in Statistics Statistical Theory and Methods STA405 Linear Modelling II STA406 Applied Stochastic Processes STA407 Analysis of Experimental Designs II STA408 Robust Methods and Nonparametrics STA409 Applied Time Series Analysis II STA410 Sample Survey Theory and Methods II STA419 Statistical Inference II Applied Statistical Methods STA421 Operations Research III STA422 Stochastic Models for Social Processes STA423 Stochastic Models for Biological Processes STA424 Statistical Methods for Industrial Processes STA425 Statistical Demography STA426 Applied Population Analysis STA428 Applied Demography STA429 Econometric Models I STA430 Econometric Models II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis STA 4 01: Measure, Probability and Integration Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Pre-requisites . SMA206, STA301 STA 402: Bayesian Inference and Decision Theory Elements of decision theory: Statistical games the no data problem. Loss and regret, mixed actions, the minimax principle, Bayes actions decision with sample data decision rules, risk function, Bayes decision rules. Bayesian inference: Problems associated with classical approach Bayes approach: prior and posteri distributions specification of prior distribution Bayesian estimation, properties of Bayes estimators Bayesian tests and confidence sets examples of situations where Bayesian and classical approaches give equivalent or nearly equivalent results. One-parameter and multiparameter models, predictive checking and sensitivity analysis. Simulation of probability distributions. Sequential methods: Sequential probability ratio test Stein fixed width confidence intervals. Current methodological issues in Statistics. Pre-requisites: STA301, STA304 STA403: Non parametric Methods Nonparametric inference, simple one-sample tests order statistics, empirical distribution function, ranks and runs general nature of nonparametric tests, allocation of scores, confidence intervals efficiency and robustness considerations dealing with tied observations. Goodness of fit tests. General two-sample and c-sample problems linear rank tests Wilcoxons rank sum test use of rank sum procedures for assessing symmetry and in analysis of variance Friedman test, two-sample tests of dispersion. Measures and tests for association analysis of contingency tables Kendalls t, Spearmans rank correlation coefficient of concordance. Efficiency of nonparametric procedures. STA404: Applied Multivariate Methods Practical Examples of multivariate data summarising multivariate data, mean vectors and covariance matrices, correlation matrix. The multinormal distribution. Sampling from the multinormal, MLEs and tests for the mean vector simultaneous confidence intervals tests of structural relationship. Testing equality of two population means. MLEs of partial and multiple correlations and tests testing for complete independence canonical correlations and variates, test of canonical correlation and reduction in dimensionality. Classification into one of two populations. Calculation and interpretation of principal components. Elements of multivariate analysis of variance, one-way grouping and two-way grouping without interaction. STA405: Linear Modelling II Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. STA406: Applied Stochastic Processes Review of Random phenomena in time and space, mention of point processes, distributions, stationarity. Theory of recurrent events. Martingales, stopping times. Markov processes. Brownian motion. Renewal theory, the key renewal theorem the renewal equation. Stochastic differential equations. STA407: Analysis of Experimental Designs II Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. STA408: Robust Methods and Nonparametrics Distribution-free methods permutation theory. Robust estimation influence functions. Semi-empirical inference, Monte-Carlo methods, simulation models Jacknife and bootstrapping. Robust regresjon. Pre-requisites: STA403, STA405 STA409: Applied Time Series Analysis II Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum. STA410: Sample Survey Theory and Methods II The history of survey sampling. Techniques of sample design: multiphase designs selection with probability proportional to size (PPS) general aspects of replicated and successive sampling panel design model based sampling. Bias and nonresponse: sources of survey errors, non-coverage, nonresponse. African household survey capability program: scope, types of surveys undertaken, sampling techniques used, issues and problems. Use of appropriate software to calculate standard errors. STA419: Statistical Inference II Elements of Statistical decision theory. Bayesian methods: prior and posterior distribution. Bayesian estimation. properties of Bayes estimators, one-parameter and multiparameter models, hierarchical models, predictive checking and sensitivity analysis. Simulation of probability distributions. Nonparametric inference: Order statistics, empirical distribution functions, ranks and runs confidence intervals. Linear rank tests. Measures and tests of association analysis of contingency tables. Efficiency of nonparametric procedures. Pre-requisite . STA318 Note: STA419 Must not be taken with STA402 andor STA403 STA 420: Project in Statistics The project is undertaken during the second semester in the fourth year of study and is equivalent to one course unit. A satisfactory report must be completed, marked by both the students supervisor(s) and the external examiner, and presented in a final oral examination. The project shall be graded independently out of a maximum of 100 marks distributed as follows: 70 for project report and 30 for oral presentation. STA 421: Operations Research III Dynamic programming and heuristics. Project scheduling probability and cost considerations in project scheduling project control. Critical path analysis. Reliability problems replacement and maintenance costs discounting group replacement, renewal process formulation, application of dynamic programming. Queuing theory in practice: obstacles in modelling queuing systems, data gathering and testing, queuing decision models, case studies. Game theory, matrix games minimax strategies, saddle points, mixed strategies, solution of a game. Behavioural decision theory, descriptive models of human decision making the use of decision analysis in practice. STA422: Stochastic Models For Social Processes The statistical analysis for labour turnover Markov chains and renewal models for manpower forecasting and control career prospects, demand forecasting. Models for size and duration, open and closed Markov models for social and occupational mobility, models for the diffusion of news and rumours and competition for social groups. Criteria for establishing priorities in planning in advanced and developing countries. Methods for forecasting the demand for education and the demand and supply of teachers. Methods of forecasting manpower requirement. Computable models for the education system. STA423: Stochastic Models for Biological Processes Basic laws of genetics mutation, inherited defects in man, their persistence and geographical variation genetic counselling measures of relationship and identity effects of inbreeding genetic linkage Markov models in population genetics. Recovery, relapse, and death due to disease cell survival after irradiation compartmental analysis. Epidemic models, deterministic and stochastic versions models for the control of infectious diseases models for the management of insect pest populations. Leslie matrix models, application in management of natural resources. STA424: Statistical Methods for Industrial Processes Tolerance limits process control. R, p and c charts, their construction and use cusum charts, V-mask and decision interval procedures and their properties. Acceptance sampling for attributes and variables operating characteristic curve and average run length single, double, sequential plans choice in light of producers and consumers risks and by decision theory approach. Models of systems running in time. Stock control models. Reliability problems. STA425: Statistical Demography Simple models of population growth analysis of mortality using life tables model life tables continuous and multiple decrement formulations statistical properties of life table estimators proportional hazards and multistate life tables. Stable and stationary populations and their use for estimation of demographic parameters continuous formulation of population dynamics equation solutions of renewal equation. Discrete formulation of population projections. Parity progression ratios. Mathematical models for fertility and mortality schedules. Quantitative models of nuptiality models of reproductivity and measurement of fecundability. Analytic and simulation approaches to reproductivity and household structure. Sources of demographic data. Pre-requisite . SMA106, SMA208, STA221 STA426: Applied Population Analysis This course is intended to deal with the use of demographic concepts and techniques in social, economic, and medical planning and research. Examples of topics to be dealt with include: The use of population projections at national level studies of provision of places in higher education the momentum of population growth in developing countries the application of regional and local projections in planning housing, schooling etc manpower planning household and family structure and composition impact of contraception and abortion on fertility the use of survey data in assessing family planning programmes womens participation in labour force the impact of breast feeding on fertility and infant mortality inputs to planning of primary health care occupational mortality unemployment and mortality. STA428: Applied Demography Collection of demographic data: Historical development of demographic statistics stages involved in planning a census content of census and survey schedules basic response errors structure of census organisations vital registration, types of demographic sample survey the World Fertility Survey Programme. Demographic sampling and survey design: Applications of principles of statistical sampling to demographic surveys types of demographic sample survey designs questionnaire and schedule design. Evaluation of family planning programmes: Aims of programmes methods of evaluation evaluation of programmes demographic impact, methods of analysis case studies. Report Writing on analysis of demographic data: Evaluation of data analysis and checking for consistency and convergence of parameters interpretations of findings implications for planning and policy formulation conclusions. STA429: Econometric Models I Sources of data, national accounts, price indices. Econometrics methods and applications aggregated and desegregated models models of the national economy, models of sectors. The linear model: multiple regression, t - and F-tests, dummy variables, multicollinearity, general linear restrictions, dynamic models. Time series autoregressive models, seasonal adjustment, generalised least squares, serial correlation, heteroscedasticity, distributed lags, simultaneous equation systems, instrumental variables and two-stage least squares. General linear model, model specification, autocorrelation in linear models. Pre-requisites: STA221, STA302 STA430: Econometric Models II Structural and reduced forms, lagged endogenous variables identifiability, global and local identifiablility, multicollinearity estimation of simultaneous equation systems, subsystems, and single equations types of estimators, their asymptotic properties hypothesis testing, types of tests and their asymptotic properties, testing over-identifying constraints testing for misspecification. STA432: Applied Econometrics Econometric model building and testing probit and tobit analysis use of econometric concepts and techniques in economic and development planning and research models for plan preparation at the enterprise and national levels derivation and use of shadow prices in development planning and project scheduling demand analysis labour market behaviour models of unemployment econometric analysis of inflation monetarist models rational expectations and the natural rate hypotheses models of consumer and investment behaviour use of the standard computer packages in econometrics including practical exercises case studies. STA434: Survey Research Methods This course is intended to deal with the practical issues in the planning, design, execution and management of sample surveys. The course work will consist of several assignments of practical problems. Course Outline: Problems of measurement and scaling attitude measurement study design methods of data collection interviewing techniques questionnaire design response errors structure of interviewer effects problems of and procedures for compensation for non-response. STA435: Biometrics Methods I Biological assay: direct and indirect assays dilution assays dose response relationships parallel line and slope ratio assays multiple assays assays based on quantal responses. Agricultural trials crop weather modelling plot sampling techniques lay out of field experiments combining analyses over sites and seasons planning future experiments. Sampling and estimating biological populations. Longitudinal data analysis: Design considerations exploring longitudinal data generalised linear models for longitudinal data. Pre-requisites: STA302, STA307 STA 436: Biometrics Methods II Clinical trials: protocal design parallel studies cross over designs drop outs and protocal violators repeated measurements multi-centre trials sequential methods. Epidemiological studies: descriptive epidemiology investigative epidemiology causation, case control and cohort studies outbreak investigations community diagnosis sources of bias in epidemiological studies. STA437: Survival Analysis Survival function hazard function cumulative hazard function censoring Kaplan-Meier survival curve parametric and nonparametric representation of the survival and hazard distributions. Two-sample and k-sample tests proportional hazard models accelerated failure time models models for grouped survival data inclusion of covariates - Coxs P. H model applications of model checking competing risks - extensions of Coxs model. Frailty models. Pre-requisites: STA304, STA403.odels II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis The complete course requires 8 semesters each of 15 weeks. Flexible registration rules allow students to control their own pace of progress through the programme. The minimum number of units a student may take in one semester is three. The total number of units required in the course is 44. A candidate may be exempted from some course units and credit transferred from approved institutions, subject to the following conditions. (i)Request for exemption should be made in writing, on admission, addressed to the Dean of the Faculty of Science and must be accompanied by officially endorsed supporting documents including the institutions syllabuses for the relevant courses. (ii)Satisfactory performance in applicable examinations in the relevant courses. (iii)Payment of appropriate exemption fees. (iv) No candidate shall be exempted from more than one third of the total number of units required in the course. (v)A candidate may be required to sit and pass applicable University of Nairobi examinations in the relevant course units, provided they have paid the appropriate examinations fees. This is a distinctive feature of the training programme. It consists of a series of practical exercises for each of which students write a report and take part in a class discussion All applicants should hold one of the following minimum qualification or equivalent: (i)Mean grade C at KCSE plus at least grade B in Mathematics. (ii) Diploma in Statistics (iii) Diploma in Computer Studies (iv) Diploma in Education, with mathematics as a major subject. (v) A-level: 2 Principal passes in mathsphysics, mathschem. mathsgeog, mathsecon. (vi) A degree in a mathematical subject from a recognised university. The subject of statistical science is concerned with the application of probability and modern mathematical methods to solve complex and practical problems which involve uncertainty. These uncertainties are usually associated with scientific, technological, economic, biological or environmental problems. The methodology employed draws upon mathematics and probability to establish a theoretical foundation, computing resources for handling data, and an understanding of the scientific method for meaningful application. The B. Sc. course is designed to provide broad education in the basic theory and methods of statistics, that would enable the student to apply the knowledge acquired to a wide range of practical problems in research, industry, economic and social development, agriculture and medical research, etc. The programme provides for four main areas of specialisation: Mathematical Statistics, Economic Statistics, Demography and Social Statistics, and Biometry People trained in Statistical science work in research teams performing such tasks as: Design of survey programmes Econometric modelling of development plans Epidemiological investigations of disease Clinical trials of newly developed drugs Field trials of new crop varieties Surveys of adoption of novel farming methods Modelling in population and quantitative genetics To succeed, statisticians must have a definite competence in mathematics. Mathematical ability is not the sole criterion for success. Statisticians must be able to communicate effectively with investigators untrained in statistical science. The teaching is organised via a combination of lectures, compulsory reading, laboratories and homework. Class attendance is required. Courses are taught in English. Examinations are held at the end of every semester Exploratory Data Analysis Description. Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. Pre-requisite: STA10 Programming Methodology Description. Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. Co-requisite: SMA 101 Probability And Statistics I Description. Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. Pre-requisite: STA101. Economic And Social Science Description. Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. Operations Research I Description. Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. Computational Methods And Data Analysis Ii Description. Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 Principles Of Statistical Inference Description. Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. Probability And Statistics Ii Description. Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. Pre-requisite: STA201 Theory Of Estimation Description. Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. Pre-requisite:STA201 Probability Modelling Description. Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. Pre-requisite: STA201, Co-requisite: STA301 Analysis Of Experimental Designs I Description. General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Operations Research Ii Description. Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Computational Methods And Data Analysis Iii Description. Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Measure, Probabilty And Integration Description. Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Linear Modelling Ii Description. Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. Analysis Of Experimental Designs Ii Description. Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. Pre-requisite: STA307 Applied Time Series Analysis Ii Description. Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum.

No comments:

Post a Comment