Forrige kapitel Forsiden  Næste kapitel
[ Undervisningsministeriets logo ]

Kapitel 2 - Forsøgsplan





Af Peter Allerup og Jan Mejding

F2000-forsøgsplanen

På 3. klassetrin er der fokuseret på læsning, da der ikke forelå internationale matematikresultater for dette klassetrin. Læseniveauet skal fastlægges gennem en landsrepræsentativ stikprøve og en sammenligning med landsniveauet bestemt under IEAlæseundersøgelsen fra 1991 på 3. klasse skal gennemføres.

På 8. klassetrin er der fokuseret på både læsning og matematik. Læse- og matematikniveauet skal fastlægges gennem landsrepræsentative stikprøver og sammenligninger med landsniveauerne bestemt dels under IEA-læseundersøgelsen fra 1991 på 8. klasse og dels TIMSS-undersøgelsen fra 1995 skal gennemføres.

De to tidligere internationale undersøgelser gav begge anledning til store reaktioner inden for den danske skoleverden. De internationale resultater blev offentliggjort først (Elley, 1992; Beaton 1995) og danske uddybninger og fortolkninger blev senere rapporteret (Mejding, 1994; Weng, 1996; Allerup, Bredo og Weng, 1998).

Såvel økonomiske som praktiske hensyn gjorde, at man ikke kunne operere med en egentlig gentagelse af de to tidligere internationale undersøgelser. Fra læseundersøgelsen var der blevet indhentet landsrepræsentative læseresultater i 1991 fra henholdsvis 3. og 8. klasse, og der forelå tilsvarende resultater for matematiks vedkommende for 6., 7., 8. og 9. klassetrin i TIMSS 1995.

I den internationale læseundersøgelse i 1991 deltog knap 3.400 elever fra mere end 200 klasser på 3. klassetrin, og på 8. klassetrin var der tale om godt 3.800 elever også fra mere end 200 klasser. I TIMSS 1995-undersøgelsen havde man alene på 8. klassetrin resultater fra 2.500 elever fra omkring 145 klasser. I F2000 sammenhæng måtte man dels indskrænke antallet af deltagere, dels skære ned på antallet af baggrundsspørgsmål.

Omkring 1.500 elever fra 3. klasse skulle prøves med den samme læseprøve, som blev anvendt til den internationale læseundersøgelse. Da det netop var eleverne på 3. klassetrin, som dengang klarede sig signifikant dårligere end elever fra tredjeklasser i det øvrige Norden, blev det bestemt, at anvende såvel samme prøve som samme procedure som sidst. På den måde ville man være i stand til direkte at sammenligne F2000-elevernes læsefærdigheder med 1991-elevernes. Til gengæld blev der så ikke tid til, at eleverne kunne udfylde et spørgeskema. For at råde bod herpå blev 500 elever udvalgt tilfældigt, og disse elever fik et spørgeskema med hjem til forældrene.

For 8. klasses vedkommende ønskede man i F2000 at fokusere både på læsning og matematik; men hvis man gentog IEA's læseundersøgelse (to hæfter over to dage) fra 1991 var der, af økonomiske grunde ikke plads til også at gennemføre en undersøgelse af matematikfærdigheder.

Fordele og ulemper med en forsøgsplan for 8. klasse, hvori to forskellige (relativt små) populationer af elever blev underkastet (to fulde) læseprøver og matematikprøver blev diskuteret i forhold til en forsøgsplan bestående af én (relativt stor) population af elever, der får samtidige (relativt korte) læse- og matematikprøver.

Begge forsøgsplaner tillader landsrepræsentative vurderinger af læse- og matematikniveauet, fordi det lå fast, at data skulle indsamles som en simpel tilfældig stikprøve af elever på 8. klassetrin (klassevist). Det betyder således ikke noget for disse overvejelser, at 1991 IEA-dataindsamlingen ved læseundersøgelsen skete ud fra en stratificeret (13 amter) stikprøve med proportional udvælgelse.

Til forskel fra IEA 1991-læseundersøgelserne blev TIMSS 1995 gennemført som en ikke-stratificeret stikprøve, men som en simpel tilfældig udvælgelse. Under alle omstændigheder er det klart, at en forsøgsplan med gentagen læse-matematikafprøvning for samme elev kunne give værdifuld, ekstra information vedrørende individuel sammenhæng mellem læse- og matematikfærdigheder i forhold til en viden, der gruppevist blev indsamlet ved IEA-undersøgelserne i 1991 og 1995. Når disse overvejelser blev kædet sammen med den omstændighed, at det alligevel var udelukket, at TIMSS's opgaver kunne gentages i fuldt omfang (ca. 170 opgaver svarende til 8 lektioner), blev det besluttet at vælge en forsøgsplan, hvor eleverne blev prøvet over to sessioner, adskilt i tid, med IEA 8. klasse læseopgaver fra 1991 den ene gang og den anden gang med TIMSS-opgaver fra 6.-8. klasse afprøvningen i 1995. Den samlede prøvetid var derfor for eleverne den samme som ved de tidlige IEA-prøver.

Når denne forsøgsplan kan anvendes med succes hænger det sammen med den allerede konstaterede itemhomogenitet ved IEA-læse- og matematikopgaverne. Den ene gang anvendes en delmængde af de oprindelige læseopgaver (faktisk det ene hæfte af to mulige), mens den anden gang præsenterer eleverne for et udvalg af TIMSS-opgaver, udvalgt blandt TIMSS's samlede opgavemængde fordelt over 8 opgavehæfter. Der trækkes således eksplicit på den med itemhomogenitet ækvivalente egenskab: At elevernes færdighed kan beregnes ud fra et vilkårligt udvalg af de oprindelige opgaver.

Prøver i matematik og læsning

For F2000 er IEA-undersøgelserne vigtige, fordi resultaterne kan benyttes som referencer for de målinger af læse- og matematikfærdighed som indsamles. Det blev vedtaget under konstruktionen af F2000 at benytte netop disse to studier som referencer, selv om man også har mange andre, men mere spredte målinger af læse- og matematikfærdighed til rådighed. Dels er de to IEA-studier gennemført som store, repræsentative undersøgelser, større end andre undersøgelser i Danmark, dels er IEA-studierne gennemført på klassetrin, som svarer til de ønskede, også i F2000-sammenhæng: 3. klasse i læsning og 8. klasse i læsning og matematik. Det kan bemærkes, at TIMSS som en dansk valgmulighed i de internationalt fastlagte rammer for undersøgelsen indsamlede data for 6., 7., 8. og 9. klassetrin, dvs. to klassetrin mere end de internationalt krævede "grade 7 and grade 8" dvs. i Danmark 6. og 7. klasse.

En anden, tungtvejende grund til at vælge IEA-prøverne ligger i det forhold, at disse prøver er udvalgt og undersøgt for såkaldt 'itemhomogenitet' (Allerup, 1987), en egenskab som sikrer, at opgavernes (relative) sværhedsgrader er konstante over forskellige klassetrin, køn og andre ydre inddelingskriterier af eleverne, som man ellers ville forvente, ville være årsag til, at opgaver vil virke forskelligt. Itemhomogenitet udelukker ikke, at f.eks. piger generelt er dygtigere til læsning end drenge, en iagttagelse der registreres ved, at pigerne i gennemsnit har et højere antal rigtige end drengene. Hvis man sammenligner drenge og piger, som har samme antal rigtige besvarelser, betyder det, at både piger og drenge, bortset fra tilfældige udsving, har svaret rigtigt på de samme opgaver. Det kan således ikke lade sig gøre, at drenge og piger med f.eks. 10 rigtige i alt, har opnået det ved, at drengene svarer rigtigt på de første 5 opgaver, mens pigerne har svaret rigtigt på de sidste 5 opgaver.

Med itemhomogenitet sikres også (Rasch, 1968) at antallet af rigtigt besvarede opgaver, de såkaldte 'rå-elevscores', udtømmer al information vedrørende elevdygtigheden og kan benyttes som grundlag for objektive sammenligninger eleverne imellem. Dette har den meget vigtige konsekvens, at sammenligninger mellem elever kan foretages ved hjælp af et vilkårligt udvalg blandt alle opgaverne! To grupper behøver således ikke at have besvaret det samme sæt opgaver, for at sammenligningerne kan udføres.

Det var denne egenskab, der i TIMSS tillod, at eleverne fik forskellige opgavehæfter, hvert tilpasset en løsningstid på ca. 45 minutter. Dermed kunne TIMSS sikres en vis bredde i emnerne (knap 170 opgaver) samtidigt med, at eleverne kunne sammenlignes, uanset om opgaverne, og dermed sværhederne, varierede fra hæfte til hæfte.

Når elevernes besvarelser er blevet omkodet til rigtigt/forkert for hver opgave, dannes umiddelbart den såkaldte rå-score for eleven, antallet af rigtige besvarelser. Denne størrelse er udgangspunktet for samtlige vurderinger af elevens færdighed. Som beskrevet senere omsættes rå-scoren normalt, via den statistiske Rasch-model, til såkaldte Raschscores, der i de internationale IEA studier standardiseres til værdier omkring 500 med en standardafvigelse på 100 (det betyder i praksis, at 95% af alle Rasch-scores ligger i intervallet (300,700)). Det vil imidlertid fremgå, at der har været to forskellige tekniske fremgangsmåder til stede ved denne omsætning. Ved IEA-læsestudiet i 1991 blev der både beregnet en 'læsesikkerheds Rasch-score (senere også kaldet credit score)' - som omsætter antallet af rigtige (= rå-score) blandt antallet af nåede opgaver til en Raschscore, og som derfor er et mål for læsesikkerheden uden hensyn til læsehastigheden, og en 'kombi-Rasch-score (senere også kaldet no credit score)', der omsætter antallet af rigtige (igen = rå-score), men nu beregnet i forhold til samtlige opgaver - altså med tvungen kodning af de ikke-nåede opgaver ('not reached') som fejl. Denne score er således influeret af elevernes læsehastighed, og kan derfor siges at være en slags kombineret sikkerheds- og hastigheds-score.

Ved rapportering af læseresultaterne fra IEA-RL i 1991 var begge typer Raschscores til stede, men i den danske rapportering blev vægten lagt på 'sikkerheds'-scoren. TIMSS-undersøgelsen arbejdede udelukkende med 'kombi-Rasch- scores'. Det sidste viste sig at være forbundet med få problemer, fordi eleverne i praksis nåede at se på samtlige opgaver, som de fik stillet, mens det samme ikke var tilfældet i læseundersøgelsen.

Antallet og udvælgelse af prøvede elever

De to IEA-undersøgelser fra 1991 og 1995 blev oprindeligt gennemført med så stort et antal elever i datamaterialet, at det var muligt både at gennemføre afsluttende (konfirmerende) analyser af itemhomogenitet og at beregne en landsnorm med en given statistisk sikkerhed. Beregningen af landsnormen gælder, på det praktiske niveau, fastlæggelsen af et sikkerhedsinterval for et 'landsresultat' (konfidensinterval) ud fra et totalt gennemsnit over samtlige elever. Jo flere elever der medtages, jo snævrere bliver konfidensintervallet.

Antallet af elever, der blev planlagt indsamlet til F2000-datamaterialet respekterer næsten udelukkende kravet om at beregne et læse- og matematikniveau for landet som helhed med en given præcision (sampling error). Det hænger sammen med, at det prøvegrundlag, der blev benyttet i disse to IEA-undersøgelser også er grundlaget for F2000-afprøvningen; der skulle således ikke tages hensyn til afsluttende analyser af itemhomogenitet. Antallet af opgaver, der gives til den enkelte elev har direkte indflydelse på den præcision (error of measurement), hvormed den enkelte elevfærdighed beregnes.

Der er således to fejlkilder til stede, som kan justeres i forhold til antallet af elever, der medtages og antallet af opgaver, den enkelte elev udsættes for. En samlet, teknisk afvejning af disse fejlkilder sammenkædet med en økonomi, der på anden måde blev fastlagt som rammer for denne del af F2000-evalueringen, førte til at ca. 1500 elever skulle prøves på 3. klasse niveau, mens ca. 2500 elever skulle prøves på 8. klasse niveau - dvs. ca.1250 på hver af læsehæfte/matematikhæfte kombinationerne.

Udvælgelsen af skoler/elever til denne undersøgelse skete ved tilfældig udvælgelse. F2000- undersøgelsen skulle finde sted på samme tidspunkt som en stor international undersøgelse, og da det var vigtigt ikke at belaste skolerne med deltagelse i mere end én undersøgelse, blev der derfor anvendt en udtrækningsprocedure, hvor der i F2000- undersøgelsen blev set bort fra skoler, der skulle deltage i den internationale undersøgelse. For hver af de derefter mulige skoler blev der - via en oversigt fra Danmarks Statistik - opstillet en liste over elevtallet i 3.- og 8. klasser i skoleåret 1998/99.

Denne liste blev brugt til, via en simpel tilfældig stikprøve, at udtrække et udsnit på 1500 (+20%) elever i 3. klasse og 2500 (+20%) elever i 8. klasse. Ved udtrækningen af elever/skoler blev der taget højde for et eventuelt bortfald af skoler; derfor blev ekstra 20% udvalgt.

Der skete et lille bortfald på 2,9% af skoler, ligesom der kun var et bortfald på 12,0% efter at klasserne var endeligt udtrukket. Bortfaldet er beskedent, og konklusionen, er at stikprøverne er gode og landsrepræsentative.

Praktisk prøvetagning

Prøvetagningen blev gennemført på skolerne af en medarbejder fra SFI-Survey efter en standardiseret procedure. Reglerne for prøvetagningen fulgte nøje de regler, der gjaldt for de tidligere internationale undersøgelser, og SFI-Survey sikrede, at alle prøvetagere var grundigt inde i prøveprocedurerne. På begge klassetrin var prøven delt i to dele med en pause imellem. På 3. klassetrin blev de to halvdele af prøven altid afholdt over to dage, mens de for 8. klasse godt kunne afholdes på samme dag, såfremt der var en lang pause mellem de to halvdele.

Før gennemførelsen af første halvdel af prøven blev der givet en grundig instruktion, og prøvelederen sikrede sig, at ingen af eleverne var i tvivl om, hvad de skulle gøre under prøvetagningen. Det var ikke tilladt eleverne at modtage hjælp efter at prøven var gået i gang, ligesom de ikke måtte snakke sammen om opgaverne, før hele prøvetagningen var gennemført. Inden starten på anden prøvetagning sikrede prøvelederen sig igen, at alle elever vidste, hvad de skulle gøre, og, hvis det var nødvendigt, blev der også her gennemgået et eksempel. Efter prøvens gennemførelse samlede prøvelederen materialerne sammen til SFI-Survey, hvor det blev kodet til videre analyse via edb.

 

Denne side indgår i publikationen "Færdigheder i læsning og matematik" som kapitel 2 af 11
© Undervisningsministeriet 2001

 Forrige kapitel Forsiden  Næste kapitel
Til sidens top