Publikation: Færdigheder i læsning og matematik

Kapitel 7 - Resultater ved F2000, matematik

Af Peter Allerup

Der blev ved udvælgelsen af prøver fra TIMSS 1995 til F2000-opgavehæfterne lagt vægt på, at to hovedformål skulle indfries. Dels skulle prøverne være sammensat på en sådan måde, at det på år 2000-tidssvarende facon afspejlede krav til matematikfærdigheder, som er beskrevet i de senest gældende CKF'er, og dels skulle det være muligt at foretage sammenligninger med de landsresultater, der blev indsamlet under TIMSS-projektet. TIMSS-projektet sigtede internationalt på at måle matematik- og naturfagsfærdigheder i klassetrinnene "grade 7 and grade 8", som på dansk er i 6 og 7. klasse, når der tages hensyn til alderen ved skolestart. Af hensyn til danske ønsker blev TIMSS-opgavehæfterne tillige uddelt til en repræsentativ stikprøve af 8. og 9. klasseelever. Ved TIMSS blev der anvendt otte opgavehæfter, der hver især dækkede ca. en times løsningstid.

Som omtalt, blev ca. 1250 elever prøvet med et udvalg af TIMSS-opgaver, der blev samlet i et opgavehæfte nr. 1, mens andre ca. 1250 elever blev prøvet med andre TIMSS-opgaver samlet i et opgavehæfte nr. 2. Ud fra kodelister over rigtige/forkerte besvarelser blev hver elevs besvarelser transformeret til rigtigt/forkert besvarelse (dikotom kodning) for hver opgave. Et samlet antal rigtige besvarelser (elev rå-scores) kan nemt beregnes herfra, men dette tal kan på ingen måde sammenlignes med noget fra den tidligere TIMSS-undersøgelse, fordi opgaverne i et F2000-matematikhæfte stammer fra forskellige opgavehæfter i den oprindelige TIMSS-undersøgelse. Opgaver fra forskellige TIMSS-opgavehæfter er besvaret af forskellige elever, og der er altså ingen TIMSS-elever, som har besvaret netop det udvalg af opgaver, som blev medtaget som opgaver i F2000. Bestemmelse af en F2000-elevs matematikfærdighed sker derfor ved at referere besvarelsen af de enkelte F2000-opgaver til de placeringer, som findes i de gamle TIMSS-opgavehæfter. Proceduren er i princippet enkel, men teknisk lidt kompliceret. Man ser på en F2000-elevs besvarelse af opgaverne i det F2000-hæfte, som vedkommende elev har fået udleveret - isolerer de opgaver, der genfindes i TIMSSopgave hæfte nr. 1 - tæller, at på netop de opgaver har eleven 'x' opgaver rigtige; dernæst ses på TIMSS-data, hvor den gennemsnitlige matematikfærdighed regnes ud for elever, der på de samme opgaver har haft 'x' rigtige - dette gennemsnitstal bliver et første bud på matematikfærdigheden for F2000-eleven, baseret på sammenligninger med

TIMSS-opgavehæfte nr 1. Proceduren gentages for de F2000-opgaver, der kan genfindes i TIMSS-opgave hæfte nr. 2, for nr. 3 osv. Besvarelsen af et F2000-opgavehæfte brydes på denne måde ned i 8 TIMSS-hæfte specifikke referencer, og man får 8 forskellige estimater af F2000-elevens matematikfærdighed, som kombineres ved simpelt gennemsnit til ét estimat af matematikfærdigheden.

De 8 estimater varierer indbyrdes i overensstemmelse med en given statistisk usikkerhed, som gælder for den enkelte elevs bestemmelse af matematikfærdigheden ud fra en Rasch-score. Det ligger imidlertid som en mulighed at gennemføre en test af, hvor præcis den beskrevne procedure faktisk gennemføres på populationsniveau, dvs. ud fra sammenligning af landsgennemsnit over samtlige elever. Det er sket ved at sammenholde det faktisk udregnede, og publicerede internationale TIMSS-gennemsnit for matematikfærdigheden (Rasch-scores) i Danmark med det gennemsnit, der ifølge proceduren kan udregnes ved alene at benytte opgaver i TIMSS-hæfterne, som er blevet benyttet i F2000. Sammenligningen fører til en meget høj grad af overensstemmelse, idet forskellen på de to gennemsnit er mindre end 1.0 på den internationale færdighedsskala af Rasch-scores, der opererer med værdier i området 300-700, centreret omkring 500.

Ved at gennemføre den beskrevne procedure for F2000-eleverne til beregning af matematikfærdigheden, udtrykt som Rasch-scores, opnås resultater, der umiddelbart kan sammenlignes med den tidligere TIMSS-undersøgelse. Man kunne i 1995 have valgt at offentliggøre TIMSS-resultaterne ud fra rå-scores, eller som "procent rigtigt besvarede". Men dels måtte man i så fald løse problemet med, at opgavehæfterne består af forskellige opgaver - og hæfterne er derfor ikke lige svære. Dels har Rasch-scores, som beregnes ud fra Rasch-modellen nogle regnemæssige egenskaber, som rå-scores ikke har. I lys af den statistiske Rasch-model, hvorunder itemhomogeniteten er blevet undersøgt, transformeres et antal rigtige i form af en rå-score eller en "procent rigtige" fra tal, der ligger i lukkede intervaller, dvs. talområder med faste yderpunkter [0,K], (nul=minimum, K=antal opgaver=maximum) for rå-scoren eller [0%,100%] for "procent rigtige", til et tal (Rasch-scoren), der ligger på en akse fra minus til plus uendelig. Transformationen har den fordel, at elever, efter omregning til Rasch-scores, kan sammenlignes ved simpel fratrækning af to Rasch-scores; en given forskel på f.eks. 10 betyder det samme, uanset om det er resultatet af 720-710 eller 520-510. Nogle regneegenskaber, som ikke gælder for rå-scores eller "procent rigtige", hvor en forskel mellem 95%-93% rigtige dækker over en helt anden dygtighedsforskel end 55%-53%.

Af rent konventionelle grunde, blev den internationale skala med Rasch-scores lagt omkring 500 som gennemsnit og med en standardafvigelse på 100 - hvilket i praksis (med brug af normalfordelingsapproximation) fører til, at 95% af værdierne ligger i intervallet [300,700]. I mange andre sammenhænge ses Rasch-scores omkring 0 (nul) med værdier fra -2.5 til 2.5.

Tabel 7.1 opsummerer resultatet af sammenligningen af matematikfærdighederne for F2000 med TIMSS-1995.

Tabel 7.1
Matematikfærdighed: Gennemsnitlige Rasch-scores (samtlige elever) for TIMSS-1995 og for F2000.

Rasch-scores
(Gennemsnit)

F2000-elever 8. klasse 536.98

TIMSS-elever 8. klasse 542.63

TIMSS-elever 6. klasse 463.07

TIMSS-elever 7. klasse 501.58

TIMSS-elever 9. klasse 564.33

Forskellen 542.63 - 536.98 ?6 for eleverne på 8. klassetrin kan vurderes ved hjælp af et statistisk test (non-parametrisk Wilcoxon rangsumtest), der afviser, at forskellen kan skyldes tilfældige variationer (signifikanssandsynlighed p=0.0013).

Der er altså sket et signifikant fald i det gennemsnitlige (lands) niveau fra TIMSS-afprøvningen i 1995 til F2000-afprøvningen.

Størrelsen af faldet skal ses i relation til de gennemsnitsværdier, som TIMSS resulterede i for 6. til 9. klassetrin. Groft taget flyttes ca. +40 Rasch-scores hvert af årene fra 6. til 8. klassetrin, mens det sidste løft fra 8. klasse til 9. klasse ligger på ca. +20; noget, der i høj grad har begrænset størrelse, fordi TIMSS-prøverne var tilrettelagt især for klassetrinene 6-8, hvorfor en vis 'lofteffekt' kan forventes med de relativt lette opgaver på 9. klassetrin.

Der var i TIMSS-rapporteringen (Beaton, 1996) adgang til at vurdere spredningen af elevfærdighederne - og se dem i relation til den internationale reference på 100. Faktisk lå den danske spredning (ca. 80) klart mindre end den internationale. Selvom der principielt set er adgang til vurdering af spredningen på F2000-elevernes matematikfærdigheder, bliver resultatet af mindre interesse, fordi den beskrevne procedure til beregning af F2000-elevers færdigheder nok i gennemsnit rammer rigtigt (er middelret), men variansen eller spredningen vides på forhånd af rent tekniske årsager at være mindre. Spredningen kan kun forsigtigt vurderes på 'højere' niveauer som f.eks. klasse eller skoleniveau (se nedenfor).

Der er forskellige bud i TIMSS-datamaterialet på, i hvor høj grad eleverne inden for den afstukne tidsramme nåede at se på samtlige opgaver i det opgavehæfte, de fik. Det var et klart indtryk fra samtlige otte hæfters besvarelser, at der ikke var noget 'not reached' (ikke nået) problem dengang. At det heller ikke har været noget problem i F2000-hæfterne fremgår af, at det gennemsnitlige antal ikke-nåede opgaver ligger på 0.49, altså mindre end en halv opgave pr. elev!

En analyse af variationen af (det gennemsnitlige) færdighedsniveau fra klasse til klasse, fører til en standardafvigelse i TIMSS-materialet på 36.9. Til sammenligning hermed viser F2000-variationen en spredning på 10.3. På trods af den nævnte, tekniske årsag til indsnævring af elevvariationen skønnes det, at klassevariationen F2000 er blevet mindre end den, man så i TIMSS-klasserne.

Denne side indgår i publikationen "Færdigheder i læsning og matematik" som kapitel 7 af 11
© Undervisningsministeriet 2001

Til sidens top