357/3 - La motivation des élèves français face à des évaluations à faibles enjeux : Comment la mesurer ? Quel impact sur les réponses ?

 

La motivation des élèves français face à des évaluations à faibles enjeux : Comment la mesurer ? Quel impact sur les réponses ?

 

Saskia Keskpaik

Direction de l’évaluation, de la prospective et de la performance du Ministère de l’éducation nationale, France

Thierry Rocher

Direction de l’évaluation, de la prospective et de la performance du Ministère de l’éducation nationale, France

Mots clés : Motivation, effort, implication, évaluations à faibles enjeux, PISA

Introduction

Dans le système éducatif français où la notation tient une place prépondérante, la question de la motivation des élèves face à une évaluation sans enjeux pour eux mérite d’être posée. En effet, si les élèves ne sont pas motivés à faire de leur mieux lors de telles évaluations, la validité des résultats et leur interprétation peuvent être interrogées. De même, lorsque certains élèves ou des sous-populations d’élèves s’avèrent systématiquement moins motivés que d’autres, la comparabilité des résultats risque d’être biaisée.

Plusieurs travaux ont été mis en œuvre, ces dernières années, pour étudier la motivation des élèves à répondre à des tests à faibles enjeux pour eux ainsi que la relation entre cette motivation et la performance (Butler & Adams 2007 ; Eklöf 2008 ; O’Neil, Abedi, Lee, Miyoshi & Mastergeorge 2004 ; Penk, Poehlmann & Roppelt 2013). Ces études, divergentes dans leurs conclusions, varient considérablement selon les méthodes utilisées ainsi que les instruments employés pour mesurer la motivation. Malgré un intérêt croissant pour le sujet, peu de tentatives ont été menées afin de construire une mesure valide de motivation à répondre à des tests (Ndinga & Frenette 2010 ; Eklöf 2008).

La présente étude fait suite à une expérience montée en France en 2011 à partir du pré-test PISA (Keskpaik & Rocher 2012). Suite à cette expérience, un instrument pour mesurer la motivation a été adapté à partir du « thermomètre d’effort » de PISA. Cet instrument a été introduit dans de nombreuses évaluations conduites, en 2012, au niveau national par la DEPP sur des échantillons de plusieurs milliers d’élèves, en fin de primaire (grade 5) et en fin de collège (grade 9).

Nous nous intéresserons ici aux résultats de ces évaluations, notamment aux réponses d’élèves aux questions relatives à leur motivation, et à la variation de ces réponses selon divers caractéristiques d’évaluations, d’élèves et d’établissements. Nous étudierons également le lien entre l’implication des élèves dans ces évaluations et leurs scores obtenus lors de celles-ci. Les données quantitatives seront mises en perspective avec des renseignements provenant d’une étude qualitative menée par la DEPP en mai 2013. Cette dernière consistait à observer des conditions de passation et à conduire des entretiens collectifs (des focus group) avec des élèves dans une dizaine d’établissements participant à une évaluation en sciences expérimentales (Bobineau 2013). L’objectif de cette étude était de connaître l’avis des élèves sur différents aspects de l’évaluation ainsi que d’obtenir des informations d’ordre qualitatif concernant leur implication.

1.     Mesure de motivation : « effort » versus « application »

1.1.  Effort, implication et difficulté

PISA mesure l’investissement des élèves face au test à l’aide d’un « thermomètre d’effort » (Figure 1). Une étude exploratoire des données de ce thermomètre (Keskpaik & Rocher 2012) nous a suggéré que le terme « effort » est susceptible de poser un problème d’interprétation, en mélangeant l’implication ou la motivation de l’élève avec la difficulté du test. Ainsi, les élèves performants ont pu déclarer faire peu « d’effort », car les exercices proposés leur ont paru faciles. Suite à cette étude, un instrument pour mesurer la motivation a été adapté à partir du « thermomètre » de PISA. Plus précisément, les énoncés des questions ont été simplifiés pour réduire la charge de lecture, le terme « effort » a été remplacé par le terme « application », les échelles ont été placées horizontalement, et une échelle supplémentaire a été ajoutée afin d’interroger les élèves sur la difficulté des exercices proposés (Figure 2).[1]

Figure 1 : Thermomètre d’effort de PISA

Figure 2 : Instrument de mesure de l’implication (niveau collège)

L’analyse des réponses d’élèves à ces items « d’application » indique tout d’abord que l’implication au test (question 2 de l’instrument) est liée à la difficulté perçue du test (question 1) et que ce lien est négatif. Plus les élèves ont jugé l’évaluation difficile, moins ils déclarent s’être appliqués pour la faire (Tableau 1).[2] La difficulté perçue des exercices entretient ainsi une relation avec la motivation à répondre au test, relation qui est par ailleurs plus forte au niveau primaire qu’au niveau secondaire. Ceci s’observe également au niveau agrégé : les évaluations jugées, en moyenne, les plus faciles sont à la fois celles pour lesquelles l’implication des élèves s’avère la plus élevée. Dans la recherche des éléments d’explication, on peut noter le rôle du format d’exercices – les évaluations jugées les plus faciles et caractérisées par une plus grande implication déclarée par les élèves sont celles qui se composent principalement des questions à choix multiples (QCM). Les informations qualitatives recueillies à l’aide des entretiens collectifs avec des élèves confirment cette observation : les élèves sont unanimes lorsqu’ils disent préférer les QCM aux questions à réponse construite.

Tableau 1 : Relation entre la difficulté perçue du test et l’implication au test


 

1.2.  Profils de motivation

Butler et Adams (2007) proposent une analyse de l’investissement différentiel des élèves, et de l’effet de cet investissement sur la performance, en construisant un indicateur d’effort relatif à partir du « thermomètre d’effort » de PISA. Les auteurs classifient les élèves en fonction de l’écart entre l’effort que ceux-ci déclarent avoir fourni en répondant au test PISA et l’effort qu’ils auraient fourni si les résultats du test avaient compté pour leur bulletin scolaire.

Très innovateur et inspirant, cet indicateur se prête aussi à quelques critiques. Notamment, il ne prend pas en compte le niveau général d’effort des élèves. A titre d’exemple, un élève qui déclare avoir fourni un effort de 5 en répondant au test PISA et qui dit qu’il aurait fourni un effort de 7 si la note avait compté pour son bulletin a le même score sur l’échelle d’effort relatif qu’un élève qui coche respectivement 8 et 10. Les deux élèves auront un score de l’effort relatif égal à 8 sur 10. Or, on peut supposer que pour un même effort relatif, deux élèves peuvent indiquer des niveaux de motivation générale différents, pouvant aboutir à des performances différentes au test.

Nous avons voulu vérifier cette hypothèse en positionnant les élèves sur les deux échelles – effort/implication au test et effort/implication si la note au test avait compté – et en étudiant leur score moyen au test en fonction de cette position. Observons les deux figures suivantes qui représentent les données des évaluations PISA 2006 et CEDRE histoire-géographie 2012.[3] On note en effet des variations de score considérables entre les élèves manifestant le même effort relatif. Reprenons l’exemple évoqué plus haut et considérons deux groupes d’élèves qui ont coché respectivement 5 et 7 les uns et 8 et 10 les autres sur les deux échelles d’implication. Si le score moyen en CEDRE histoire-géographie est de 234 pour le premier groupe (n=52), il s’élève à 260 pour le deuxième (n=376), ce qui correspond à une augmentation d’environ un demi écart-type. Les données provenant du PISA montrent la même tendance : ces deux groupes d’élèves ont obtenu respectivement un score moyen de 490 (n=46) et de 517 (n=576) en 2006, soit une différence d’environ un tiers d’écart-type.

Figure 3 : Score moyen à l’évaluation CEDRE histoire-géographie selon le niveau d’implication

Figure 4 : Score moyen à l’évaluation PISA 2006 selon le niveau d’effort

En nous inspirant du travail de Butler et Adams, nous avons ensuite regroupé les élèves en fonction de leur position sur les deux échelles d’implication.[4] Ce regroupement, sans doute arbitraire, vise à prendre en compte le niveau général d’implication (ou d’effort) des élèves et à assembler ceux qui se ressemblent à l’égard de l’interaction entre la motivation et le score.

Nous avons réparti les élèves en sept « profils de motivation » (Figure 5). Comme Butler et Adams, nous nommons « irréalistes » les élèves qui disent qu’ils se sont davantage appliqués pour faire l’évaluation que cela aurait été le cas si la note au test avait compté pour leur bulletin scolaire (donc tous ceux qui se trouvent en dessus de la diagonale exprimant une implication égale pour le test et pour une épreuve notée). Nous appelons « démotivés » ceux qui se considèrent relativement peu investis pour le test ainsi que pour une épreuve notée (scores d’implication/d’effort de 1 à 7 sur les deux échelles). Nos « cyniques » se distinguent de leurs homologues dans le travail de Butler et Adams : il s’agit ici des élèves qui se disent investis dans une évaluation lorsque la note obtenue compte (scores de 8 à 10). En revanche, ils se déclarent très peu motivés pour un test à faibles enjeux (scores de 1 à 5). Les « peu motivés » sont ceux qui seraient impliqués dans une évaluation qui compte (scores de 8 à 10) mais le sont moins si les résultats n’ont pas de conséquence directe pour eux (scores 6 et 7). Enfin, les élèves impliqués de manière générale sont appelés « réalistes » lorsque la différence entre les deux échelles est de 2 points, « assidus » si cet écart est égal à un point et « partisans » dans le cas où il n’y a pas de différence.

Figure 5 : Profils de motivation

La répartition de ces profils varie selon l’évaluation. Si les « cyniques » sont les plus représentés dans CEDRE histoire-géographie (HG) ainsi que dans la session 5 d’EIST,[5] et les « peu motivés » en session 4 d’EIST, ce sont les « assidus » qui prévalent dans Socle[6] et les « réalistes » sont les plus nombreux dans PISA (Tableau 2).[7]

Tableau 2 : Répartition des profils de motivation selon l’évaluation (en %)

Regardons de plus près ces profils en fonction de quelques caractéristiques d’élèves et d’établissements. Pour ne pas surcharger les tableaux, nous ne considérerons que les évaluations CEDRE histoire-géographie, Socle et PISA qui constituent des bons exemples dans plusieurs aspects. CEDRE est une évaluation disciplinaire destinée à mesurer l’atteinte des objectifs fixés par des programmes scolaires officiels. Socle vise à évaluer la proportion d’élèves ayant acquis les compétences clefs – la littératie (compétence 1) et la numératie (compétence 3) ici – qui constituent le bagage minimum à la fin de la scolarité obligatoire (grade 9). L’évaluation PISA s’intéresse à une génération d’élèves (élèves de 15 ans) et les évalue non sur des connaissances au sens strict mais sur leurs capacités à mobiliser et appliquer celles-ci dans des situations variées, parfois éloignées de celles rencontrées dans le cadre scolaire. Ces trois évaluations se distinguent également par le format de questions, Socle ne comportant que des QCM alors que CEDRE et PISA demandent souvent aux élèves de construire leur réponse. Au-delà de ces différences, ce sont les variations dans l’instrument de mesure qui nous intéressent ici, PISA comportant le thermomètre d’effort et les deux autres évaluations le nouvel instrument modifié.

La répartition des profils de motivation varie selon le secteur de scolarisation. Ainsi, les « démotivés » et les « cyniques » sont proportionnellement plus nombreux dans des établissements publics – et surtout dans ceux de l’éducation prioritaire (EP) – que dans des collèges privés (Tableau 3).

Tableau 3 : Répartition des profils de motivation selon le secteur de scolarisation (en %)

L’analyse de ces profils en fonction du genre met en évidence une moindre motivation de la part des garçons : les « démotivés » et les « cyniques » sont proportionnellement plus nombreux parmi eux que parmi les filles (Tableau 4). Les filles semblent ainsi davantage investies non seulement lors des évaluations à faibles enjeux, mais aussi lorsque la note obtenue compte pour leur bulletin scolaire.

Tableau 4 : Répartition des profils de motivation selon le genre (en %)

Le retard scolaire a également un impact sur la motivation, les « démotivés » étant plus nombreux parmi les élèves ayant redoublé que parmi ceux « à l’heure » (Tableau 5). On note par ailleurs que les « irréalistes » – les élèves qui déclarent s’être plus appliqués (ou avoir fait plus d’effort) en faisant le test que cela aurait été le cas si la note obtenue au test avait compté pour leur bulletin scolaire – sont également plus représentés parmi les élèves redoublants. En revanche, on observe relativement moins d’écarts selon le retard scolaire pour les profils « cyniques » et « peu motivés » que pour les « démotivés », ce qui amène à supposer que les élèves en retard se sentent moins investis de manière générale (même dans le cas des épreuves scolaires notées), et pas seulement lors des tests à faibles enjeux.

Tableau 5 : Répartition des profils de motivation selon le retard scolaire (en %)

Lorsque l’on s’intéresse au statut socio-économique des élèves selon leur profil de motivation, on observe que ce sont souvent les « irréalistes » qui proviennent des milieux socio-économiques les moins favorisés (Tableau 6). Si, dans le cas de l’évaluation CEDRE histoire-géographie, l’indice moyen du statut socio-économique tend à être d’autant plus élevé que l’élève se manifeste motivé, la relation est moins nette pour l’évaluation PISA. Dans PISA, contrairement à CEDRE, les « démotivés » et les « cyniques » n’ont pas un statut socio-économique moins élevé. Rappelons encore une fois que l’instrument de mesure de motivation n’est pas le même pour les deux évaluations, le terme « application » étant employé dans CEDRE et celui « d’effort » dans PISA. On sait que le score des élèves est lié à leur statut socio-économique, les élèves provenant des milieux sociaux moins favorisés obtenant des résultats moins bons (OECD 2007). Il se peut ainsi que les élèves qui déclarent avoir fait peu d’effort pour faire le test – les « démotivés » et les « cyniques » – l’aient fait parce que leur niveau est bon et que les exercices leur ont paru faciles. Testons cette hypothèse en observant les scores moyens par profil de motivation.

Tableau 6 : Statut socio-économique des élèves selon leur profil de motivation

De manière générale, plus les élèves se déclarent investis (en termes d’implication ou d’effort), plus leur score moyen est élevé (Tableau 7). Néanmoins, ce sont les « assidus » – et non les « partisans » – qui ont le score moyen le plus élevé. Les données de PISA montrent que les « démotivés » ont obtenu un score relativement élevé. Il s’agit des élèves qui déclarent avoir fourni relativement peu d’effort lors du test et qui disent à la fois que l’effort fourni n’aurait pas été considérablement plus élevé si la note obtenue au test avait compté pour leur bulletin scolaire. Notre hypothèse semble se confirmer : on peut supposer qu’un effort plutôt faible, associé à des scores relativement élevés indique, chez ces élèves, qu’ils n’ont pas besoin de fournir beaucoup d’efforts car les exercices du test (et les épreuves scolaires notées) sont faciles pour eux.

Tableau 7 : Score moyen des élèves selon leur profil de motivation

On peut ainsi constater que la motivation face aux évaluations à faibles enjeux varie selon les caractéristiques d’établissements et d’élèves. Ceci veut dire que lorsque la motivation impacte de manière significative les résultats qu’obtiennent les élèves lors de tels tests, un moindre investissement de certaines sous-populations d’élèves peut introduire des biais dans l’estimation de leur performance et amener à de mauvaises interprétations des résultats. Nous allons étudier plus en détail la relation entre la motivation et les résultats d’élèves.

2.     Motivation et performance

2.1.  L’évolution du score en fonction de l’évolution de la motivation

Les données longitudinales de l’évaluation EIST nous permettent d’étudier l’évolution des résultats d’élèves d’une session à l’autre. Avec deux sessions d’évaluation (sessions 4 et 5) comportant l’instrument de mesure de l’investissement face au test – en termes d’effort –, nous sommes en mesure de mettre en lien l’évolution du score des élèves avec l’évolution de leur investissement afin d’observer si une augmentation du degré d’investissement s’accompagne d’une évolution positive du score.

En outre, un questionnaire de contexte était adressé aux élèves dans le cadre de cette évaluation. Une partie des questions les interrogeait sur leur motivation et leur intérêt vis-à-vis de la discipline évaluée, c’est-à-dire les sciences.[8] Nous avons construit un indicateur synthétisant ces questions à l’aide d’une analyse en composantes principales.[9] Avec cet indicateur de l’intérêt/ motivation à l’égard des sciences à notre disposition, nous avons la possibilité de faire la distinction entre les aspects de la motivation spécifiques à la passation du test (situation-specific motivation) et les aspects spécifiques au domaine évalué (domain-specific motivation).

On peut constater une tendance positive en ce qui concerne l’évolution du score entre la session 4 et la session 5. En revanche, la motivation spécifique à la situation (l’effort fourni au test) ainsi que la motivation spécifique au domaine tendent à diminuer d’une session d’évaluation à l’autre. Lorsque l’on étudie le lien entre ces évolutions, on note qu’elles sont toutes positivement (et significativement) corrélées, mais que cette corrélation n’est pas très élevée (Tableau 8). Ainsi, une augmentation de motivation – spécifique à la situation ou au domaine – s’accompagne d’une évolution positive du score. On observe aussi que l’évolution de l’effort fourni au test est un peu plus corrélée à l’évolution du score que l’évolution de l’intérêt vis-à-vis des sciences.

Tableau 8 : Relations entre les évolutions du score, de l’effort fourni au test et de l’intérêt vis-à-vis des sciences entre la session 4 et la session 5 (coefficients de corrélation)

Nous avons ensuite construit un modèle de régression dans le but « d’expliquer » le score obtenu lors de la session 5 en fonction de l’évolution de la motivation entre les sessions 4 et 5 (Tableau 9). Comme l’indiquent les coefficients de régression, le score obtenu lors de la session 5 est d’autant plus élevé que l’évolution de l’effort fourni au test ainsi que de l’intérêt vis-à-vis des sciences a été positive. En revanche, le pouvoir explicatif du modèle s’avère très faible : l’évolution de ces deux indicateurs de motivation n’explique que 1 % de la variabilité du score obtenu lors de la session 5.

Lorsque l’on ajoute au modèle le niveau initial de l’élève – le score obtenu lors de la session 4 – les autres coefficients restent significatifs et le coefficient de détermination (R2) passe à 50 %. Cela nous permet de conclure que c’est surtout le niveau initial de l’élève qui explique son gain en performance entre les deux sessions d’évaluation, l’évolution des aspects motivationnels jouant un rôle considérablement moins important.

Tableau 9 : Score obtenu lors de la session 5 en fonction de l’évolution des aspects motivationnels (coefficients de régression)

2.2.  Variabilité inter- et intra-classe de la performance en fonction de l’implication

Afin de mieux distinguer l’effet de divers aspects motivationnels et des caractéristiques individuelles et d’établissements sur la variation du score, nous avons employé la méthode de l’analyse multiniveaux. Cette méthode permet d’étudier la variabilité inter- et intra-classe de la performance et de l’implication ainsi que de déterminer si la relation entre l’implication et la performance varie d’un établissement (ou d’une classe[10]) à l’autre.

Tout d’abord, nous nous sommes intéressés à la variabilité de l’implication au test selon la classe afin de discerner un éventuel effet de passation. Autrement dit, nous voulions savoir si certains établissements arrivent mieux à motiver leurs élèves à passer le test que d’autres, ce qui serait exprimé par une variabilité inter-classe importante. Nous avons construit un modèle « vide » pour connaître la part de l’implication au test attribuable aux différences entre les établissements (Tableau 10, modèle ‘implication’). En calculant le coefficient de corrélation intra-classe pour ce modèle, on obtient 0,08. Le même coefficient pour le modèle « vide » du score (Tableau 10, modèle 1) est de 0,22. Ces résultats indiquent que 8 % de la variabilité de l’implication est dû aux différences entre les établissements, alors que cet indicateur est de 22 % pour le score. Cela signifie que l’implication moyenne varie beaucoup moins selon l’établissement que la performance moyenne, ce qui amène à conclure qu’il n’y a pas d’effet de passation considérable sur l’implication des élèves.

Une partie importante (22 %) de la variabilité du score est ainsi attribuable aux différences entre les établissements. Nous avons ensuite intégré l’implication au test dans le modèle vide du score pour observer si cet ajout amène à une réduction de la variabilité inter-classe du score, autrement dit, si les différences en niveau d’implication expliquent une partie de la variation du score d’un établissement à l’autre (modèle 2). L’ajout de l’implication au test dans le modèle conduit à une réduction de la variabilité inter-classe de 16 % et de la variabilité intra-classe de 7 %. Les indices de sélection de modèle (AIC, BIC) diminuent aussi, ce qui indique que le pouvoir explicatif du modèle augmente nettement. Le modèle 2 rend ainsi mieux compte de la structure des données que le modèle 1. On observe que l’augmentation d’une unité sur l’échelle de l’implication au test s’accompagne d’un gain de score d’un dixième d’écart-type.

Dans l’étape suivante, on permet au modèle d’ajuster une pente par établissement afin de tester si la relation entre le score et l’implication au test varie en fonction de l’établissement (modèle 3). En effet, on observe une relation positive entre le score moyen de la classe et la pente entre le score et l’implication : plus le niveau de la classe est élevé, plus la corrélation entre l’implication et le score est forte. Comme les effets aléatoires se sont avérés significatifs, nous les avons gardés pour les modèles suivants.

Nous avons progressivement ajouté des effets fixes : l’implication de l’élève si la note au test avait compté pour son bulletin scolaire (modèle 4), la difficulté perçue du test (modèle 5), l’indicateur de l’intérêt/motivation vis-à-vis de l’histoire-géographie[11] (modèle 6), les caractéristiques sociodémographiques et scolaires des élèves telles que le genre et le retard scolaire (modèle 7) et, enfin, le secteur et l’implication moyenne caractérisant les établissements (modèle 8). On observe que les indices AIC et le BIC diminuent à chaque étape, ce qui met en évidence une augmentation progressive du pouvoir explicatif du modèle. Par rapport au modèle vide, le modèle complet (modèle 8) amène à une réduction de la variance inter-classe de 59 % et de la variance intra-classe de 23 %.

Commentons les résultats provenant du modèle complet. On note que l’augmentation d’une unité sur l’échelle de l’implication au test s’accompagne d’un gain de 0,07 écart-type de score, toutes choses égales par ailleurs. Une unité supplémentaire sur l’échelle de l’implication à l’épreuve notée amène à une augmentation de score de 0,04 écart-type. La difficulté perçue du test est liée négativement au score : un point supplémentaire sur cette échelle entraine une réduction du score de 0,07 écart-type. L’augmentation, d’un écart-type, de l’indicateur de l’intérêt/motivation vis-vis-de l’histoire-géographie est associé à un gain de score de 0,2 écart-type. Toutes choses égales par ailleurs, un garçon obtient un score d’un dixième d’écart-type plus élevé qu’une fille et un redoublant un score d’un demi écart-type moins élevé qu’un élève à l’heure. Enfin, le score varie également en fonction des caractéristiques d’établissements : toutes choses égales par ailleurs, un élève scolarisé dans le secteur de l’éducation prioritaire obtient un score en histoire-géographie moins élevé (de 0,14 écart-type) et celui inscrit dans un collège privé un score plus élevé (de 0,23 écart-type) par rapport à celui suivant sa scolarité dans un établissement public hors éducation prioritaire. Outre l’implication individuelle, le niveau d’implication de la classe joue un rôle sur le score, les élèves provenant des classes plus impliquées en moyenne ayant des scores plus élevés (l’augmentation d’une unité de cet indicateur par classe est associée à un gain de score de 0,14 écart-type).[12]

Tableau 10 : Modèles multiniveaux

Conclusions

L’analyse et la comparaison des données recueillies par des instruments de mesure de motivation – « thermomètre d’effort » ou « échelles d’application » – mettent en évidence des différences dans les résultats ainsi que dans les conclusions qui peuvent en être tirées. L’implication des élèves étant liée à la difficulté (perçue) du test, la nécessité d’ajouter une échelle pour mesurer cette difficulté se manifeste. Les échelles « d’application » semblent ainsi mieux adaptées pour rendre compte de l’implication des élèves français que le thermomètre « d’effort » utilisé dans PISA. En outre, comportant une charge de lecture considérablement moindre que ce dernier, l’instrument modifié est censé moins désavantager les lecteurs faibles.

La validité de cet instrument a été interrogée lors de l’étude qualitative. Les renseignements provenant des entretiens collectifs avec des élèves montrent que ceux-ci ont bien compris les trois questions relatives au test qui leur étaient posées à la fin de l’évaluation. La compréhension de l’instrument ne semble ainsi pas prêter à confusion. En outre, les élèves ont eu la possibilité de donner leur avis et proposer des améliorations pour ces trois questions. De manière assez collégiale, ils proposent de réduire les échelles. Plus précisément, de les ramener à 5 possibilités de réponses, avec un milieu identifiable, deux extrêmes mais aussi la possibilité de mitiger leur réponse grâce aux entre-deux.

La motivation face au test, comme nous l’avons vu, varie selon les caractéristiques d’élèves, les garçons et les redoublants se manifestant relativement moins impliqués. De même, l’implication semble moindre dans le secteur de l’éducation prioritaire, ce qui confirme, dans le contexte français, les tendances repérées dans une étude précédente (Jakwerth, Stancavage & Reed 1999) selon laquelle la motivation posait problème dans des établissements caractérisés par le plus faible niveau des élèves.

La relation entre l’implication au test et la performance semble, selon notre étude, plutôt modeste. En outre, les différences en termes d’implication ne sont pas considérables entre les établissements. Néanmoins, l’étude qualitative a pu mettre en évidence le rôle que peut jouer le personnel de l’établissement dans la propension des élèves à participer à l’évaluation. Les entretiens conduits dans des établissements ayant pris le soin d’informer les élèves sur l’importance et l’utilité de l’évaluation ont révélé que les élèves de ces collèges comprenaient mieux pourquoi ils passaient ce test, sans conséquence directe pour eux. Les études précédentes (Eklöf 2008 ; Jakwerth et alii 1999) soulignent également l’importance du rôle des chefs d’établissement et des enseignants dans la motivation des élèves face aux tests à faibles enjeux.

Références

Bobineau, M. (2013). Evaluations dites « à faibles enjeux » : quelle perception et implication de la part des élèves ? Etude qualitative à partir de CEDRE Sciences 2013 (Rapport de stage). DEPP-MEN.

Butler, J., Adams, R. J. (2007). The Impact of Differential Investment of Student Effort on the Outcomes of International Studies, Journal of Applied Measurement, 8(3), 279-304.

Eklöf, H. (2008). Test-taking motivation on low-stakes tests: A Swedish TIMSS 2003 example, IERI Monograph Series: Issues and Methodologies in Large-Scale Assessments, 1, 9-21.

Jakwerth, P. M., Stancavage, F. B. & Reed, E. (1999). An Investigation of Why Students Do Not Respond to Questions (NAEP Validity Studies Panel). Palo Alto, CA. American Institute for Research.

Keskpaik, S., Rocher, T. (2012). Les évaluations à faibles enjeux : quel rôle joue la motivation ? Une expérience à partir de PISA. Communication dans le cadre du 24e colloque de l’Admée-Europe, Luxembourg.

Ndinga, P., Frenette, E. (2010). Elaboration et validation de l’Echelle de motivation à bien réussir un test (EMRT), Mesure et évaluation en éducation, vol 33, n° 3, 99-123.

OCDE (2007). PISA 2006. Les compétences en sciences, un atout pour réussir. Volume 2 : Données. Paris : OCDE.

O’Neil, H. F., Abedi, J., Lee, C., Miyoshi, J. & Mastergeorge, A. (2004). Monetary Incentives for Low-Stakes Tests (CSE Report 625). Los Angeles, CA. University of California: CRESST.

Penk, C., Poehlmann, C., & Roppelt, A. (2013, April). Do Test-Takers Give Their Best? Motivational Determinants of Test Performance in Low-Stakes Assessments. Paper presented at the annual meeting of the American Educational Research Association, San Francisco.



[1] Cet instrument varie légèrement selon le niveau scolaire. Au collège, les échelles sont à 10 positions (Figure 2). En revanche, à l’école, une échelle à 4 positions a été préférée, jugée plus adaptée aux élèves du niveau primaire.

[2] Lorsque l’on étudie ce lien dans PISA, on note que le coefficient de corrélation est positif. Cela signifie que plus les exercices sont jugés difficiles par les élèves, plus ceux-ci déclarent avoir fourni d’effort pour y répondre. Les élèves qui disent avoir fourni beaucoup d’effort en répondant au test l’ont-ils fait car ils se sentaient très impliqués ou alors parce que la difficulté des exercices leur a demandé un effort considérable ? Le terme « effort » semble en effet ambigu pour informer sur la motivation des élèves face au test.

[3] L’évaluation bilan en histoire-géographie fait partie du cycle des évaluations disciplinaires réalisées sur échantillons (CEDRE) que la DEPP a commencé à mettre en place en 2003 afin de rendre compte des résultats du système éducatif français au regard des objectifs fixés par les programmes.

[4] Nous nous concentrerons désormais sur le niveau collège, où l’implication des élèves semble davantage poser de problème qu’à l’école.

[5] L’évaluation du dispositif d’enseignement intégré de sciences et technologie. Il s’agit d’une étude longitudinale, les élèves profitant du dispositif et les élèves témoin ont été évalués à 5 reprises entre novembre 2008 et mai 2012. Comme le thermomètre d’effort n’a été ajouté qu’aux deux dernières sessions d’évaluation, nous regarderons ici uniquement les données provenant de la session 4 (les élèves sont en grade 8) et de la session 5 (grade 9).

[6] Les évaluations du socle commun des connaissances et des compétences.

[7] Les différences entre les évaluations peuvent s’expliquer, en partie, par le terme utilisé dans l’instrument de mesure de motivation. Les évaluations CEDRE histoire-géographie et Socle emploient le terme « application », les autres tests mesurant l’investissement des élèves à l’aide du thermomètre « d’effort ».

[8] Sur une échelle à 4 positions, les élèves étaient incités à exprimer leur degré d’accord avec les affirmations suivantes : « Ce que je fais en science est intéressant », « Je participe en science parce que j’aime bien chercher »,  « Je travaille en science parce que j’aime bien cette discipline »,  « Je participe en science parce que j’aime bien faire des expériences ».

[9] Nous avons effectué une analyse en composantes principales sur les données de la session 4 et nous avons utilisé ces résultats pour calculer les scores factoriels sur les données de la session 5. Seuls les individus participant aux deux sessions ont été retenus pour les analyses présentées ici.

[10] Les analyses présentées ici sont effectuées sur les données de l’évaluation CEDRE histoire-géographie. Il s’agit d’un échantillon de classes mais une seule classe par établissement a été tirée au sort, ce qui signifie que ces deux unités se recoupent.

[11] Le questionnaire de contexte adressé aux élèves à la fin de leur cahier d’évaluation comportait un certain nombre d’items relatifs à l’intérêt et la motivation vis-à-vis de l’histoire-géographie. Sur une échelle à 5 positions, les élèves étaient incités à indiquer à quelle fréquence ils s’intéressent, en dehors du collège, à l’histoire, à la géographie, à l’éducation civique « …en lisant des livres ou des revues sur ces sujets », « …en regardant des émissions de télévision ou des films », « …en cherchant des documents sur internet », « …en visitant des musées, des lieux historiques, des sites géographiques » (jamais, rarement, de temps en temps, souvent, très souvent). Le questionnaire les interrogeait également sur leurs sentiments vis-à-vis de la discipline : « A propos de l’histoire / la géographie / l’éducation civique, vous diriez… » (j’adore, j’aime bien, j’aime moyennement, je n’aime pas du tout, je déteste). Nous avons employé l’analyse en composantes principales afin de construire un indicateur synthétisant tous ces items.

[12] Afin de vérifier si de tels résultats sont spécifiques à cette évaluation, nous avons testé le même modèle sur les données de l’évaluation Socle. Nous observons quelques variations mais le profil de régression est identique, nous retrouvons les mêmes tendances et les mêmes ordres de grandeur des coefficients.

 

Fichier attachéTaille
figure1.png32.18 Ko
figure2.png65.42 Ko
figure3.png36.32 Ko
figure4.png34.27 Ko
figure5.png32.3 Ko
tableau1.png3.98 Ko
tableau2.png6.73 Ko
tableau3.png6.68 Ko
tableau4.png6.2 Ko
tableau5.png6.8 Ko
tableau6.png9.1 Ko
tableau7.png17.4 Ko
tableau8.png4.73 Ko
tableau9.png3.68 Ko
tableau10.png26.67 Ko