banner
Centre d'Information
Restez connecté grâce à notre service en ligne 24h/24.

Actualités Optique & Photonique

May 21, 2023

Hannah Lanford

Gerd Kortemeyer

Qu'est-ce que cela signifie pour les enseignants si un chatbot IA peut réussir un cours de physique ? Intrigué par le débat autour des grands modèles linguistiques dans le monde universitaire, Gerd Kortemeyer, aujourd'hui directeur du développement et de la technologie de l'éducation à l'ETH Zurich, en Suisse, a décidé de mettre ChatGPT à l'épreuve, littéralement. Il rapporte que, sur la base de ses réponses aux devoirs et examens réels pour un cours de physique basé sur le calcul, GPT-3.5 aurait en effet réussi une note de passage (à peine) (Phys. Rev. Phys. Educ. Res., doi : 10.1103/ PhysRevPhysEducRes.19.010132).

Pour certains, ce résultat peut susciter des inquiétudes quant à l'intégrité académique. Mais Kortemeyer, qui a enseigné la physique d'introduction aux États-Unis pendant de nombreuses années, ne s'inquiète pas particulièrement du potentiel de l'IA pour permettre la triche. Au lieu de cela, dit-il, cela soulève des questions sur la façon dont nous enseignons et évaluons réellement les étudiants en physique. OPN a parlé avec Kortemeyer de ses réflexions sur l'avenir de l'enseignement de la physique et du GPT, et des compétences «intrinsèquement humaines» qu'il espère transmettre dans ses cours.

Gerd Kortemeyer : Je n'aurais pas dû trouver cela surprenant, mais je l'ai fait au départ, à quel point les erreurs du bot étaient proches des erreurs commises par de vrais étudiants. Je ne devrais pas être surpris car je ne sais pas exactement avec quel corps de texte il a été formé - il peut même avoir contenu des forums de discussion sur la physique.

Mais j'ai été surpris que quelque chose qui n'est rien de plus qu'un mécanisme de saisie semi-automatique probabiliste, essentiellement la correspondance de modèles, imiterait le comportement des étudiants. Cela me fait remettre en question ce que nous avons testé tout ce temps.

Sommes-nous en train de tester le pattern matching ? Donnons-nous des notes de physique basées sur la correspondance de motifs, si un tel algorithme peut faire l'affaire ?

Si un étudiant est foré vers ces évaluations standardisées, il est en quelque sorte transformé en un petit robot. Vous avez essentiellement formé ces enfants à faire aussi bien qu'une machine.

OpenAI a publié un article montrant comment GPT fait des évaluations standardisées. Pour l'ACT, le SAT, tous ceux-là, ça se termine dans les centiles supérieurs. Cela signifie donc que si un étudiant est entraîné vers ces évaluations standardisées, il est en quelque sorte transformé en un petit robot. Vous avez essentiellement formé ces enfants à faire aussi bien qu'une machine. Et ça me fait peur.

La note des cours d'introduction à la physique est également basée sur des évaluations très standard : examens, devoirs, projets de programmation et questions au clicker. Je ne devrais donc pas être si surpris que ChatGPT ait réussi, car au final, résoudre ces problèmes d'introduction à la physique est une chose très algorithmique.

Eh bien, les étudiants doivent encore être capables de résoudre ces problèmes. Si vous voulez faire n'importe quel type de physique avancée, tous ces concepts de base comme les lois de Newton, les lois des circuits, etc., vous devez avoir ces connaissances pratiques au fond de votre esprit. Parce que si vous ne pouvez pas tirer parti de ces connaissances immédiatement, vous ne pourrez pas progresser en physique. Donc, même si l'IA peut faire la physique de base, je dois être en mesure d'évaluer que les étudiants peuvent toujours le faire aussi. Et les outils d'IA vont à coup sûr échouer dans tout ce qui est de la physique vraiment avancée.

Il nous reste donc à évaluer ces éléments, mais pas uniquement. À mesure que l'intelligence artificielle s'améliore, nous devons également nous concentrer sur les compétences intrinsèquement humaines. Qu'est-ce que l'intelligence humaine ? Qu'est-ce que la créativité humaine ? Dans mes cours, j'essaie toujours d'enseigner un peu plus que simplement mémoriser des faits. Je veux que les gens soient curieux de la physique, qu'ils aient un esprit critique, qu'ils appliquent ces principes à des situations quotidiennes. Je veux que tous ces types de processus métacognitifs fonctionnent.

Disons que je donne un problème de devoirs et à la fin, votre réponse est qu'une voiture roule à 4000 milles à l'heure. En tant qu'être humain, vous regardez cela et vous dites : "C'est probablement 40 milles à l'heure. Revenons en arrière. Qu'est-ce que j'ai fait ici ?" Les humains ont la capacité de se demander : est-ce même réaliste ?

Je ne peux pas dire jamais, mais l'intelligence artificielle est loin de découvrir quoi que ce soit de nouveau. Parce qu'il ne se remet pas en question. Il ne remet pas en cause la nature.

Si j'obtiens la même réponse folle d'une IA, cela continue avec cette réponse. Quand c'est faux, c'est faux de deux ordres de grandeur et c'est comme, "Et alors? C'est mon résultat." Les humains ont cette capacité à penser constamment en arrière-plan, cela peut-il même être vrai ? C'est une façon complètement différente d'évaluer votre réponse; ce n'est pas la voie qui vous a amené à la solution. L'IA n'a actuellement aucun de ces processus. Cela se déroule simplement et affiche un résultat.

Examiner un problème, faire des calculs et penser, hein, c'est intéressant, comment est-ce arrivé ? Je ne peux pas dire jamais, mais l'intelligence artificielle est loin de découvrir quoi que ce soit de nouveau. Parce qu'il ne se remet pas en question. Il ne remet pas en cause la nature.

Je pense que la seule façon de les évaluer est d'effectuer une évaluation beaucoup plus longue et à plus grande échelle. L'exemple ultime en est votre thèse de doctorat. Une personne travaille pendant des années, recherchant quelque chose qui est, jusque-là, complètement inconnu. Si vous n'avez pas la curiosité, la métacognition, les connaissances fondamentales, tous ces outils, vous ne pourrez pas terminer une thèse de doctorat en physique.

Alors, comment réduisez-vous cela aux niveaux inférieurs? La seule façon que je pouvais trouver dans mes cours était d'attribuer des projets plus longs. J'ai demandé à des étudiants de faire des choses comme faire des vidéos "MythBusters", où ils ont choisi un mythe urbain à rechercher et à mettre en place une explication de la physique réelle derrière. J'ai demandé à un groupe de poser la question, si vous êtes dans une bagarre dans un bar, vaut-il mieux se faire écraser une bouteille pleine ou vide sur la tête ?

Ils ont donc construit une petite machine avec une "tête" de boule de billard sur un "cou" à ressort, ont placé un capteur d'accélération sur la boule de billard, ont fabriqué un bras oscillant auquel ils pouvaient attacher des bouteilles, ont écrasé les bouteilles contre la boule et ont mesuré le accélération. Ils ont découvert que la pire chose qui puisse arriver est que la bouteille ne se casse pas parce que l'énergie ne se dissipe pas. Et ils ont bien documenté la physique de celui-ci.

C'est là que vous pouvez séparer les personnes qui font juste du pattern matching de celles qui sont vraiment intéressées. Et parfois, des étudiants qui pourraient ne pas être 4.0, des étudiants parfaits sur des évaluations traditionnelles prospèrent dans cet environnement. C'est une autre dimension de la science. Cela prend juste beaucoup plus de temps, et la notation est bien sûr plus subjective.

J'ai enseigné à beaucoup d'étudiants en prémédecine aux États-Unis, et pour eux, le message était le suivant : si la note de votre cours n'est pas de 4,0, la note la plus élevée est un échec. Et en fait, un directeur des admissions à la faculté de médecine qui visitait notre université a dit : « Si vous n'avez qu'un 3,5 en physique, vous feriez mieux d'avoir une bonne raison. Et j'ai pensé, tu plaisantes. Un 3.5 est une excellente note en physique.

La joie est évacuée de tout cela. Je suis physicien parce que j'aime ça. Les élèves de la classe – beaucoup d'entre eux n'ont pas apprécié l'expérience.

La joie est évacuée de tout cela. Je suis physicien parce que j'aime ça. Les élèves de la classe – beaucoup d'entre eux n'ont pas apprécié l'expérience. Je peux faire mes petites blagues, je peux essayer d'être divertissant, je peux essayer de faire planter et casser les choses. Mais au final, ils savent que ce qui compte, c'est s'ils ont un 4.0 ou un 3.5. Et les facultés de médecine devraient tenir compte du fait qu'une fois qu'une IA peut obtenir un 4.0 dans les bons cours, allons-nous admettre cette chose à la faculté de médecine ? Pourquoi pas? Que manque-t-il ?

Si nous en retirons tout le plaisir et que nous le rendons tellement axé sur les notes et les normes d'évaluation, alors nous avons réduit les élèves au niveau de l'intelligence artificielle. C'est un danger ici.

Au moins à l'ETH Zurich, nous essayons vraiment de nous empêcher de porter des jugements rapides et d'appliquer immédiatement les réglementations. Certaines universités ont immédiatement décidé de l'interdire et ont déclaré : « Pas un seul mot généré par l'IA ne peut se retrouver dans quelque chose qui est en cours d'évaluation. C'est du plagiat, c'est de l'écriture fantôme. Ils appliquent essentiellement des termes du passé à cette nouvelle technologie, puis passent à l'étape suivante et disent que c'est pourquoi c'est interdit.

Nous avons écrit un article de blog sur le fait que l'IA n'est pas une pandémie. Lorsque le COVID-19 a frappé, nous avons immédiatement mis en place des règles et des règlements parce que nous devions le faire - c'était une pandémie mortelle. Et nous essayons simplement de mettre en garde notre université contre le fait de voir l'IA de la même manière et de proposer immédiatement des règles et des règlements avant d'avoir compris ce qu'elle est réellement.

Si l'intelligence artificielle est disponible pendant les examens, le vrai problème n'est pas de parler à l'intelligence artificielle, le vrai problème est de parler à d'autres personnes. Dès que vous rendez l'intelligence artificielle disponible en tant que service cloud, les étudiants peuvent également se parler. Ce serait un moyen beaucoup plus efficace de tricher que de travailler avec une IA. Si je peux voir une réponse faisant autorité de mon ami professeur, pourquoi ferais-je confiance à une réponse probabiliste d'une IA ? C'est donc en fait le plus gros obstacle. Avec l'intelligence artificielle vient la connectivité Internet et la communication humaine.

À l'ETH, nous avons ces énormes évaluations qui durent des heures, et nous pensons les faire en deux parties. Alors peut-être que la première partie est entièrement papier et crayon. Pas de calculatrices de poche, rien. Et c'est ainsi que nous évaluons les connaissances fondamentales, en enlevant tout cela.

Et puis la deuxième partie est des problèmes beaucoup plus avancés, et ils peuvent fonctionner comme ils fonctionneraient dans la vraie vie. Vous avez tous les outils à votre disposition, et ce n'est pas seulement l'IA, c'est des trucs comme Wolfram Alpha, des outils de statistiques, tout ce que vous avez sur votre ordinateur portable.

La seule chose qui reste problématique est la communication interpersonnelle. Je veux dire, tout est collaboratif - peut-être que vous pouvez avoir des examens de groupe. Mais ton ami professeur de physique, c'est probablement là qu'il faut tracer une ligne.

La plus grande menace que je vois est que les gens croient aveuglément au résultat de l'intelligence artificielle. La remise en question critique de ce qui ressort de l'IA est quelque chose que les gens n'ont tout simplement pas appris.

La plus grande menace que je vois est que les gens croient aveuglément au résultat de l'intelligence artificielle. La remise en question critique de ce qui ressort de l'IA est quelque chose que les gens n'ont tout simplement pas appris. Il crache des trucs qui semblent tellement plausibles. Tout ce qu'il dit ressemble à la vérité absolue, il n'y a pas de qualificatifs. Même si l'ensemble de l'algorithme est complètement probabiliste, il ne vous donne aucune probabilité d'être correct.

Si les gens ne remettent pas en question ce qui sort de l'IA, cela pourrait littéralement conduire au désastre. Il y a eu des accidents d'avion parce que les pilotes ne savaient même plus vraiment comment piloter l'avion et ne remettaient pas en question la sortie de l'ordinateur même quand elle était fausse.

Ainsi, cette confiance aveugle, amplifiée par les médias sociaux, permet à n'importe quoi d'être diffusé au monde en un rien de temps. Et puis la fiction plausible - ce que l'IA produit en ce moment - devient un fait. Et si cette même fiction alimente le prochain corpus de texte, les prochaines données d'entraînement, nous nous éloignons de plus en plus de ce qui est vrai. C'est donc le plus grand défi du moment.

Je vois une opportunité chez les gens qui l'utilisent comme un outil. Ainsi, par exemple, surmonter le blocage de l'écrivain. Vous lui dites d'écrire un essai sur n'importe quel sujet. Ensuite, il produit sa belle fiction plausible, qui peut être un bon point de départ. Ensuite, vous commencez à le modifier, à le corriger, à changer les choses avec lesquelles vous n'êtes pas d'accord, mais parfois, modifier est tellement plus facile que de repartir de zéro.

Cela, bien sûr, soulève la question : y a-t-il encore de petits extraits de texte qui proviennent directement de ChatGPT ? Probablement oui. Est-ce maintenant du plagiat ou de l'écriture fantôme ? Honnêtement, je peux dire que j'ai fait le morceau de texte le mien, mais il y a probablement trois ou quatre mots dans le même ordre qui sont sortis de ChatGPT. Cela devrait-il être interdit ? Je ne pense pas. Le plagiat consiste à revendiquer le travail des autres comme étant le vôtre. Je pense que cela peut encore être considéré comme mon propre travail. J'utilise l'IA comme un outil, de la même manière que j'utiliserais DeepL ou Grammarly pour traduire ou corriger un gros bloc de texte.

C'est un excellent moyen d'obtenir de nombreux points de vue différents sur un sujet, qui sont, après tout, rassemblés à partir d'un vaste corpus de textes. Vous avez donc un éventail d'opinions et d'idées sur un sujet. Vous devez toujours les parcourir, mais aucune recherche Google ne vous donnera cela.

Il peut également répondre à des questions très spécialisées. Pour un article récent, j'avais besoin de faire un certain type de tracé dans Excel. J'ai cherché sur Google pendant une demi-heure et je n'ai pas trouvé comment faire la chose. J'ai mis une phrase dans ChatGPT, et cela m'a donné la recette pour faire la bonne intrigue. Et c'était si efficace; il vient de répondre exactement à la question.

Donc, en tant qu'outil, cela peut être formidable. Je l'utilise très régulièrement de toutes sortes de manières.

Certainement - j'ai essayé certaines choses avec GPT-4, et ce sera dans la plage de 80% pour sa note de cours. C'est une bonne note en physique.

J'ai essayé certaines choses avec GPT-4, et ce sera dans la fourchette de 80% pour sa note de cours. C'est une bonne note en physique.

La prochaine frontière pour moi est de jouer avec l'entrée multimodale. Les problèmes de physique viennent assez souvent avec de petits croquis, alors essayez d'alimenter directement ces images dans le système plutôt que de raconter ce qu'il y a dans l'image.

Je l'ai également étudié à des fins de notation. Je viens de prendre tout un tas de dérivations de solutions de problèmes et j'ai demandé à ChatGPT de les noter sur une rubrique. Cela vous donnera un R2 supérieur à 0,8. Donc c'est plutôt prometteur. Tout n'est pas tout à fait là, mais c'est sur le point d'y être.

Date de publication : 06 juin 2023

Gerd Kortemeyer :