Eine von Forschern der Purdue University durchgeführte Studie hat die Genauigkeit und Qualität von ChatGPT bei der Beantwortung von Programmierfragen beleuchtet, die typischerweise auf Stack Overflow zu finden sind. Die Ergebnisse, die in den Proceedings der CHI Conference on Human Factors in Computing Systems veröffentlicht wurden, lassen erhebliche Bedenken hinsichtlich der Korrektheit und Prägnanz der Antworten von ChatGPT aufkommen.
Während wir den Studienautoren zwar grundsätzlich recht geben würden, dass sich ChatGPT vor allem für die Einarbeitung in neue Themen eignet, und bei komplexen Aufgabenstellungen oft noch überfordert ist, finden wir es doch ein wenig unfair, wie im Kleingedruckten der Studie zu lesen, dass die Tests mit GPT-3.5 durchgeführt wurden. Das ist ordentlich weit weg von der aktuellen Version 4o, die in einer völlig anderen Liga spielt. Es ist ein bisschen so, als würde man die Leistung eines 10-Jährigen in der A-Jugend bewerten wollen. Hat die Angst vor Jobverlust die Feder geführt?
Das Beitragsbild hat übrigens ChatGPT 4o erstellt, mit dem Prompt „Bild eines Baby-Roboters in 16:9“.