Zwei unterschiedliche Antworten von GPT4O – eine richtig, eine falsch.. !?

Aber das ist doch hier nicht das Problem, oder?

Das Problem liegt in der Argumentation.

Dem LLM Zugang zu einem Taschenrechner zu geben, hilft sicherlich (Chatbot hat diesen Zugang schon seit langem), aber das macht schlechte Logik oder Argumentation nicht wett: Die falsche Berechnung "korrekt" durchzuführen, ist wohl genauso schlimm wie eine falsche Berechnung durchzuführen. Tatsächlich kann ersteres den Fehler sogar überzeugender machen und ihn daher schwerer zu erkennen sein?

1 „Gefällt mir“