Μια χιουμοριστική μελέτη που δημοσιεύει το The British Medical Journal ενόψει των εορτών αποκαλύπτει ότι τα κορυφαία μοντέλα τεχνητής νοημοσύνης εμφανίζουν ήπια γνωσιακή έκπτωση, ένα στάδιο που προηγείται της διάγνωσης άνοιας.
Οι ερευνητές, νευρολόγοι από το Ισραήλ και τη Βρετανία, χρησιμοποίησαν καθιερωμένα γνωσιακά τεστ για να αξιολογήσουν διάφορα δημοφιλή «μεγάλα γλωσσικά μοντέλα», τα οποία απαντούν σε ερωτήσεις και δημιουργούν κείμενα σύμφωνα με τις οδηγίες του χρήστη. Ανάμεσα στα μοντέλα που εξετάστηκαν ήταν οι εκδόσεις 4 και 4o του ChatGPT από την OpenAI, οι βερσιόν 1 και 1.5 του Gemini από τη Google και το Claude 3.5 της Anthropic.
Απογοητευτικά αποτελέσματα
Όλα τα μοντέλα υποβλήθηκαν στο τεστ MoCA, το οποίο είναι σχεδιασμένο για να ανιχνεύει τα πρώτα σημάδια άνοιας. Το τεστ περιλαμβάνει ερωτήσεις που εξετάζουν την προσοχή, τη μνήμη, τις γλωσσικές ικανότητες, την αντίληψη του χώρου και τις εκτελεστικές λειτουργίες του εγκεφάλου. Το μέγιστο σκορ είναι 30, με το κατώτατο όριο του φυσιολογικού να είναι το 26.
Τα μοντέλα ΑΙ έλαβαν τις ίδιες οδηγίες που δίνονται και στους ανθρώπους, με τις επιδόσεις τους να αξιολογούνται από νευρολόγο. Το ChatGPT 4o πέτυχε την καλύτερη βαθμολογία, 26 στα 30, ακολουθούμενο από το ChatGPT 4 με 25 στα 30. Το Gemini παρουσίασε τις πιο ανησυχητικές ενδείξεις άνοιας με σκορ μόλις 16 στα 30.
Επιπλέον, όλα τα chatbot παρουσίασαν χαμηλές επιδόσεις σε τεστ που αξιολογούν τη χωρική αντίληψη και τις εκτελεστικές λειτουργίες, όπως το τεστ όπου έπρεπε να ταξινομήσουν αριθμούς και γράμματα σε αύξουσα σειρά. Ένα άλλο χαρακτηριστικό παράδειγμα αποτυχίας ήταν το τεστ του ρολογιού, στο οποίο οι συμμετέχοντες καλούνται να σχεδιάσουν τους δείκτες ώστε να δείχνουν μια συγκεκριμένη ώρα.
Αξιοσημείωτο είναι ότι όλα τα chatbot δυσκολεύτηκαν να εκφράσουν ενσυναίσθηση ή να ερμηνεύσουν οπτικά πολύπλοκες εικόνες. Το Gemini απέτυχε επίσης σε ένα απλό τεστ μνήμης, όπου έπρεπε να θυμηθεί μια ακολουθία πέντε λέξεων.
Η ερευνητική ομάδα αναγνωρίζει ότι τα μεγάλα γλωσσικά μοντέλα λειτουργούν με διαφορετική αρχιτεκτονική σε σχέση με τον ανθρώπινο εγκέφαλο. Παρά τις εντυπωσιακές δυνατότητές τους, τα ευρήματα δείχνουν ότι η τεχνητή νοημοσύνη δεν είναι έτοιμη να αναλάβει ρόλο γιατρού.
«Όχι μόνο είναι απίθανο να αντικατασταθούν σύντομα οι νευρολόγοι από μεγάλα γλωσσικά μοντέλα, αλλά τα ευρήματά μας υποδεικνύουν ότι μπορεί να βρεθούμε σύντομα να διαχειριζόμαστε νέους εικονικούς ασθενείς: μοντέλα τεχνητής νοημοσύνης με γνωσιακή έκπτωση» αναφέρουν οι ερευνητές.
Η ετήσια χριστουγεννιάτικη έκδοση του The British Medical Journal περιλαμβάνει παραδοσιακά και χιουμοριστικές μελέτες, όπως αυτή του 2011 όπου χειρουργοί περιγράφουν τον καλύτερο τρόπο ραψίματος μιας γεμιστής γαλοπούλας.