© iStock
ΑΙ

To ChatGPT απέκτησε φωνή και δυνατότητα διαχείρισης εικόνων

Οι εξελίξεις τρέχουν και η OpenAI προσπαθεί με κάθε τρόπο να ξεπεράσει τον ανταγωνισμό.

Η OpenAI, η πασίγνωστη πια εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, κυκλοφόρησε τη Δευτέρα 25 Σεπτεμβρίου μια νέα έκδοση του δημοφιλούς της chatbot που μπορεί να αλληλεπιδράσει με τους ανθρώπους χρησιμοποιώντας αυτήν τη φορά προφορικό λόγο. Ό,τι ακριβώς συμβαίνει δηλαδή με την Alexa της Amazon, τη Siri της Apple και άλλους ψηφιακούς βοηθούς. Οι χρήστες μπορούν να μιλήσουν στο ChatGPT και αυτό θα τους απαντήσει.

Επίσης, το δημοφιλές chatbot διαθέτει για πρώτη φορά τη δυνατότητα να ανταποκρίνεται σε εικόνες. Τι σημαίνει αυτό στο δια ταύτα; Ότι μπορούμε, για παράδειγμα, να ανεβάσουμε μια φωτογραφία του εσωτερικού του ψυγείου μας και εκείνο να μας δώσει μια λίστα με πιάτα τα οποία μπορούμε να μαγειρέψουμε με τα υλικά που έχουμε διαθέσιμα. Δίνοντάς του δηλαδή μια φωτογραφία ή ένα διάγραμμα, μπορεί να παρέχει μια λεπτομερή περιγραφή της εικόνας και να απαντά σε ερωτήσεις σχετικά με το περιεχόμενό της. Κάτι πολύ βοηθητικό για όλους τους χρήστες, και ιδιαίτερα για όσους έχουν προβλήματα όρασης.

Μάλιστα, πρέπει να σημειώσουμε ότι η OpenAI έχει επιταχύνει την κυκλοφορία των εργαλείων της τεχνητής νοημοσύνης τις τελευταίες εβδομάδες. Αυτόν τον μήνα, παρουσίασε μια έκδοση της γεννήτριας εικόνων DALL-E και ενσωμάτωσε το εργαλείο στο ChatGPT. Έτσι, με τη νέα έκδοση του bot, η OpenAI φιλοδοξεί να ξεπεράσει τα ανταγωνιστικά chatbots (όπως το Google Bard), ενώ παράλληλα ανταγωνίζεται παλαιότερες τεχνολογίες όπως η Alexa και η Siri.

Τι διαφορές και τι ομοιότητες υπάρχουν; Η Alexa και η Siri παρέχουν εδώ και καιρό τρόπους αλληλεπίδρασης με smartphones, φορητούς υπολογιστές και άλλες συσκευές μέσω προφορικού λόγου, αλλά τα chatbots όπως το ChatGPT και το Google Bard διαθέτουν πολύ πιο ισχυρές γλωσσικές δεξιότητες. Είναι, δηλαδή, σε θέση να γράφουν άμεσα emails, ποίηση, και να δώσουν απαντήσεις για οποιοδήποτε (σχεδόν) θέμα τους ζητηθεί.

Πρέπει πάντως να πούμε ότι οι αναβαθμίσεις του ChatGPT έρχονται σε μια εποχή που η Google προσπαθεί να βάλει τέλος στην παντοκρατορία της εφαρμογής της OpenAI μέσα από τον δικό της ψηφιακό βοηθό.

Πώς μεταμόρφωσε η OpenAI το ChatGPT

ChatGPT © AP Photo/Richard Drew

Η εταιρεία αναζητούσε την ομιλία ώστε να παράξει έναν πιο φυσικό τρόπο αλληλεπίδρασης με το chatbot της. Μάλιστα, υποστηρίζει ότι οι συνθετικές φωνές του ChatGPT (5 στο σύνολο) είναι πιο πειστικές από άλλες που χρησιμοποιούνται σε δημοφιλείς ψηφιακούς βοηθούς. Τις επόμενες δύο εβδομάδες, η νέα έκδοσή του θα αρχίσει να διατίθεται σε όλους όσους έχουν εγγραφεί στο ChatGPT Plus, μια υπηρεσία που κοστίζει 20 δολάρια τον μήνα. Να σημειώσουμε ότι το chatbot μπορεί να απαντά με φωνή μόνο όταν χρησιμοποιείται σε iPhones, iPads και συσκευές Android.

Αν και η φωνητική διεπαφή του ChatGPT θυμίζει παλαιότερους βοηθούς, η υποκείμενη τεχνολογία είναι θεμελιωδώς διαφορετική. Το ChatGPT καθοδηγείται κυρίως από ένα μεγάλο γλωσσικό μοντέλο, ή L.L.M., το οποίο έχει μάθει να παράγει γλώσσα «εν κινήσει» αναλύοντας τεράστιες ποσότητες κειμένου που προέρχονται από το διαδίκτυο.

Πιο συγκεκριμένα και σε σύγκριση με άλλα εργαλεία: Οι παλαιότεροι ψηφιακοί βοηθοί, όπως η Alexa και η Siri, λειτουργούσαν σαν κέντρα εντολών και ελέγχου που μπορούσαν να εκτελέσουν έναν καθορισμένο αριθμό εργασιών ή να δώσουν απαντήσεις σε μια πεπερασμένη λίστα ερωτήσεων που είχαν προγραμματιστεί στις βάσεις δεδομένων τους, όπως για παράδειγμα το «Alexa, άναψε το φως».

Η προσθήκη όμως νέων εντολών στους παλαιότερους βοηθούς θα μπορούσε να διαρκέσει εβδομάδες. Το ChatGPT από την άλλη μπορεί να απαντήσει έγκυρα σε σχεδόν κάθε ερώτηση που του απευθύνεται μέσα σε δευτερόλεπτα.

Τι συμβαίνει τώρα στην κοινότητα της A.I.

ChatGPT © Jonathan Kemper

Καθώς η OpenAI μετατρέπει το ChatGPT σε κάτι που μοιάζει περισσότερο με την Alexa ή τη Siri, εταιρείες όπως η Amazon και η Apple μετατρέπουν τους ψηφιακούς βοηθούς τους σε κάτι που μοιάζει περισσότερο με το ChatGPT. Όλοι αντιγράφουν όλους με λίγα λόγια.

Την περασμένη εβδομάδα, η Amazon παρουσίασε ένα preview ενός ενημερωμένου συστήματος για την Alexa που στοχεύει σε πιο ρευστή συζήτηση για «οποιοδήποτε θέμα». Οδηγείται εν μέρει από ένα νέο L.L.M. (το σύστημα που είδαμε προηγουμένως) και έχει άλλες αναβαθμίσεις στον ρυθμό και τον τονισμό για να ακούγεται πιο φυσικά, ανέφερε η εταιρεία.

Η επανάσταση της τεχνητής νοημοσύνης, λοιπόν, είνια εδώ. Το θέμα είναι ποιος θα βγει νικής.