© ISTOCK
ΤΕΧΝΟΛΟΓΙΑ

Whisper, το bot που ακούει όσα λέμε και τα μεταφράζει στα αγγλικά

Ένα μοντέλο μεταγραφής ομιλίας σε γραπτό λόγο, που είναι καλύτερο από τους προκατόχους του για μια σειρά από λόγους. Όπως φαίνεται από την τελευταία επένδυση της Microsoft, κανείς στο μέλλον δε θα χρειάζεται να γράφει.

Πότε θα ξεκινήσει να δίνει πίσω τα λεφτά του το «μαύρο άλογο» της Microsoft που ακούει στο όνομα OpenAΙ; Σύμφωνα με στοιχεία που επικαλούνται διεθνή Μέσα, όπως το Fortune και το Semafor (από τον πρώην CEO του Bloomberg), στις αρχές της τρέχουσας χρονιάς ο τεχνολογικός κολοσσός έκανε τη μεγαλύτερη επένδυση της ιστορίας του, προσθέτοντας επιπλέον 10 δισεκατομμύρια δολάρια στο lab τεχνητής νοημοσύνης του Σαν Φρανσίσκο που έχει κάνει τον κόσμο να παραμιλά με το ChatGPT και τις ικανότητές του.

Τρεις μήνες έπειτα απ’ το πολυσυζητημένο launch που σαν τον Προμηθέα έφερε τη φωτιά της νέας τεχνολογίας στους χρήστες του παγκόσμιου ιστού, και ενώ στο ενδιάμεσο έχουν εμφανιστεί δεκάδες ανάλογα εργαλεία στην αναπτυσσόμενη αγορά της τεχνητής νοημοσύνης, έφτασε η στιγμή για το επόμενο βήμα: η εταιρεία OpenAI έθεσε τα κύρια εργαλεία της στην υπηρεσία των απανταχού προγραμματιστών.

Τι σημαίνει αυτό; Τόσο το ChatGPT όσο και το Whisper, ένα εργαλείο το οποίο θα αναλύσουμε στη συνέχεια, προσφέρονται πλέον σε μορφή API, γεγονός που επιτρέπει στην ενσωμάτωσή τους σε επιμέρους εφαρμογές και ιστοσελίδες. Τα API είναι κάτι σαν μεσάζοντες μεταξύ δύο προγραμμάτων.

Με άλλα λόγια, τα εργαλεία αυτά περνάνε τώρα από τη φάση δοκιμής στη φάση εφαρμογής: δεν είναι ένα απλά ένα εντυπωσιακό και ενίοτε αστείο chatbox που όλοι ασχολούμαστε μαζί του από περιέργεια, αλλά γίνεται ένας πολύτιμος βοηθός για τις επιχειρήσεις στην εξυπηρέτηση πελατών, τη μαζική απάντηση αδιάβαστων emails κοκ.

Ειδικά για το ChatGPT API, διευκρινίστηκε ότι βασίζεται στο γλωσσικό μοντέλο GPT 3.5 Turbo (πρόκειται για τη νεότερη έκδοση του ChatGPT) και πρόκειται να αναβαθμίζεται ανά τακτά χρονικά διαστήματα. Η τιμή ανέρχεται στα 0,002 δολ ανά 750 λέξεις περίπου.

Ωστόσο, το ενδιαφέρον είναι ότι σε μορφή API εκδόθηκε επίσης το Whisper, το πρόγραμμα μετατροπής φωνής σε κείμενο της εταιρείας OpenAI, πράγμα το οποίο προδίδει την τάση της αγοράς: ίσως την επόμενη μέρα να μη χρειάζεται να γράφουμε, παρά μόνο να μιλάμε. Παρεμπιπτόντως, από μια οικονομική μελέτη των MarketsandMarkets, εικάζεται ότι μέχρι το 2026 αυτό το κομμάτι της αγοράς θα αφορά 5,4 δισ. δολάρια, ενώ αυτή τη στιγμή αφορά περίπου 2,2.

Φαίνεται ότι στο πλαίσιο της τεχνητής νοημοσύνης η ομιλία θα αποτελέσει το next big thing.

Τι κάνει το Whisper (και ανάλογα bots)

«Ποιο είναι το μυστικό σας για εξαιρετική αναγνώριση ήχου; – Ψιθύρισέ το», έλεγε με νόημα η εταιρεία Open AI για να προωθήσει το Whisper, μερικούς μήνες πριν και συγκεκριμένα τον περασμένο Σεπτέμβριο (δηλαδή λίγο πριν ανοίξει τον ασκό του αιόλου με το ChatGPT). Ένα «μοντέλο αναγνώρισης φωνής για γενική χρήση», το οποίο πρακτικά αφενός αντιλαμβανόταν την ομιλία μέσα σε ένα ηχητικό αρχείο και αφετέρου την κατέγραφε σε γραπτό λόγο. Ήταν δηλαδή ο προσωπικός σου γραμματέας.

Και πάλι, το εργαλείο στον τομέα του ήταν μια μικρή επανάσταση: σε σχέση με τα προηγούμενα μοντέλα μετατροπής φωνής σε κείμενο, το Whisper παρουσίασε έως και 50% καλύτερη απόδοση, χωρίς να εμφανίζει προβλήματα σε διαφορετικές προσφορές, άμα υπήρχε θόρυβος στο ηχητικό αρχείο ή άλλα τεχνικά προβλήματα.

Ο λόγος, όπως εξηγεί σε αναλυτικό κείμενο η OpenAI, είναι ότι εκπαιδεύτηκε σε ένα μεγάλο και πολυποίκιλο σύνολο δεδομένων (περίπου 680.000 ώρες υλικού που συλλέχθηκε από το ίντερνετ), το 1/3 εκ των οποίων δεν ήταν στην αγγλική γλώσσα. Έτσι, το εργαλείο αυτό αποδεικνύεται αποτελεσματικό σε ένα πολύ μεγαλύτερο εύρος γλωσσών, σε σχέση με τους προκατόχους του.

Συγκεκριμένα, το εργαλείο της OpenAI έχει τη δυνατότητα να μεταγράψει την ομιλία σε γραπτό λόγο σε 99 γλώσσες και να κάνει μετάφραση στα αγγλικά από ακόμη περισσότερες. Όσον αφορά τη λειτουργία, το «μηχάνημα» χωρίζει το ηχητικό αρχείο σε κομμάτια 30 δευτερολέπτων και μέσω του μετατροπέα αντιστοιχεί το ηχητικό με το γραπτό αποτύπωμα μιας λέξης, διαμορφώνοντας τελικά της φράσης μέσω της πρόβλεψης (που είναι και το βασικό εργαλείο στη λειτουργία του ChatGPT).

Πέρα από το εντυπωσιακό του πράγματος, η δυνατότητα μεταγραφής ομιλίας σε κείμενο έφερε την τεχνητή νοημοσύνη ένα βήμα κοντύτερα, όχι στα θέλω, αλλά τις ανάγκες του ανθρώπου, αφού στο μέλλον φαίνεται να είναι πλήρως απαλλαγμένος από χρονοβόρες αλλά απαραίτητες διαδικασίες, όπως τα Πρακτικά των συμβουλίων και των δικαστηρίων, απομαγνητοφωνήσεις κ.ά.