© DALL-E
ΑΙ

Ζητήσαμε από το πρόγραμμα τεχνητής νοημοσύνης, DALL-E, να βάλει φωτιά στην Αθήνα. Και το έκανε.

Στην άλλη άκρη της οθόνης, βρίσκεται ένας απίστευτος «καλλιτέχνης» που κρύβει από τη μία τον Salvador Dali και απ’ την άλλη τον WALL-E. Πρόκειται για ένα από τα πιο επαναστατικά εργαλεία του σήμερα.

Τι κι αν σου έλεγα ότι αυτή τη στιγμή στον υπολογιστή μου έχω μια μοναδική εικόνα από επίσκεψη του Donald Trump στην Ακρόπολη, μια εκδοχή της Έναστρης Νύχτας του Van Gogh με γάτες και την Αθήνα τυλιγμένη στις φλόγες, όπως φαίνεται παραπάνω;

Και ότι για τα αρχεία αυτά δε χρειάστηκαν παρά ελάχιστα δευτερόλεπτα και μια σύντομη λεζάντα ώστε να παραχθούν, όχι από ανθρώπινο χέρι αλλά από ένα τρομερά εξελιγμένο τεχνητό νευρωνικό δίκτυο, που είναι εκπαιδευμένο να παράγει εικόνες που δεν υπήρξαν ποτέ;

Το όνομα αυτού είναι DALL-E και αποτελεί ένα από τα εργαλεία τεχνητής νοημοσύνης που διατέθηκαν ελεύθερα στους χρήστες τους περασμένους μήνες, εγείροντας ανησυχίες αλλά και θαυμασμό για το πόσο εξελιγμένοι είναι πλέον οι «εγκέφαλοι» του deep learning. Συγκεκριμένα, πρόκειται για έναν απ’ τους καρπούς του ερευνητικού εργαστηρίου/εταιρίας OpenAI, που ευθύνεται επίσης για το πιο επαναστατικό chatbox του σήμερα, το ChatGPT – ένα εργαλείο το οποίο αποκρινόμενο στις οδηγίες σου παράγει πρωτότυπα κείμενα, από σενάρια και σχολικές εργασίες μέχρι σύντομα αστεία.

Όπως εκείνο είναι εκπαιδευμένο στον κόσμο του γραπτού λόγου, έχοντας καταβροχθίσει άπειρα κείμενα και διαλόγους, έτσι το DALL-E είναι ο ιδανικός συνεργάτης για να οπτικοποιήσεις τα πιο απίστευτα πράγματα που φαντάστηκες ποτέ. Όπως τη Mona Lisa με μοϊκάνα, τη Γη επίπεδη, είτε κάτι ακόμη πιο σύνθετο, σαν να λέμε «ένα ρομπότ που τρώει τάκος, χαζεύοντας τη θάλασσα στα νησιά Φίτζι».

Ποια είναι η ιστορία του DALL-E

Το 2015, όταν οι αλγόριθμοι της μηχανικής μάθησης έφτασαν στο σημείο να αναλύουν επαρκώς το περιεχόμενο των φωτογραφιών, συμπληρώνοντας αφ’ εαυτού τις κατάλληλες λεζάντες, στο μυαλό των προγραμματιστών γεννήθηκε αυθόρμητα η εξής ιδέα, όπως παρέθεσε ο Elman Mansimov από την Amazon Web Services στο Vox:

Τι θα γινόταν εάν αντιστρέφαμε τη διαδικασία και βρίσκαμε τον τρόπο ώστε να παράγονται εικόνες από κείμενα;

Αυτό ακριβώς είναι που κάνει το DALL-E, όπως και άλλα ανάλογα εργαλεία που κυκλοφόρησαν την περασμένη χρονιά. Για παράδειγμα, υπάρχει επίσης το Midjourney που υπερτερεί σε φυσικότητα επί των καλλιτεχνικών στυλ και το Stable Diffusion που έχει καθαρότερα αποτελέσματα, βάσει των συγκρίσεων που έκανε ο Fabian Harmik Stelzer, ειδικός επί των θεμάτων της τεχνητής νοημοσύνης.

Το στοιχείο εκείνο που κάνει το DALL-E να ξεχωρίζει είναι η δύναμή του στην απόδοση φωτορεαλιστικών εικόνων. Συγκεκριμένα, ο ντόρος προκλήθηκε με την κυκλοφορία της δεύτερης, πολύ πιο εξελιγμένης έκδοσής του: τον Ιανουάριο του ’21 έγινε το launch στο DALL-E 1 και κοντά έναν χρόνο αργότερα, διατέθηκε το DALL-E 2. Αρχικά, σε επιλεγμένους από την εταιρία χρήστες (κυρίως εικαστικούς illustrators και προγραμματιστές), και από τον προηγούμενο Σεπτέμβρη η ιστοσελίδα έγινε προσβάσιμη προς όλους.

Τα νούμερα αναφέρουν πως 1.000 νέοι χρήστες προστίθενται κάθε εβδομάδα (όπως και το ChatGPT, είναι δωρεάν με εγγραφή μέσω email), ενώ κάθε ημέρα υπολογίζεται ότι παράγονται 2 εκατομμύρια εικόνες. Η «υπογραφή» στα έργα του DALL-E, ώστε να τα ξεχωρίσεις, είναι η σειρά από χρωματισμένα πίξελ κάτω δεξιά.

Και το όνομά του, εάν ενδιαφέρεσαι για το ντεσού, κρύβει από τη μία τον Salvador Dali και από την άλλη το ρομποτάκι WALL-E από τη γνωστή ταινία.

Πώς λειτουργούν τα εργαλεία παραγωγής εικόνων

Οι εικόνες δεν είναι παρά μια σειρά από πίξελ, έτσι δεν είναι; Με αυτόν τον τρόπο βλέπουν, επεξεργάζονται, αποσυνθέτουν και ανασυνθέτουν τον κόσμο τα εργαλεία παραγωγής εικόνων (image generators), δίνοντας στο τέλος κάτι που μοιάζει απόλυτα φυσικό στο ανθρώπινο μάτι. Πώς συμβαίνει αυτό; Μέσα από μια δύο στάδια, σε χονδρικές γραμμές: την εκπαίδευση μέσω δεδομένων (deep learning) και την ανασύνθεση στοιχείων (stable diffusion).

Σε πρώτη φάση, λοιπόν, ο «εγκέφαλος» τροφοδοτήθηκε με εκατοντάδες εκατομμύρια εικόνες κάθε κατηγορίας, οι οποίες προέρχονταν από το ίντερνετ και –όπως συμβαίνει σε κάθε ιστοσελίδα που στοχεύει να είναι φιλική στις μηχανές αναζήτησης– ήταν καταχωρημένες με λέξεις-κλειδιά και λεζάντες (στο πεδίο alt text).

Το ζήτημα είναι πώς στο καλό μπορεί ένα νευρωνικό δίκτυο να καταχωρήσει αυτόν τον αχανή όγκο, ώστε να είναι άμεσα προσβάσιμος και αξιοποιήσιμος, με το που λάβει μια περιγραφή από τον χρήστη; Ακραία οργάνωση.

Βολεύει να το φανταστούμε σαν μια τεράστια, πολυδιάστατη αποθήκη, όπου όλες οι εικόνες (δηλ. οι αλληλουχίες από πίξελ) είναι τοποθετημένες σε ένα σημείο βάσει εκατοντάδων παραμέτρων: παράμετροι όπως χρώμα, σχήμα, υφές, λάμψη κοκ είναι μια γεύση από αυτό το χαοτικό και τόσο αποτελεσματικό σύστημα οργάνωσης, που παράγει το αποτέλεσμα στην οθόνη σου.

Κάθε λέξη του χρήστη αντιστοιχεί σε ένα μεμονωμένο σημείο αυτής της «αποθήκης» και συνδυάζοντας αστραπιαία όλα τα επιμέρους στοιχεία της φράσης (πχ. τα τάκος, το ρομπότ και τα νησιά Φίτζι), το DALL-E παράγει μια σειρά από εναλλακτικές.

Το πιο εντυπωσιακό είναι ότι λόγω της τυχαιότητας που ενέχει η διαδικασία, το ότι θα καταχωρήσεις (αυτολεξεί) την ίδια οδηγία, δε σημαίνει πως θα λάβεις το ίδιο αποτέλεσμα.