Ζητήσαμε από το πρόγραμμα τεχνητής νοημοσύνης, DALL-E, να βάλει φωτιά στην Αθήνα. Και το έκανε.

Τι κι αν σου έλεγα ότι αυτή τη στιγμή στον υπολογιστή μου έχω μια μοναδική εικόνα από επίσκεψη του Donald Trump στην Ακρόπολη, μια εκδοχή της Έναστρης Νύχτας του Van Gogh με γάτες και την Αθήνα τυλιγμένη στις φλόγες, όπως φαίνεται παραπάνω; Και ότι για τα αρχεία αυτά δε χρειάστηκαν παρά ελάχιστα δευτερόλεπτα και μια σύντομη λεζάντα ώστε να παραχθούν, όχι από ανθρώπινο χέρι αλλά από ένα τρομερά εξελιγμένο τεχνητό νευρωνικό δίκτυο, που είναι εκπαιδευμένο να παράγει εικόνες που δεν υπήρξαν ποτέ;

Το όνομα αυτού είναι DALL-E και αποτελεί ένα από τα εργαλεία τεχνητής νοημοσύνης που διατέθηκαν ελεύθερα στους χρήστες τους περασμένους μήνες, εγείροντας ανησυχίες αλλά και θαυμασμό για το πόσο εξελιγμένοι είναι πλέον οι «εγκέφαλοι» του deep learning. Συγκεκριμένα, πρόκειται για έναν απ’ τους καρπούς του ερευνητικού εργαστηρίου/εταιρίας OpenAI, που ευθύνεται επίσης για το πιο επαναστατικό chatbox του σήμερα, το ChatGPT – ένα εργαλείο το οποίο αποκρινόμενο στις οδηγίες σου παράγει πρωτότυπα κείμενα, από σενάρια και σχολικές εργασίες μέχρι σύντομα αστεία.

Όπως εκείνο είναι εκπαιδευμένο στον κόσμο του γραπτού λόγου, έχοντας καταβροχθίσει άπειρα κείμενα και διαλόγους, έτσι το DALL-E είναι ο ιδανικός συνεργάτης για να οπτικοποιήσεις τα πιο απίστευτα πράγματα που φαντάστηκες ποτέ. Όπως τη Mona Lisa με μοϊκάνα, τη Γη επίπεδη, είτε κάτι ακόμη πιο σύνθετο, σαν να λέμε «ένα ρομπότ που τρώει τάκος, χαζεύοντας τη θάλασσα στα νησιά Φίτζι».

Ποια είναι η ιστορία του DALL-E

Using #ArtificialIntelligence to “expand” legendary works of art is my new favorite thing 🔥

Look how DALL-E 2 extended the landscape, as well as adding the full lower half of the Mona Lisa’s body, the detail is mind boggling.

–#AI #dalle2 #ArtificialIntelligence #Future pic.twitter.com/nWZMnztqrG— Bruffstar.btc 🚀 (@bruffstar) September 23, 2022

Το 2015, όταν οι αλγόριθμοι της μηχανικής μάθησης έφτασαν στο σημείο να αναλύουν επαρκώς το περιεχόμενο των φωτογραφιών, συμπληρώνοντας αφ’ εαυτού τις κατάλληλες λεζάντες, στο μυαλό των προγραμματιστών γεννήθηκε αυθόρμητα η εξής ιδέα, όπως παρέθεσε ο Elman Mansimov από την Amazon Web Services στο Vox:

Τι θα γινόταν εάν αντιστρέφαμε τη διαδικασία και βρίσκαμε τον τρόπο ώστε να παράγονται εικόνες από κείμενα;

Αυτό ακριβώς είναι που κάνει το DALL-E, όπως και άλλα ανάλογα εργαλεία που κυκλοφόρησαν την περασμένη χρονιά. Για παράδειγμα, υπάρχει επίσης το Midjourney που υπερτερεί σε φυσικότητα επί των καλλιτεχνικών στυλ και το Stable Diffusion που έχει καθαρότερα αποτελέσματα, βάσει των συγκρίσεων που έκανε ο Fabian Harmik Stelzer, ειδικός επί των θεμάτων της τεχνητής νοημοσύνης.

DALL-E 2 vs Midjourney vs StableDiffusion mega thread: photography, illustration, painters, abstract

these image synths are like instruments – it’s amazing we’ll get so many of them, each with a unique “sound” 🤯

rules: same prompt, 1:1 aspect ratio, no living artists pic.twitter.com/47syy7uPJJ— fabians.eth (@fabianstelzer) August 20, 2022

Το στοιχείο εκείνο που κάνει το DALL-E να ξεχωρίζει είναι η δύναμή του στην απόδοση φωτορεαλιστικών εικόνων. Συγκεκριμένα, ο ντόρος προκλήθηκε με την κυκλοφορία της δεύτερης, πολύ πιο εξελιγμένης έκδοσής του: τον Ιανουάριο του ’21 έγινε το launch στο DALL-E 1 και κοντά έναν χρόνο αργότερα, διατέθηκε το DALL-E 2. Αρχικά, σε επιλεγμένους από την εταιρία χρήστες (κυρίως εικαστικούς illustrators και προγραμματιστές), και από τον προηγούμενο Σεπτέμβρη η ιστοσελίδα έγινε προσβάσιμη προς όλους.

Τα νούμερα αναφέρουν πως 1.000 νέοι χρήστες προστίθενται κάθε εβδομάδα (όπως και το ChatGPT, είναι δωρεάν με εγγραφή μέσω email), ενώ κάθε ημέρα υπολογίζεται ότι παράγονται 2 εκατομμύρια εικόνες. Η «υπογραφή» στα έργα του DALL-E, ώστε να τα ξεχωρίσεις, είναι η σειρά από χρωματισμένα πίξελ κάτω δεξιά.

Και το όνομά του, εάν ενδιαφέρεσαι για το ντεσού, κρύβει από τη μία τον Salvador Dali και από την άλλη το ρομποτάκι WALL-E από τη γνωστή ταινία.

Πώς λειτουργούν τα εργαλεία παραγωγής εικόνων

How DALL-E 2 actually works
🏷 #ai #machinelearning https://t.co/4bFWn4bPG2 pic.twitter.com/tQBuFFB4aP— Changelog (@changelog) April 20, 2022

Οι εικόνες δεν είναι παρά μια σειρά από πίξελ, έτσι δεν είναι; Με αυτόν τον τρόπο βλέπουν, επεξεργάζονται, αποσυνθέτουν και ανασυνθέτουν τον κόσμο τα εργαλεία παραγωγής εικόνων (image generators), δίνοντας στο τέλος κάτι που μοιάζει απόλυτα φυσικό στο ανθρώπινο μάτι. Πώς συμβαίνει αυτό; Μέσα από μια δύο στάδια, σε χονδρικές γραμμές: την εκπαίδευση μέσω δεδομένων (deep learning) και την ανασύνθεση στοιχείων (stable diffusion).

Σε πρώτη φάση, λοιπόν, ο «εγκέφαλος» τροφοδοτήθηκε με εκατοντάδες εκατομμύρια εικόνες κάθε κατηγορίας, οι οποίες προέρχονταν από το ίντερνετ και –όπως συμβαίνει σε κάθε ιστοσελίδα που στοχεύει να είναι φιλική στις μηχανές αναζήτησης– ήταν καταχωρημένες με λέξεις-κλειδιά και λεζάντες (στο πεδίο alt text).

Το ζήτημα είναι πώς στο καλό μπορεί ένα νευρωνικό δίκτυο να καταχωρήσει αυτόν τον αχανή όγκο, ώστε να είναι άμεσα προσβάσιμος και αξιοποιήσιμος, με το που λάβει μια περιγραφή από τον χρήστη; Ακραία οργάνωση.

Βολεύει να το φανταστούμε σαν μια τεράστια, πολυδιάστατη αποθήκη, όπου όλες οι εικόνες (δηλ. οι αλληλουχίες από πίξελ) είναι τοποθετημένες σε ένα σημείο βάσει εκατοντάδων παραμέτρων: παράμετροι όπως χρώμα, σχήμα, υφές, λάμψη κοκ είναι μια γεύση από αυτό το χαοτικό και τόσο αποτελεσματικό σύστημα οργάνωσης, που παράγει το αποτέλεσμα στην οθόνη σου.

Κάθε λέξη του χρήστη αντιστοιχεί σε ένα μεμονωμένο σημείο αυτής της «αποθήκης» και συνδυάζοντας αστραπιαία όλα τα επιμέρους στοιχεία της φράσης (πχ. τα τάκος, το ρομπότ και τα νησιά Φίτζι), το DALL-E παράγει μια σειρά από εναλλακτικές.

Το πιο εντυπωσιακό είναι ότι λόγω της τυχαιότητας που ενέχει η διαδικασία, το ότι θα καταχωρήσεις (αυτολεξεί) την ίδια οδηγία, δε σημαίνει πως θα λάβεις το ίδιο αποτέλεσμα.

ΣΧΕΤΙΚΟ ΘΕΜΑ

LIFE

Ζητήσαμε από το πρόγραμμα τεχνητής νοημοσύνης, DALL-E, να βάλει φωτιά στην Αθήνα. Και το έκανε.

Ποια είναι η ιστορία του DALL-E

Πώς λειτουργούν τα εργαλεία παραγωγής εικόνων

Η νέα τάση στα social media είναι τα AI avatars. Κανείς όμως δεν μιλάει για το πρόβλημα

Stylish Bambini: Ζεστά παιδικά outfits για την καθημερινότητα

Πώς θα συνδυάσετε το κοστούμι σας σε κάθε περίσταση

Πώς η Ελλάδα γίνεται σταδιακά η Σίλικον Βάλεϊ της Μεταμόσχευσης Μαλλιών;

Τι θέλουν από τη δουλειά τους οι Έλληνες

5 νέα serums (για άντρες και γυναίκες) που καλύπτουν κάθε ανάγκη της επιδερμίδας σου

Πώς να μάθεις μια ξένη γλώσσα τόσο εύκολα όσο τη μαθαίνει ένα παιδί

Θα μπεις σε σκέψεις βλέποντας τις εικονογραφήσεις του John Holcroft

Λύσεις για να καταφέρεις να κοιμηθείς αν ο/η σύντροφός σου ροχαλίζει

ΟΦΗ: Τι ισχύει με την αποβολή του Χριστογεώργου και τον τελικό του Κυπέλλου

ΟΦΗ: Ο λόγος που ο Ράσταβατς δεν μπορούσε να βάλει τον Ναούμοφ αντί του αποβληθέντα Χριστογεώργου, παρότι είχε δύο αλλαγές

Ο ΟΦΗ άναψε φωτιά και μεγαλώνει: Το ένδοξο παρελθόν ζωντανεύει ξανά

Τρέλα και παράνοια στο Γεντί Κουλέ για τον ΟΦΗ: Παίκτες και κόσμος έγιναν ένα για τη μεγάλη πρόκριση

Σεβόμαστε την ιδιωτικότητά σας