Ό,τι γνωρίζουμε σήμερα για τα data, το οφείλουμε σε μια μπύρα
- 27 ΙΑΝ 2019
Τι σχέση μπορεί να έχει η μπύρα με τα μαθηματικά μοντέλα διανομής; Τι σχέση μπορεί να έχει ο πιο καυτός κλάδος της πληροφορικής στις μέρες μας, το data science, με έναν ζυθοποιό του 20ου αιώνα; Είμαι σίγουρος ότι δεν σου περνάει από το μυαλό καμία απολύτως σχέση, κι όμως ο William Sealy Gosset είναι ο άνθρωπος που κατάφερε να κάνει την ζυθοποιία επιστήμη. Η’, για να το θέσουμε καλύτερα, να κάνει επιστήμη με την ζυθοποιία.
Όλα ξεκίνησαν το 1876 στο Canterbury της Αγγλίας, όταν ο Gosset ήρθε στην ζωή με ένα τεράστιο προνόμιο για την εποχή. Ο πατέρας του ήταν συνταγματάρχης στο Βασιλικό Μηχανικό και από μικρός δίψαγε να ακολουθήσει τα βήματά του. Δεν τα κατάφερε όμως λόγω ενός προβλήματος όρασης που παρουσίασε και αντ’ αυτού φοίτησε στο κολέγιο του Winchester και μετά στην Οξφόρδη, σπουδάζοντας μαθηματικά και φυσικές επιστήμες. Λίγο μετά την αποφοίτησή του, έμελλε να πιάσει την δουλειά που θα του άλλαζε την ζωή. Αυτή η δουλειά δεν είχε να κάνει με τις σπουδές του, δεν ήταν καν κοντά στην πατρίδα του. Ήταν στο Δουβλίνο και συγκεκριμένα προσελήφθη το 1899 από την Guinness σαν πειραματικός ζυθοποιός.
Για τον Gosset όμως, το πάθος και η δίψα για τα μαθηματικά δεν μπορούσε να παραμεριστεί και για αυτό τον λόγο τα έφερε στην ζυθοποιία. Εκείνη την περίοδο η Guinness ήταν ήδη η μεγαλύτερη ζυθοποιία στον κόσμο, όμως σε αντίθεση με οποιαδήποτε άλλα αποστακτήρια, θέλησε να χρησιμοποιήσει την επιστήμη για να μεγαλώσει ακόμα παραπάνω. Έτσι, όταν το 1914 αντιλήφθηκαν ότι η κατανάλωση είχε εκτοξευθεί, έπρεπε να απαντήσουν στο ερώτημα πώς θα αυξανόταν η παραγωγή, χωρίς να χαλάσει η ποιότητα. Αυτή την απάντηση κλήθηκε να δώσει ο Gosset και φυσικά χρησιμοποίησε κάθε γνώση πάνω στην στατιστική που είχε αποκτήσει μέχρι τότε.
Την ίδια περίοδο ο Gosset ταξίδευε πολύ συχνά στο Λονδίνο για να επισκεφτεί τον Karl Pearson, με τον οποίο συνεργάστηκε στο University College του Λονδίνου. Ο Pearson ασχολούνταν περισσότερο με βιοστατιστικά, κάτι που απαιτούσε μεγάλο δείγμα για να βγάλεις συμπεράσματα. Αντίθετα ο Gosset είχε ήδη αρχίσει να αναπτύσσει την θεωρία του σχετικά με τα μικρού μεγέθους δείγματα. Το πρώτο αφεντικό του Gosset, ο επιστήμονας ζυθοποιός Thomas Case πίστευε ότι ο ιδανικός τρόπος για να έχεις την καλύτερη ποιότητα στην μπύρα, ήταν να υπολογίσεις την αναλογία μαλακών και σκληρών καρπών από κριθάρι σε κάθε παρτίδα που ερχόταν. Είχε καταλήξει σε κάποιους αριθμούς τους οποίους όμως δεν μπορούσε να ερμηνεύσει αλλά πάντα του έδιναν συνέπεια και καλή ποιότητα στο αποτέλεσμα.
Και εκείνη ήταν η ώρα για τον Gosset. Έχοντας σπουδάσει μαθηματικά στην Οξφόρδη, άρχισε να αναλύει τα δεδομένα μικρού δειγματικού χώρου, κάτι το οποίο ήταν εντελώς σπάνιο για εκείνη την εποχή. Κάπως έτσι, ο Gosset κατέληξε να αναλύει κατά πόσο είναι αντιπροσωπευτικό ένα μικρό δείγμα σε σχέση με ένα μεγαλύτερο και ποια η διαφορά τους. Κάπως έτσι κατέληξε στην δική του διανομή t, η οποία όμως δεν πήρε ποτέ το όνομά του, αλλά έμεινε στην ιστορία σαν Student t distribution.
H ζυθοποιία, όσο κι αν στηριζόταν στην επιστήμη για να τελειοποιήσει την μέθοδό της, δεν επέτρεπε τις επιστημονικές δημοσιεύσεις από τους εργαζόμενούς της, φοβούμενη τις διαρροές μυστικών και τον ανταγωνισμό. Όμως ο πεισματάρης Gosset επέμεινε και τελικά η διοίκηση του επέτρεψε να τη δημοσιεύσει με το ψευδώνυμο ‘Student’ και έτσι έμεινε γνωστή η κατανομή που ανακάλυψε. Όσο κι αν σου φαίνεται σαν ένα απλό μαθηματικό μοντέλο, σήμερα είναι ίσως από τις πιο σημαντικές παραστάσεις στην εξόρυξη δεδομένων και στην ανάλυσή τους. Τα μεγαλύτερα στατιστικά πακέτα ανάλυσης όπως η Python, η R, το Microsoft Excel, το SAS, το SPSS διαθέτουν εφαρμογές πάνω στο Student-t μοντέλο και εκτός από αυτό χρησιμοποιείται σε μεγάλο βαθμό στα μοντέλα τεχνητής νοημοσύνης.
Κάπως έτσι, ένας ζυθοποιός, στην αναζήτηση για την δημιουργία της τέλειας μπύρας κατάφερε να φτιάξει ένα μοντέλο ικανό να χρησιμοποιείται στις μεγαλύτερες ανακαλύψεις του 21ου αιώνα.
Κεντρική φωτογραφία: 123RF