Ήρθε η ώρα του Παγκοσμίου κυπέλου 2022 που φέτος διεξάγεται στο Κατάρ. Ένα περίεργο κύπελο καθώς είναι στη μέση του χειμώνα σε αντίθεση με τις προηγούμενες διοργανώσεις που διεξάγονταν κατά τους καλοκαιρινούς μήνες.
Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 (με την εργασία του Michael Maher) και τη δεκαετία του 90 (με την εργασία του Lee το 1997). Οι πρώτες όμως σημαντικές δημοσιεύσεις στο χώρο, εισάγοντας μοντέλα στα οποία βασίζονται και μοντέλα που χρησιμοποιούμε ακόμα και σήμερα, ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.
Σε αυτή την ανάλυση χρησιμοποιούμε ακριβώς το μοντέλο των Καρλή και Ντζούφρα μέσω του πακέτου “footbayes” στη στατιστική γλώσσα προγραμματισμού R που έχουν αναπτύξει οι 2 πρώτοι συγγραφείς αυτού του άρθρου και της ανάλυσης. Το μοντέλο επίσης συμπεριλαμβάνει την εκτίμηση παραμέτρων που εκτιμούν την απόδοση κάθε ομάδας που αλλάζουν στον χρόνο. Για την εκμάθηση του μοντέλου χρησιμοποιήθηκαν περισσότερα από 3000 διεθνείς αγώνες της περιόδου 2018-2022. Κύρια επεξηγηματική μεταβλητή είναι η διαφορά μεταξύ των δύο ομάδων στο δείκτη Coca-Cola/FIFA ranking. Το μοντέλο, που προτάθηκε για πρώτη φορά από τους Καρλή &
Ντζούφρα το 2003, επεκτείνει το συνηθισμένο διμεταβλητό μοντέλο Poisson. Λεπτομέρειες για το μοντέλο στατιστικής και μηχανικής μάθησης που χρησιμοποιήθηκε θα βρείτε στο τέλος αυτού του άρθρου.
Απολογισμός 1ης αγωνιστικής
Δυστυχώς, με το παγκόσμιο κύπελο ποδοσφαίρου φέτον να είναι στη μέση του χειμώνα και στο απόγειο των οικονομικών και οικογενειακών υποχρεώσεων μας, ήταν αδύνατο να βρω χρόνο να γράψω αυτό το άρθρο νωρίτερα – και φυσικά ως αποτέλεσμα να μην έχω δει πάρα ελάχιστα λεπτά από το μουντιάλ (κατάφερα όμως και είδα ζωντανά το πέναλτι του Bale και ένα εξαιρετικό γκολ της Βραζιλίας).
Οπότε εδώ θα γράψω έναν απολογισμό του πόσο καλά πήγε το μοντέλο στο 1ο γύρο. Οι προβλέψεις είχαν αναρτηθεί στην ιστοσελίδα του συνεργάτη μας Leonardo Egidi πριν τους αγώνες φυσικά και είναι ακόμα διαθέσιμες εδώ.
Στον Πίνακα 1 θα βρείτε τις προβλέψεις των πρώτων 16 αγώνων (1η αγωνιστική). Όπως βλέπετε το μοντέλο κατάφερε να προβλέψει σωστά αρκετούς αγώνες (56%) ενώ σε 3 ακόμα αγώνες έδειχνε το τελικό αποτέλεσμα ήταν αρκετά πιθανό. Πιο συγκεκριμένα στον αγώνα Μεξικό-Πολωνία έχουμε αξιοσημείωτη πιθανότητα και στις δύο ομάδες (42% για το Μεξικό έναντι 30% για την Πολωνία) υποδεικνύοντας ότι οι δύο ομάδες είναι κοντά σε δυναμικότητα. Παρόμοια είναι η εικόνα στο Μαρόκο (29%) με την Κροατία (41%) με 30% την πιθανότητα ισοπαλίας. Αξιοσημείωτο είναι ότι το μοντέλο έδινε σημαντική πιθανότητα νίκης στην Ιαπωνία (31%) έναντι της Γερμανίας (42%) στο οποίο κέρδισε η πρώτη. Όσον αφορά την μεγάλη έκπληξη της Σαουδικής Αραβίας, το μοντέλο έδινε μόνο 6% πιθανότητα νίκης όπως και κάθε λογικό μοντέλο θα έδινε. Να σημειώσουμε εδώ ότι ένα λογικό μοντέλο στατιστικής και μηχανικής μάθησης σε καμία περίπτωση δε θα μπορέσει να πιάσει εκπλήξεις σαν και αυτές και μπορούν να συμβούν λόγω απλής τυχαιότητα ή καταστάσεων που δεν λαμβάνονται υπόψη από το μοντέλο.
Το Διάγραμμα 1 δίνει με πιο πολύ λεπτομέρεια τις πιθανότητες για το κάθε σκορ για καθένα από τους πρώτους 16 αγώνες.
Οι Προβλέψεις του Μοντέλου για την 2η Αγωνιστική
Οι προβλέψεις για τους αγώνες της 2ης αγωνιστικής δίνονται στον Πίνακα 2. Για τον υπολογισμό τους έχουν ληφθεί υπόψη και τα αποτελέσματα της 1ης αγωνιστικής.
Από τον πίνακα αυτό ξεχωρίζουμε του αγώνες
· Ουαλία – Ιράν
· Τυνησία – Αυστραλία
· Πολωνία – Σαουδική Αραβία
ως τους πιο αμφίρροπους αγώνες.
Ως φαβορί ξεχωρίζουν
1. Βραζιλία με πιθανότητα νίκης 70% έναντι της Ελβετίας
2. Ιαπωνία με πιθανότητα νίκης 65% έναντι της Κοστα Ρίκα
3. Ολλανδία με πιθανότητα νίκης 60% έναντι της Εκουαδόρ
4. Αργεντινή (παρόλο που έχασε τον 1ο αγώνα) με πιθανότητα νίκης 60% έναντι του Μεξικό
5. Νότια Κορέα με πιθανότητα νίκης 59% έναντι της Γκάνα
6. Βέλγιο με πιθανότητα νίκης 59% έναντι του Μαρόκο
7. Ισπανία με πιθανότητα νίκης 55% έναντι της Γερμανίας (και αν συμβεί αυτό η Γερμανία μενεί εκτός της διοργάνωσης).
Τέλος έχουμε άλλους έξι αγώνες που είναι σχετικά αμφίρροποι αλλά με ελαφρό προβάδισμα της μίας από τις δύο ομάδες. Σε αυτούς τους αγώνες θεωρούμε ότι οι ομάδες είναι σχετικά κοντά και μπορεί να έρθουν και ισοπαλία λόγω τακτικής και στρατηγικής. Συγκεκριμένα έχουμε
1. Σερβία (50%) να επικρατεί της Καμερούν (22%)
2. Αγγλία (49%) να επικρατεί των ΗΠΑ (23,5%)
3. Σενεγάλη (47%) να επικρατεί του Κατάρ (24%)
4. Κροατία (43%) να επικρατεί του Καναδά (28%)
5. Πορτογαλία (42,5%) να επικρατεί της Ουρουγουάης (29%)
6. Γαλλία (42%) να επικρατεί της Δανίας (29%)
Στο Διάγραμμα 2 μπορείτε να δείτε τις πιθανότητες για το κάθε σκορ για καθένα από τους 16 αγώνες της 2ης αγωνιστικής.
Βιβλιογραφία για διαβαστερούς φιλάθλους
· Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
· Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393.
· Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best? Chance, 10, 15-19.
· Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
· Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.
· i είναι ο δείκτης του αγώνα
· 𝑋𝑖 και 𝛶𝑖 είναι ο αριθμός των γκολ μεταξύ της 1ης και της 2ης ομάδας στον αγώνα i
· ℎ𝑖 και 𝑎𝑖 είναι η 1η και 2η ομάδα αντίστοιχα (ή η εντός και εκτός έδρα ομάδα – όπου ισχύει) για τον i αγώνα.
· 𝑎𝑡𝑡𝑘,𝑡 και 𝑑𝑒𝑓𝑘,𝑡 οι παράμετροι που εκτιμούν της επιθετική και αμυντική δυναμικότητα/ ικανότητα της ομάδας k την χρονική στιγμή t (δυναμικές παράμετροι που αλλάζουν στο χρόνο)
· 𝑟𝑎𝑛𝑘𝑖𝑛𝑔𝑘 δείκτης Coca-Cola FIFA ranking την 6η Οκτωβρίου 2022 για την ομάδα k.
Λίγα λόγια για τους Συγγραφείς
O Leonardo Egidi είναι επίκουρος καθηγητής Στατιστικής στο Πανεπιστήμιο της Τεργέστης στην Ιταλία και μέλος της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group. Έχει διδακτορικό στην μοντελοποιηση και αναλυτική ποδοσφαίρου και έντονη ερευνητική δραστηριότητα στη Μπευζιανή Στατιστική μεθοδολογία.
O Βασίλης Παλάσκας είναι Στατιστικός Αναλυτής και Επιστήμονας Δεδομένων στην Fantasy Sports Interactive (FSI). Είναι ενεργό μέλος της ερευνητικής ομάδας AUEB Sports Analytics από το 2019 όπου τελείωσε το M.Sc. in Statistics του Οικονομικού Πανεπιστημίου Αθηνών.
O Ιωάννης Ντζούφρας είναι καθηγητής Στατιστικής και πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Δημήτρη Καρλή. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η Μπευζιανή στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, ψυχομετρία και αναλυτική των σπορ.
O Δημήτρης Καρλής είναι καθηγητής Στατιστικής και αναπληρωτής πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Ιωάννη Ντζούφρα. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, και αναλυτική των σπορ.
Ενεργές Συνεργασίες των Συγγραφέων
Οι τρεις συγγραφείς (L. Egidi, Ι. Ντζούφρας και Δ. Καρλής) του άρθρου αυτή τη στιγμή συνεργάζονται για τη συγγραφή ενός βιβλίου σε Football Analytics σε διεθνή επιστημονικό οίκο ενώ στο τελευταίο workshop της ομάδας έδωσαν ένα σεμιναριακό μάθημα σε Football analytics.
Ο L. Egidi και Β. Παλάσκας συνεργάζονται στην ανάπτυξη του λογισμικού “footbayes” (βιβλιοθήκη της στατιστικής γλώσσας προγραμματισμού R).
Ο L. Egidi, Ι. Ντζούφρας και Β. Παλάσκας συνεργάζονται στην συγγραφή ενός επιστημονικού άρθρου αξιολόγησης παικτών στο Βόλεϊ.
Ο Ι. Ντζούφρας και Β. Παλάσκας συνεπιβλέπουν μια διπλωματική εργασία στα πλαίσια του M.Sc. in Statistics του ΟΠΑ και της συνεργασίας με την FSI (Fantasy Sports Interactive)
Η Ομάδα AUEB Sports Analytics
Η ερευνητική ομάδα του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group ιδρύθηκε το 2015 από τους καθηγητές Ιωάννη Ντζούφρα και Δημήτρη Καρλή. Μέλη του είναι σημαντικά μέλη της κοινότητα της αναλυτικής των σπορ όπως oι Leonardo Egidi (Πανεπιστήμιο Trieste), Ιωάννης Κοσμίδης (Warwick), Κωνσταντίνος Πελεχρίνης (Pittsburg), Nial Friel (UCD) και Gianluca Baio (UCL) καθώς επίσης και ο πρώην προπονητής της εθνικής Ελλάδας Βόλεϊ, Σωτήρης Δρίκος και ο νυν προπονητής της Εθνικής ομάδας Μπάσκετ του Κοσόβου, Χρήστος Μαρμαρινός. Η ερευνητική ομάδα είναι υπεύθυνη για της σειρά ετήσιων συνεδρίων με το όνομα AUEB Sports Analytics Workshop (6 συνολικά) ενώ το 2019 διοργάνωσε το διεθνές συνέδριο MathSport 2019 με 200 συμμετέχοντες επιστήμονες από όλο τον κόσμο. Η ομάδα έχει μια σειρά από σημαντικές επιστημονικές δημοσιεύσεις στο χώρο της αναλυτικής των σπορ. Τέλος θα θέλαμε να αναφέρουμε ότι η ομάδα ιδρύθηκε το 2015 λόγω της επίσκεψης του καθηγητή Stefan Kesenne (Πανεπιστήμιο Antwerp & Leuven), σπουδαίου Οικονομολόγου του Αθλητισμού που έπαιξε και ενεργό ρόλο στην υπόθεση Bosman. Ο Stefan Kesenne στήριξε ενεργά την ομάδα μέχρι και το 2021 όπου ξαφνικά απεβίωσε. Η ύπαρξη της ομάδας AUEB Sports Analytics Group οφείλεται σε μεγάλο ποσοστό στη συνδρομή και την έμπνευση που μας έδωσε ο κος Kesenne.
* Συγγραφέας του παρόντος άρθρου είναι ο Ιωάννης Ντζούφρας. Το άρθρο είναι βασισμένο στην ανάλυση των Leonardo Egidi (Πανεπιστήμιο της Τεργέστης) και του Βασίλειου Παλάσκα (Fantasy Sports Interactive) με τις συμβουλευτικές συνδρομές των Ι. Ντζούφρα και Δ. Καρλή. Και οι τέσσερεις συγγραφείς είναι ενεργά μέλη της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών: AUEB Sports Analytics Group.
Latest News
Η δύσκολη πρόκληση της ΕΚΤ στην πολιτική μείωσης των επιτοκίων
Η ΕΚΤ καλείται να ισορροπήσει ανάμεσα στη στήριξη της οικονομίας και στη διατήρηση σταθερού πληθωρισμού
Γιώργος Αλογοσκούφης: Πριν και Μετά τη Μεταπολίτευση Θεσμοί, Πολιτική και Οικονομία στην Ελλάδα
O Γ. Αλογοσκούφης εξετάζει, αναλύει και ερμηνεύει την εξέλιξη του κράτους και της οικονομίας της μεταπολεμικής Ελλάδας, πριν και μετά τη μεταπολίτευση του 1974
Πού βλέπουν 28 οίκοι το ΑΕΠ και τον πληθωρισμό το 2025 και 2026
Σύμφωνα με τη Focus Economics o ρυθμός μεταβολής του ΑΕΠ προβλέπεται το 2025 να κυμανθεί κοντά στην πρόβλεψη του 2024
Ημέρα Εθελοντισμού στο Οικονομικό Πανεπιστήμιο Αθηνών
Το ΟΠΑ επιβραβεύει 115 φοιτήτριες και φοιτητές για την προσφορά τους
Grant Thornton και Οικονομικό Πανεπιστήμιο στηρίζουν τους μαθητές της ακριτικής Ελλάδας
Ο.Π.Α. και Grant Thornton υποδέχθηκαν τους μαθητές οι οποίοι είχαν την ευκαιρία να συζητήσουν για τον επαγγελματικό προσανατολισμό και τις δυνατότητες επαγγελματικής αποκατάστασης