Η τεχνητή νοημοσύνη έχει αρχίσει να βρίσκεται σιγά-σιγά μπροστά από ένα σοβαρό πρόβλημα το οποίο αν δεν λυθεί θα επηρεάσει σε σημαντικό βαθμό τις εταιρείες που κάνουν χρήση της αλλά και τα μεγάλα γλωσσικά τους μοντέλα. Το πρόβλημα αυτό, όπως σημειώνει σε δημοσίευμά του ο Economist ονομάζεται «data wall» και βάσει αυτού, αναμένεται πως όλα τα λεξιλογικά δεδομένα που θα μπορεί να χρησιμοποιήσουν οι εταιρείες ΑΙ θα τελειώσουν το 2028.
Το πώς θα αντιμετωπιστεί αυτό το τείχος είναι ένα από τα μεγάλα ερωτήματα της ΑΙ και ίσως το πιο πιθανό να επιβραδύνει την πρόοδό της. Το «data wall» εξηγεί και γιατί το Reddit, μια ηλεκτρονική πλατφόρμα που αποτελείται από μεγάλες συζητήσεις χρηστών που βασίζονται κατά κύριο λόγο σε λέξεις και όχι εικόνες έχει βρεθεί στο ενδιαφέρον των εταιρειών ΑΙ και ειδικότερα των Google και OpenAI.
Η πρωτοκαθεδρία των ΗΠΑ στην ΑΙ και οι σοσιαλιστικές αξίες της Κίνας
Πώς μπορεί να αποφευχθεί το data wall
Μια προσέγγιση, σημειώνει ο Economist είναι να επικεντρωθούν στην ποιότητα των δεδομένων και όχι στην ποσότητα.Τα εργαστήρια ΑΙ δεν εκπαιδεύουν απλώς τα μοντέλα τους σε ολόκληρο το διαδίκτυο. Φιλτράρουν τα δεδομένα για να μεγιστοποιήσουν το βαθμό εκμάθησης των μοντέλων τους.
Ο Ναβίν Ράο της Databricks, μιας εταιρείας τεχνητής νοημοσύνης, λέει ότι αυτό είναι το «βασικό διαφοροποιητικό στοιχείο» μεταξύ των μοντέλων τεχνητής νοημοσύνης στην αγορά. Οι «αληθινές πληροφορίες» για τον κόσμο έχουν προφανώς σημασία το ίδιο ισχύει και για τη «λογική». Αυτό καθιστά τα ακαδημαϊκά εγχειρίδια, για παράδειγμα, ιδιαίτερα πολύτιμα. Αλλά ο καθορισμός της ισορροπίας μεταξύ των πηγών δεδομένων παραμένει κάτι σαν «σκοτεινή» τέχνη. Επιπλέον, έχει σημασία και η σειρά με την οποία το σύστημα συναντά διαφορετικούς τύπους δεδομένων. Αν συγκεντρώσει κάποιος όλα τα δεδομένα για ένα θέμα, όπως τα μαθηματικά, στο τέλος της διαδικασίας εκπαίδευσης, το μοντέλο μπορεί να εξειδικευτεί στα μαθηματικά αλλά να ξεχάσει κάποιες άλλες έννοιες.
Αυτές οι εκτιμήσεις μπορεί να γίνουν ακόμη πιο πολύπλοκες όταν τα δεδομένα δεν αφορούν απλώς διαφορετικά θέματα αλλά διαφορετικές μορφές. Εν μέρει λόγω της έλλειψης νέων δεδομένων κειμένου, κορυφαία μοντέλα όπως το GPT-4 της OpenAI και το Gemini της Google δέχονται αρχεία εικόνας, βίντεο και ήχου καθώς και κείμενα κατά τη διάρκεια της αυτοεπιβλεπόμενης μάθησής τους. Η εκπαίδευση σε βίντεο είναι πιο δύσκολη, δεδομένου ότι τα αρχεία βίντεο είναι πυκνά σε δεδομένα. Τα τρέχοντα μοντέλα συνήθως εξετάζουν ένα υποσύνολο καρέ για να απλοποιήσουν τα πράγματα.
Προσωπικά δεδομένα και τεχνητή νοημοσύνη
Όποια και αν είναι τα μοντέλα που χρησιμοποιούνται, η ιδιοκτησία αναγνωρίζεται όλο και περισσότερο ως ζήτημα. Το υλικό που χρησιμοποιείται στην εκπαίδευση των Μεγάλων Γλωσσικών Μοντέλων (LLMs) συχνά προστατεύεται από πνευματικά δικαιώματα και χρησιμοποιείται χωρίς τη συγκατάθεση ή την πληρωμή των κατόχων των δικαιωμάτων.
Η Getty Images μήνυσε την Stability ai, μια εταιρεία παραγωγής εικόνων, για μη εξουσιοδοτημένη χρήση των εικόνων της. Οι New York Times έχουν μηνύσει την OpenΑΙ και τη Microsoft για παραβίαση πνευματικών δικαιωμάτων εκατομμυρίων άρθρων. Άλλες εφημερίδες έχουν συνάψει συμφωνίες για την αδειοδότηση του περιεχομένου τους. Η News Corp, ιδιοκτήτρια της Wall Street Journal, υπέγραψε συμφωνία αξίας 250 εκατ. δολαρίων για πέντε χρόνια.
Οι δυνατότητες των μοντέλου μπορούν επίσης να βελτιωθούν όταν η έκδοση που παράγεται από την αυτοεπιβλεπόμενη μάθηση, γνωστή ως προ-εκπαιδευμένη έκδοση, βελτιώνεται με πρόσθετα δεδομένα κατά τη «μετεκπαίδευση». Καθώς τα δεδομένα προεκπαίδευσης στο διαδίκτυο στερεύουν, η «μετεκπαίδευση» είναι πιο σημαντική.
Συνθετικά δεδομένα
Μια άλλη λύση για να μην έρθει σε τέλμα η τεχνητή νοημοσύνη θα ήταν η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα, σημειώνει ο Economist.
Αντί να σπρώχνουμε το τείχος δεδομένων πίσω λίγο-λίγο, μια άλλη λύση θα ήταν να το υπερπηδήσουμε εντελώς. Μια προσέγγιση είναι η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα.
Μια ακόμη δυσκολία έγκειται στην επέκταση της ΑΙ σε περιβάλλοντα όπως η υγειονομική περίθαλψη ή η εκπαίδευση. Στα τυχερά παιχνίδια, υπάρχει σαφής ορισμός της νίκης και είναι ευκολότερο να συλλεχθούν δεδομένα σχετικά με το αν μια κίνηση είναι συμφέρουσα. Αλλού είναι πιο δύσκολο. Τα δεδομένα σχετικά με το τι είναι μια «καλή» απόφαση συλλέγονται συνήθως από ειδικούς. Αλλά αυτό είναι δαπανηρό, απαιτεί χρόνο και είναι μόνο μια αποσπασματική λύση, ενώ ο εμπειρογνώμονας μπορεί να κάνει κάποιο λάθος.
Είναι σαφές ότι η πρόσβαση σε περισσότερα δεδομένα -είτε προέρχονται από εξειδικευμένες πηγές, είτε παράγονται συνθετικά είτε παρέχονται από ανθρώπινους εμπειρογνώμονες- είναι το κλειδί για τη διατήρηση της ταχείας προόδου στην ΑΙ. Όπως και τα κοιτάσματα πετρελαίου, τα πιο προσιτά αποθέματα δεδομένων έχουν εξαντληθεί. Η πρόκληση τώρα είναι να βρεθούν νέα ή βιώσιμες εναλλακτικές λύσεις, καταλήγει ο Economist.
Latest News
Θεοδωρόπουλος για AI: Αυτές είναι οι 4 ανησυχίες των επιχειρήσεων
Ο πρόεδρος του ΣΕΒ, Σπύρος Θεοδωρόπουλος, μίλησε στο AI Connect της Google για τις ανησυχίες των ελληνικών επιχειρήσεων γύρω από τη χρήση της AI
Πόση τεχνητή νοημοσύνη χρησιμοποιούν οι Έλληνες - Τι δείχνει έρευνα της Focus Bari
Στην έρευνα της Focus Bari αναλύονται οι ευκαιρίες, οι κίνδυνοι αλλά και οι μεγάλες προσδοκίες
«Η ανάπτυξη της τεχνητής νοημοσύνης επιτέλους επιβραδύνεται» - Τι προβλέπει τώρα ο CEO της Google
Θα χρειαστεί χρόνος για μια άλλη τεχνολογική ανακάλυψη για να θέσει ξανά την ΑΙ σε εξαιρετικά γρήγορη αναπυτξιακή ταχύτητα, προβλέπει ο CEO της Google Σουντάρ Πιτσάι
Πρώτα βήματα εισαγωγής της Τεχνητής Νοημοσύνης στις σχολικές αίθουσες
Το Αi4edu είναι το πρόγραμμα για την τεχνητή νοημοσύνη που αναπτύσσουν έξι οργανισμοί, από τέσσερα κράτη-μέλη της Ευρωπαϊκής Ένωσης
Η AI «επηρέασε» πωλήσεις 60 δισ. δολαρίων κατά την φετινή Cyber Week
Ρεκόρ πωλήσεων ύψους 314,9 δισ. δολαρίων παγκοσμίως καταγράφηκαν τη φετινή Cyber Week - Το 70% των διαδικτυακών αγορών παγκοσμίως πραγματοποιήθηκε μέσω φορητών συσκευών
Ξηροκώστας (SAP): Τεκτονικές οι αλλαγές που φέρνει στην αγορά η AI
Ο CEO της SAP Hellas, Ανδρέας Ξηροκώστας, στο περιθώριο του ετήσιου «SAP Innovation Day 2024» επισήμανε επίσης «το μεγάλο πρόβλημα της έλλειψης ανθρώπινων πόρων» ειδικά στον κλάδο της τεχνολογίας
Μεγάλο deal στους ημιαγωγούς ΑΙ μεταξύ TSMC - Nvidia για το εργοστάσιο της Αριζόνα
Τι συζητούν TSMC - Nvidia για τους ημιαγωγούς Blackwell και το νέο εργοστάσιο του ταϊβανέζικου τεχνολογικού κολοσσού στην Αριζόνα
Ο θρυλικός Μπιόρν Ουλβέους των ΑΒΒΑ δεν βλέπει με καλό μάτι την ΑΙ
«Πολύ άδικο» για τις εταιρείες τεχνολογίας να χρησιμοποιούν τη δουλειά των καλλιτεχνών χωρίς να τους πληρώνουν, λέει ο θρυλικός Μπιόρν Ουλβέους των ΑΒΒΑ
Παπαστεργίου: Ωραίο αλλά ακριβό σπορ η AI – Συνεργασία με το Υπερταμείο για τον «Φάρο»
Στις πρωτοβουλίες της Ελλάδας στο πεδίο της Τεχνητής Νοημοσύνης αναφέρθηκε κατά τον χαιρετισμό του στο 2ο Growthfund Summit ο υπουργός Ψηφιακής Διακυβέρνησης, Δημήτρης Παπαστεργίου
Στους 300 εκατ. οι ενεργοί χρήστες ανά εβδομάδα για την OpenAI
Κατά τη διάρκεια του επόμενου έτους, η OpenAI φέρεται να στοχεύει σχεδόν στο 4πλάσιο του τρέχοντος αριθμού χρηστών της, στοχεύοντας στο 1 δισεκατομμύριο