Η Microsoft προχώρησε μέσω μίας μελέτης στα αποκαλυπτήρια ακόμη ενός μοντέλου τεχνητής νοημοσύνης, του Kosmos-1, ενός MLLM (multimodal large language model), το οποίο μπορεί όχι μόνο να ανταποκρίνεται σε γλωσσικές προτροπές αλλά και σε οπτικές ενδείξεις, οι οποίες μπορούν να χρησιμοποιηθούν για μια σειρά εργασιών, όπως η δημιουργία λεζάντας εικόνων, η οπτική απάντηση ερωτήσεων, κι άλλα.
Το ChatGPT της OpenAI βοήθησε στη διάδοση της έννοιας των LLM, όπως το μοντέλο GPT (Generative Pre-trained Transformer) και τη δυνατότητα μετατροπής μιας προτροπής κειμένου ή μιας εισαγωγής σε ένα ολοκληρωμένο τελικό κείμενο.
Ο Ίλον Μασκ ετοιμάζεται να δημιουργήσει τον αντίπαλο του ChatGPT
Όπως υποστηρίζουν οι ερευνητές τεχνητής νοημοσύνης της Microsoft, τα LLM εξακολουθούν να διερευνούν πολλαπλές μορφές περιεχομένου επεξεργασίας, όπως μηνύματα εικόνας και ήχου.
Σύμφωνα με τα όσα αναφέρονται στην μελέτη «Language Is Not All You Need: Aligning Perception with Language Models» η συγκεκριμένη πολυμορφική αντίληψη θεωρείται απαραίτητη για να αποκτήσει η τεχνητή γενική νοημοσύνη (AGI) δυνατότητες που θα μοιάζουν με το ChatGPT.
«Το πιο σημαντικό, το ξεκλείδωμα της πολυτροπικής εισόδου περιεχομένου διευρύνει σημαντικά τις εφαρμογές των μοντέλων γλώσσας σε τομείς υψηλής αξίας, όπως η πολυτροπική μηχανική εκμάθηση, η ευφυΐα εγγράφων και η ρομποτική», αναφέρει η μελέτη.
Η Microsoft λέει ότι το Kosmos-1 MLLM της μπορεί να αντιλαμβάνεται γενικές μεθόδους, να ακολουθεί οδηγίες (μηδενική εκμάθηση) και να μαθαίνει από τα συμφραζόμενα (εκμάθηση με λίγες λήψεις). «Ο στόχος είναι να ευθυγραμμιστεί η αντίληψη με τα LLM, έτσι ώστε τα μοντέλα να μπορούν να βλέπουν και να μιλάνε», υποστηρίζεται στην μελέτη.
Στα παραδείγματα χρήσης του Kosmos-1 περιλαμβάνει μια εικόνα που δείχνει ένα γατάκι και ένα άτομο που κρατά ένα χαρτί με ένα ζωγραφισμένο χαμόγελο στο στόμα του. Η προτροπή που δίνεται στην τεχνητή νοημοσύνη είναι «εξηγήστε γιατί αυτή η φωτογραφία είναι αστεία». Η απάντηση του Kosmos-1 είναι: «Η γάτα φοράει μια μάσκα που χαρίζει στη γάτα ένα χαμόγελο».
Κάθε ένα από τα παραδείγματα που εμφανίζονται στην μελέτη δείχνει τη δυνατότητα τεχνητής νοημοσύνης όπως το Kosmos-1 να αυτοματοποιούν μια εργασία σε πολλές καταστάσεις, από το να λένε σε έναν χρήστη των Windows 10 πώς να επανεκκινήσει τον υπολογιστή του (ή οποιαδήποτε άλλη εργασία με οπτική προτροπή), έως την ανάγνωση μιας ιστοσελίδας σχετικά με την έναρξη μιας αναζήτησης στο διαδίκτυο, την ερμηνεία δεδομένων υγείας από μια συσκευή, τη δημιουργία λεζάντας σε μια εικόνα και ούτω καθεξής.
Προς το παρόν το συγκεκριμένο μοντέλο τεχνητής νοημοσύνης δεν περιλαμβάνει δυνατότητες ανάλυσης βίντεο.
Οι ερευνητές της Microsoft εξέτασαν επίσης πώς το Kosmos-1 αποδίδει σε τεστ νοημοσύνης. Τα αποτελέσματα έδειξαν ένα «μεγάλο χάσμα απόδοσης μεταξύ του τρέχοντος μοντέλου και του μέσου επιπέδου ενός ενήλικου ανθρώπου», αλλά διαπίστωσαν επίσης ότι η ακρίβειά του δείχνει τη δυνατότητα για τα MLLM να «αντιλαμβάνονται αφηρημένα εννοιολογικά μοτίβα σε ένα μη λεκτικό πλαίσιο».
Η έρευνα για την «απάντηση σε ερωτήσεις ιστοσελίδων» είναι ενδιαφέρουσα δεδομένου του σχεδίου της Microsoft να χρησιμοποιήσει μοντέλα τεχνητής νοημοσύνης τέτοιου τύπου για να κάνει το Bing ικανότερη μηχανή αναζήτησης από την αντίστοιχη της Google.
Σύμφωνα με την μελέτη ο συγκεκριμένος τομέας απαιτεί από το μοντέλο να κατανοήσει τόσο τη σημασιολογία όσο και τη δομή των κειμένων. Εδώ, η δομή της ιστοσελίδας παίζει καθοριστικό ρόλο. «Η εργασία μπορεί να μας βοηθήσει να αξιολογήσουμε την ικανότητα του μοντέλου μας να κατανοεί τη σημασιολογία και τη δομή των ιστοσελίδων», εξηγούν οι ερευνητές της Microsoft.
Latest News
Θεοδωρόπουλος για AI: Αυτές είναι οι 4 ανησυχίες των επιχειρήσεων
Ο πρόεδρος του ΣΕΒ, Σπύρος Θεοδωρόπουλος, μίλησε στο AI Connect της Google για τις ανησυχίες των ελληνικών επιχειρήσεων γύρω από τη χρήση της AI
Πόση τεχνητή νοημοσύνη χρησιμοποιούν οι Έλληνες - Τι δείχνει έρευνα της Focus Bari
Στην έρευνα της Focus Bari αναλύονται οι ευκαιρίες, οι κίνδυνοι αλλά και οι μεγάλες προσδοκίες
«Η ανάπτυξη της τεχνητής νοημοσύνης επιτέλους επιβραδύνεται» - Τι προβλέπει τώρα ο CEO της Google
Θα χρειαστεί χρόνος για μια άλλη τεχνολογική ανακάλυψη για να θέσει ξανά την ΑΙ σε εξαιρετικά γρήγορη αναπυτξιακή ταχύτητα, προβλέπει ο CEO της Google Σουντάρ Πιτσάι
Πρώτα βήματα εισαγωγής της Τεχνητής Νοημοσύνης στις σχολικές αίθουσες
Το Αi4edu είναι το πρόγραμμα για την τεχνητή νοημοσύνη που αναπτύσσουν έξι οργανισμοί, από τέσσερα κράτη-μέλη της Ευρωπαϊκής Ένωσης
Η AI «επηρέασε» πωλήσεις 60 δισ. δολαρίων κατά την φετινή Cyber Week
Ρεκόρ πωλήσεων ύψους 314,9 δισ. δολαρίων παγκοσμίως καταγράφηκαν τη φετινή Cyber Week - Το 70% των διαδικτυακών αγορών παγκοσμίως πραγματοποιήθηκε μέσω φορητών συσκευών
Ξηροκώστας (SAP): Τεκτονικές οι αλλαγές που φέρνει στην αγορά η AI
Ο CEO της SAP Hellas, Ανδρέας Ξηροκώστας, στο περιθώριο του ετήσιου «SAP Innovation Day 2024» επισήμανε επίσης «το μεγάλο πρόβλημα της έλλειψης ανθρώπινων πόρων» ειδικά στον κλάδο της τεχνολογίας
Μεγάλο deal στους ημιαγωγούς ΑΙ μεταξύ TSMC - Nvidia για το εργοστάσιο της Αριζόνα
Τι συζητούν TSMC - Nvidia για τους ημιαγωγούς Blackwell και το νέο εργοστάσιο του ταϊβανέζικου τεχνολογικού κολοσσού στην Αριζόνα
Ο θρυλικός Μπιόρν Ουλβέους των ΑΒΒΑ δεν βλέπει με καλό μάτι την ΑΙ
«Πολύ άδικο» για τις εταιρείες τεχνολογίας να χρησιμοποιούν τη δουλειά των καλλιτεχνών χωρίς να τους πληρώνουν, λέει ο θρυλικός Μπιόρν Ουλβέους των ΑΒΒΑ
Παπαστεργίου: Ωραίο αλλά ακριβό σπορ η AI – Συνεργασία με το Υπερταμείο για τον «Φάρο»
Στις πρωτοβουλίες της Ελλάδας στο πεδίο της Τεχνητής Νοημοσύνης αναφέρθηκε κατά τον χαιρετισμό του στο 2ο Growthfund Summit ο υπουργός Ψηφιακής Διακυβέρνησης, Δημήτρης Παπαστεργίου
Στους 300 εκατ. οι ενεργοί χρήστες ανά εβδομάδα για την OpenAI
Κατά τη διάρκεια του επόμενου έτους, η OpenAI φέρεται να στοχεύει σχεδόν στο 4πλάσιο του τρέχοντος αριθμού χρηστών της, στοχεύοντας στο 1 δισεκατομμύριο