Το δημοσίευμα αναφέρεται στην κυριαρχία των αγγλικών στο internet διεθνώς, με το 50% όλων των website να είναι αγγλικά ακόμα και εάν πρόκειται για τη μητρική γλώσσα που χρησιμοποιεί μόλις το 6% του παγκόσμιου πληθυσμού.
Καθώς εμβαθύνουμε στη νέα γενιά εφαρμογών και υπηρεσιών που βασίζονται στην τεχνητή νοημοσύνη, πολλές από αυτές βασίζονται σε δεδομένα που προέρχονται από μεγάλα γλωσσικά μοντέλα (LLM). Καθώς πολλά από τα δεδομένα σε αυτά τα LLMs προέρχονται από το διαδίκτυο, τα μοντέλα κατανοούν και ανταποκρίνονται κυρίως στα αγγλικά.
Το TNW κάνει αναφορά στις μεγάλες ευρωπαϊκές εταιρείες Τεχνητής Νοημοσύνης, όπως η Mistral, εξετάζοντας το κατά πόσο η Γηραιά Ήπειρος μπορεί να πετύχει την ανεξαρτησία της στον κλάδο της AI και των μηχανικής μάθησης.
«Για να κατανοήσετε τα παρακάτω, δεν χρειάζεται να γνωρίζετε πώς δημιουργούνται, εκπαιδεύονται ή λειτουργούν τα μοντέλα. Ωστόσο, είναι χρήσιμο να κατανοήσετε μερικές βασικές έννοιες σχετικά με τα μοντέλα και την υποστήριξη της ανθρώπινης γλώσσας.
Εκτός εάν η τεκμηρίωση του μοντέλου αναφέρει ρητά ότι είναι πολυγλωσσικό ή διαγλωσσικό, η προτροπή ή η αίτηση απάντησης σε μια γλώσσα που δεν υποστηρίζεται μπορεί να οδηγήσει σε μετάφραση από τη μία γλώσσα στην άλλη ή σε απάντηση σε μια γλώσσα που κατανοεί. Και οι δύο στρατηγικές μπορούν να οδηγήσουν σε αναξιόπιστα και ασυνεπή αποτελέσματα, ειδικά σε γλώσσες με περιορισμένους πόρους.
Ενώ οι γλώσσες με πολλούς πόρους, όπως τα αγγλικά, επωφελούνται από την αφθονία των δεδομένων εκπαίδευσης, οι γλώσσες με περιορισμένους πόρους, όπως τα γαελικά ή τα γαλικιανά, έχουν πολύ λιγότερα, γεγονός που συχνά οδηγεί σε κατώτερη απόδοση».
Συνεχίζοντας, το άρθρο αναφέρει πως «ακολουθούν δύο ακόμη χρήσιμοι όροι που πρέπει να γνωρίζετε:
Η εκπαίδευση διδάσκει σε ένα μοντέλο να κάνει προβλέψεις ή να λαμβάνει αποφάσεις με βάση τα δεδομένα εισόδου.
Οι παράμετροι είναι μεταβλητές που μαθαίνονται κατά τη διάρκεια της εκπαίδευσης του μοντέλου και καθορίζουν τον τρόπο με τον οποίο το μοντέλο αντιστοιχίζει τις εισόδους με τις εξόδους. Με άλλα λόγια, τον τρόπο με τον οποίο κατανοεί και απαντά στις ερωτήσεις σας. Όσο μεγαλύτερος είναι ο αριθμός των παραμέτρων, τόσο πιο περίπλοκο είναι το μοντέλο».
Ο συγγραφές του άρθρου του σημειώνει πως Ευρώπη είναι γεμάτη από ανθρώπους και έργα που ασχολούνται με πολυγλωσσικά γλωσσικά μοντέλα. Αλλά ενδιαφέρει αυτό τους καταναλωτές; Δυστυχώς, είναι σχεδόν αδύνατο να υπολογιστεί το ποσοστό χρήσης γλωσσών για ιδιόκτητα εργαλεία όπως το ChatGPT ή το Mistral.
«Δημιούργησα μια δημοσκόπηση στο LinkedIn ρωτώντας αν οι άνθρωποι χρησιμοποιούν εργαλεία τεχνητής νοημοσύνης στη μητρική τους γλώσσα, στα αγγλικά ή σε ένα μείγμα και των δύο. Τα αποτελέσματα ήταν 50/50 μεταξύ αγγλικών και μείγματος γλωσσών. Αυτό θα μπορούσε να υποδηλώνει ότι ο αριθμός των ανθρώπων που χρησιμοποιούν εργαλεία τεχνητής νοημοσύνης σε μια γλώσσα άλλη από τα αγγλικά είναι υψηλότερος από ό,τι νομίζετε.
Συνήθως, οι άνθρωποι χρησιμοποιούν εργαλεία τεχνητής νοημοσύνης στα αγγλικά για την εργασία τους και στη μητρική τους γλώσσα για προσωπικές εργασίες» συμπληρώνει ο αρθρογράφος.