6 C
Athens
Παρασκευή, 21 Φεβρουαρίου, 2025
ΑρχικήΟικονομίαΤεχνολογίαΓλωσσικά μοντέλα - Language models (Μέρος Α΄)

Γλωσσικά μοντέλα – Language models (Μέρος Α΄)


Της Γαρυφαλλιάς Σόλια,

Η τεχνητή νοημοσύνη είναι μια αγορά η οποία προβλέπεται μέχρι το 2030 να έχει φτάσει 15 τρισεκατομμύρια επενδύσεις. Η Gartner προβλέπει ότι πάνω από το 80% των προμηθευτών λογισμικού για επιχειρήσεις θα διαθέτουν δυνατότητες Gen AI μέχρι το 2026. Σύμφωνα με μια έκθεση της Netskope Threat Labs, το 96% των οργανισμών χρησιμοποιούν chatbots τεχνητής νοημοσύνης, από 74% πριν από ένα χρόνο, με την ChatGPT να είναι η πιο δημοφιλής πλατφόρμα chatbot τεχνητής νοημοσύνης γενικής χρήσης στις επιχειρήσεις, με ποσοστό χρήσης 80%. Ακολουθούν το Microsoft Copilot με 67% και το Google Gemini με 51%.

Η Generative τεχνητή νοημοσύνη μεταμορφώνει τον κόσμο, αλλάζοντας τον τρόπο με τον οποίο δημιουργούμε εικόνες και βίντεο, ήχο, κείμενο και κώδικα. Όταν αναφερόμαστε σε αυτόν τον τομέα της τεχνητής νοημοσύνης συνήθως αναφερόμαστε σε ένα μεγάλο γλωσσικό μοντέλο (LLM). Είναι ένας τύπος τεχνητής νοημοσύνης που επικεντρώνεται σε κείμενο και κώδικα αντί για εικόνες ή ήχο, αν και μερικοί έχουν αρχίσει να ενσωματώνουν διαφορετικές μορφές. Η κατασκευή ενός νέου μεγάλου γλωσσικού μοντέλου (LLM) από το μηδέν μπορεί να κοστίσει σε μια εταιρεία εκατομμύρια ή και εκατοντάδες εκατομμύρια. Χαρακτηριστικό παράδειγμα τα μοντέλα του OpenAI. Το GPT 3 έχει κοστίσει 175 δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε σε ένα σύνολο δεδομένων 45 terabytes και η εκπαίδευσή του κόστισε 4,6 εκατομμύρια δολάρια. Και σύμφωνα με τον διευθύνοντα σύμβουλο της OpenAI Sam Altman, το GPT 4 κόστισε πάνω από 100 εκατομμύρια δολάρια.

Μια πρόσφατη εξέλιξη στο τομέα ήταν με την κινεζική εταιρεία DeepSeek που ανακοίνωσε το LLM με την ονομασία R1, προκάλεσε σοκ στην αμερικανική βιομηχανία τεχνολογίας. Με αποτέλεσμα το αμερικανικό χρηματιστήριο να χάσει 1 τρισεκατομμύριο δολάρια.

Υπάρχουν όμως διάφοροι τρόποι για την ανάπτυξη προσαρμοσμένων LLM που είναι ταχύτεροι, ευκολότεροι και, κυρίως, φθηνότεροι. Πλέον και η κατασκευή νέων μοντέλων θα είναι ποιο φθηνή και εύκολη ακολουθώντας το παράδειγμα της DeepSeek. Συναντάμε 3 διαφορετικούς τρόπους χρήσης στα γλωσσικά μοντέλα:

  • Μέσω δημόσιων και ιδιόκτητων υπηρεσιών
  • Εκτέλεση ενός (προσαρμοσμένου) LLM τοπικά
  • Ανάπτυξη ενός (προσαρμοσμένου) LLM και χρήση του LLM μέσω ενός ιδιωτικού API.
Πηγή εικόνας και δικαιώματα χρήσης: rawpixel.com / Freepik

Διαχωρισμός γλωσσικών μοντέλων

Ανάλογα με τον αριθμό των παραμέτρων που χρησιμοποιεί ένα γλωσσικό μοντέλο μπορούμε να τα διαχωρίσουμε σε Small language models (SLMs) λόγω του μικρού αριθμού παραμέτρων που χρησιμοποιούν που είναι μικρότερος από 3 δισεκατομμύρια παραμέτρους και τα large language models (LLMs) όπως το GPT-3 που ξεπερνούν τα 3 δισεκατομμύρια παραμέτρους.

Τα LLM είναι μοντέλα γενικού σκοπού τα οποία διακρίνονται σε ένα ευρύ φάσμα εργασιών. Η ικανότητα με την οποία επιτελούν εργασίες και το εύρος των εργασιών . Η αποτελεσματικότητα τους βασίζεται στην ποσότητας των πόρων (δεδομένα, μέγεθος παραμέτρων, υπολογιστική ισχύς) που τους αφιερώνεται, με τρόπο που δεν εξαρτάται από πρόσθετες καινοτομίες στον σχεδιασμό.

Τα πιο δημοφιλή LLM στις επιχειρήσεις σήμερα είναι το ChatGPT και άλλα μοντέλα GPT του OpenAI, το Claude της Anthropic, το Llama 2 της Meta και το Falcon, ένα μοντέλο ανοιχτού κώδικα από το Technology Innovation Institute στο Άμπου Ντάμπι, γνωστό για την υποστήριξή του σε γλώσσες εκτός της Αγγλικής.

Ένα μικρό γλωσσικό μοντέλο (SLM) λειτουργεί σε απλούστερο υλικό και είναι ιδανικά για αν εκτελούν συγκεκριμένες εργασίες σε αντίθεση με ένα LLM. Εάν η επιχείρησή χρειάζεται να επενδύσει σε GenAI, τα SLM μπορούν να ρυθμιστούν γρήγορα και εύκολα.


ΕΝΔΕΙΚΤΙΚΕΣ ΠΗΓΕΣ
  • 7 ways to deploy your own large language model, Maria Korolov, 2024, διαθέσιμο εδώ
  • How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead, Will Douglas Heaven, 2025, διαθέσιμο εδώ
  • Small language models (SLMs): Complete overview 2024, Super Annotate, 2024, διαθέσιμο εδώ

 

TA ΤΕΛΕΥΤΑΙΑ ΑΡΘΡΑ

Γαρυφαλιά Σόλια
Γαρυφαλιά Σόλια
Γεννήθηκε και κατοικεί στην Αθήνα. Είναι Μηχανικός Πληροφορικής. Έχει εργαστεί στον ιδιωτικό και δημόσιο τομέα. Την ενδιαφέρει η έρευνα και θέματα που σχετίζονται με την τεχνολογία. Στον ελεύθερο χρόνο της ασχολείται με ανάπτυξη λογισμικού.