11.2 C
Athens
Τετάρτη, 26 Φεβρουαρίου, 2025
ΑρχικήΟικονομίαΤεχνολογίαΓλωσσικά μοντέλα - Προκλήσεις και ανάπτυξη (Μέρος Β΄)

Γλωσσικά μοντέλα – Προκλήσεις και ανάπτυξη (Μέρος Β΄)


Της Γαρυφαλλιάς Σόλια, 

Το ινστιτούτο Future of Life (περισσότερα εδώ) κατά καιρούς έχει δημοσιεύσει διάφορα open letters σχετικά με την ΤΝ. Τα  συγκεκριμένα letters, αναδεικνύουν διάφορα θέματα που μπορεί να προκαλέσουν παγκοσμίως σοβαρά μελλοντικά προβλήματα, τρέχοντες κίνδυνοι όπως η προκατάληψη, τα νομικά ζητήματα και η συναίνεση.

O εκδημοκρατισμός της πρόσβασης σε LLM, σε αντίθεση με τα ιδιόκτητα μοντέλα όπως το ChatGPT. Αυτή η προσπάθεια έχει προκαλέσει συζήτηση σχετικά με το αν τα μοντέλα ΤΝ πρέπει να είναι ελεύθερα, διαθέσιμα ή να προστατεύονται από πνευματικά δικαιώματα, εγείροντας ηθικές ανησυχίες και ανησυχίες για την ασφάλεια όσον αφορά τα LLM ανοικτού κώδικα.

Oι κίνδυνοι ασφαλείας για τις εφαρμογές τεχνητής νοημοσύνης προέρχονται από την υποδομή και τα εργαλεία που τις υποστηρίζουν. Αποτελούν βασικές μορφές ρίσκου. Θέματα ως προς την ασφάλεια των υποδομών επίσης μπορούν να προκαλέσουν διάφορα προβλήματα ασφαλείας. Χαρακτηριστικό το πρόσφατο παράδειγμα του εντοπισμού μιας δημόσια προσβάσιμης βάσης δεδομένων ClickHouse που ανήκει στην DeepSeek, η οποία επιτρέπει τον πλήρη έλεγχο των λειτουργιών, της βάσης δεδομένων, συμπεριλαμβανομένης της δυνατότητας πρόσβασης σε εσωτερικά δεδομένα. Επίσης το σύστημα διαχείρισης βάσεων δεδομένων (ClickHouse) είναι ανοιχτού κώδικα. Το σύστημα αναπτύχθηκε από την Yandex και χρησιμοποιείται ευρέως για επεξεργασία δεδομένων σε πραγματικό χρόνο, αποθήκευση αρχείων καταγραφής και ανάλυση για big data. Από την έκθεση της Wiz Research προκύπτει ότι πάνω από ένα εκατομμύριο γραμμές ροών καταγραφής που περιέχουν ιστορικό συνομιλιών, μυστικά κλειδιά, λεπτομέρειες για το backend της εφαρμογής και άλλες εξαιρετικά ευαίσθητες πληροφορίες.

Σε περιπτώσεις όπου δεν τηρούνται πρακτικές δεοντολογίας, προστασίας της ιδιωτικής ζωής και ασφάλειας λαμβάνονται μέτρα απαγόρευσης χρήσης. Στην περίπτωση της DeepSeek σε απαγόρευση της χρήσης προχώρησαν χώρες όπως η Ιταλία, η Ταϊβάν και οι ΗΠΑ. Σε απαγόρευση χρήσης της συγκεκριμένης εφαρμογής προχώρησαν επιχειρήσεις και οργανισμοί που ανήκουν στον δημόσιο τομέα.

Η εξαγωγή των δεδομένων είναι ένα επίσης σημαντικό ζήτημα, που χρησιμοποιούν τα μοντέλα, από τρίτους. Η ενέργεια αυτή μπορεί να μείνει απαρατήρητη σε μοντέλα όπως το ChatGPT, στο οποίο συνδέονται εκατοντάδες εκατομμύρια χρήστες.

Επιπλέον, αρκετά μοντέλα, όπως τo Llama της Meta και τα μοντέλα της Mistral, είναι διαθέσιμα για κατέβασμα και μπορούν να χρησιμοποιηθούν χωρίς να γίνουν αντιληπτές οι παραβιάσεις των όρων χρήσης.

Σε αυτό το σημείο θα γίνει αναφορά σχετικά με κάποια από τα βασικά βήματα ανάπτυξης γλωσσικών μοντέλων και άλλες τεχνικές που συνήθως είναι ποιο οικονομικές.

Πριν από την ανάπτυξη ενός μοντέλου, ένα σημαντικό βήμα είναι η διαμόρφωση της κατάλληλης υποδομής και η επιλογή του κατάλληλου μοντέλου. Η δημιουργία μιας κατάλληλης υποδομής περιλαμβάνει τη διασφάλιση ότι το υλικό, η αποθήκευση, το λογισμικό και τα εργαλεία διαχείρισης κώδικα είναι κατάλληλα για το έργο. Ανάλογα με τις απαιτήσεις της εφαρμογής ως προς την υποδομή συναντάμε τις εξής επιλογές: cloud υποδομή, είτε on-premise ή το γλωσσικό μοντέλο να φιλοξενείται τοπικά.

Από την πλευρά του υλικού πλέον υπάρχουν τρόποι να αξιοποιούνται τα παλιά τσιπ, ώστε οι εταιρίες να εκπαιδεύουν μοντέλα κορυφαίας ποιότητας χωρίς να χρειάζεται νεότερα μοντέλα για να παράγει το ίδιο αποτέλεσμα. Αυτό επιτυγχάνεται κάνοντας βελτιστοποιήσεις στον ήδη υπάρχον υλικό. Η Nvidia παρέχει λογισμικό που ονομάζεται CUDA το οποίο οι μηχανικοί χρησιμοποιούν για να κάνουν αλλαγές στις ρυθμίσεις των τσιπ.

Πηγή εικόνας και δικαιώματα χρήσης: katemangostar / Freepik

Δημιουργία βασικού μοντέλου

Μόλις η υποδομή είναι έτοιμη, το επόμενο βήμα αφορά στην ανάπτυξη του LLM είναι η προετοιμασία των δεδομένων και των μοντέλων. Τα δεδομένα που χρησιμοποιούνται για την δημιουργία του μοντέλου μπορούν να ταξινομηθούν σε δύο κύριους τύπους: γενικά δεδομένα και εξειδικευμένα δεδομένα.

Τα περισσότερα LLM χρησιμοποιούν γενικά δεδομένα, όπως ιστοσελίδες, βιβλία και συνομιλίες, ως σώμα δεδομένων προ-εκπαίδευσης, επειδή είναι άφθονα, ποικίλα και εύκολα προσβάσιμα. Αυτό βοηθά στη βελτίωση των δεξιοτήτων τους στη γλωσσική μοντελοποίηση και τη γενίκευση.

Ωστόσο, ορισμένες μελέτες έχουν διερευνήσει τη χρήση εξειδικευμένων συνόλων δεδομένων, όπως πολύγλωσσα δεδομένα, επιστημονικά δεδομένα και κώδικας, για να δώσουν στους LLMs ειδικές ικανότητες επίλυσης προβλημάτων.

Η προετοιμασία των δεδομένων περιλαμβάνει διαδικασίες όπως αφαίρεση του θορύβου, την κανονικοποίηση του κειμένου και τη διασφάλιση της σωστής μορφοποίησης των δεδομένων για το μοντέλο. Τα καλά προετοιμασμένα δεδομένα οδηγούν σε καλύτερες επιδόσεις του μοντέλου και λιγότερα σφάλματα κατά την ανάπτυξη.

Το βασικό μοντέλο δημιουργείται υστέρα από το πρώτο στάδιο της εκπαίδευσης του μοντέλου που ονομάζεται προ-εκπαίδευση (Pretraining). Τα δεδομένα που αναφέραμε παραπάνω τροφοδοτούνται σε ένα νευρωνικό δίκτυο ξανά και ξανά μέχρι να μάθει να παράγει κείμενο που μοιάζει με το αρχικό του υλικό, μία λέξη κάθε φορά. Η προεκπαίδευση είναι το σημείο όπου γίνεται το μεγαλύτερο μέρος της εργασίας και μπορεί να κοστίσει τεράστια χρηματικά ποσά.

Επιπλέον μια άλλη μέθοδος εκπαίδευσης που εφαρμόστηκε στο μοντέλο V3 της DeepSeek, είναι ότι η παραγωγή του κειμένου γίνεται για μία σειρά λέξεων, η μέθοδος ονομάζεται multi-token prediction. Αυτή η μέθοδος παρέχει στο μοντέλο περισσότερη ακρίβεια και είναι ποιο οικονομική η εκπαίδευση του.

Το επόμενο στάδιο της εκπαίδευσης (post-training stage) περιλαμβάνει τεχνικές όπως supervised fine-tuning και reinforcement learning.

Εφόσον ολοκληρωθεί η διαδικασία ανάπτυξης του βασικού μοντέλου, μπορεί να είναι προσβάσιμο υπό την μορφή υπηρεσίας στου τελικούς χρήστες. Οι χρήστες μπορούν να έχουν πρόσβαση σε ένα προσαρμοσμένο μοντέλο, είτε χρησιμοποιώντας API, είτε κατεβάζοντας το μοντέλο και χρησιμοποιώντας κάποια ιδιωτική υποδομή.

Τα APIs είναι η πιο συνηθισμένη μέθοδος ανάπτυξης ενός γλωσσικού μοντέλου. Στο εμπορικά LLM, αυτά που έχουν δημιουργηθεί από τις μεγάλες εταιρείες τεχνολογίας, η πρόσβαση γίνεται μέσω APIs σε συνδυασμό με ένα μοντέλο τιμολόγησης σύμφωνα με την χρήση. Πολλοί πάροχοι cloud υπηρεσιών διευκολύνουν την πρόσβαση σε αυτά τα LLM. Σύμφωνα με το OpenAI, το 92% των εταιρειών του Fortune 500 χρησιμοποιούν το API του – και η χρήση του έχει αυξηθεί λόγω της απελευθέρωσης νέων μοντέλων, του χαμηλότερου κόστους και της καλύτερης απόδοσης.

Στην περίπτωση που θα χρησιμοποιηθεί ένα ήδη υπάρχον μοντέλο. Πρέπει να γίνει η επιλογή μεταξύ ενός μοντέλου κλειστού ή ανοικτού κώδικα. Η επιλογή του μοντέλου επηρεάζεται από διάφορους παράγοντες.

Μετά την επιλογή του μοντέλου το επόμενο βήμα είναι να βελτιστοποιηθεί (εφόσον υπάρχει αυτή η δυνατότητα) για μια συγκεκριμένη περίπτωση χρήσης. Η βελτιστοποίηση του LLM μπορεί να γίνει μέσω τριών βασικών προσεγγίσεων: Prompt Engineering, fine-tuning και retrieval-augmented generation (RAG). Κάθε μία από αυτές τις μεθόδους ενισχύει την ικανότητα του μοντέλου να παρέχει ακρίβεια, σύμφωνα με το περιεχόμενο απαντήσεις με βάση τις απαιτήσεις της εφαρμογής.


ΕΝΔΕΙΚΤΙΚΕΣ ΠΗΓΕΣ
  • OpenAI execs warn of “risk of extinction” from artificial intelligence in new open letter, Benj Edwards , 2023, διαθέσιμο εδώ
  • Choosing the Right LLM: 2024 Comparison of Open-Source Vs Closed-Source LLMs, Spheron Network, 2024, διαθέσιμο εδώ
  • Wiz Research Uncovers Exposed DeepSeek Database Leaking Sensitive Information, Including Chat History, Gal Nagli, 2025, διαθέσιμο εδώ
  • DeepSeek: The countries and agencies that have banned the AI company’s tech,Kyle Wiggers, 2025, διαθέσιμο εδώ
  • Οι ΗΠΑ δεν μπορούν να εμποδίσουν την DeepSeek να χρησιμοποιεί αμερικανική τεχνολογία – Ειδικοί εξηγούν γιατί, Βαγγέλης Πρατικάκης, 2025, διαθέσιμο εδώ
  • Successful LLM Deployment in 5 Steps: Strategies & Best Practices, Mahdiyeh Alikhani, 2024, διαθέσιμο εδώ
  • In-Depth Guide to Cloud Large Language Models (LLMs) in 2024,Cem Dilmegani, 2024, διαθέσιμο εδώ 

 

TA ΤΕΛΕΥΤΑΙΑ ΑΡΘΡΑ

Γαρυφαλιά Σόλια
Γαρυφαλιά Σόλια
Γεννήθηκε και κατοικεί στην Αθήνα. Είναι Μηχανικός Πληροφορικής. Έχει εργαστεί στον ιδιωτικό και δημόσιο τομέα. Την ενδιαφέρει η έρευνα και θέματα που σχετίζονται με την τεχνολογία. Στον ελεύθερο χρόνο της ασχολείται με ανάπτυξη λογισμικού.