Η Tesla θέλει να μεταφέρει το πυρίτιο μηχανικής μάθησης στο Dojo PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η Tesla θέλει να μεταφέρει πυρίτιο μηχανικής εκμάθησης στο Dojo

Για να σβήσει τη δίψα για ολοένα μεγαλύτερα μοντέλα τεχνητής νοημοσύνης και μηχανικής μάθησης, η Tesla αποκάλυψε πληθώρα λεπτομερειών στο Hot Chips 34 σχετικά με την πλήρως προσαρμοσμένη αρχιτεκτονική υπερυπολογιστών τους που ονομάζεται Dojo.

Το σύστημα είναι ουσιαστικά ένας τεράστιος συνθετικός υπερυπολογιστής, αν και σε αντίθεση με αυτό που βλέπουμε στον Top 500, είναι κατασκευασμένο από μια εξ ολοκλήρου προσαρμοσμένη αρχιτεκτονική που εκτείνεται από την υπολογιστική, τη δικτύωση και το πυρίτιο εισόδου/εξόδου (I/O) έως την αρχιτεκτονική συνόλου εντολών (ISA), την παροχή ισχύος, τη συσκευασία και την ψύξη. Όλα έγιναν με σαφή σκοπό την εκτέλεση προσαρμοσμένων, ειδικών αλγορίθμων εκπαίδευσης μηχανικής μάθησης σε κλίμακα.

«Η επεξεργασία δεδομένων του πραγματικού κόσμου είναι εφικτή μόνο μέσω τεχνικών μηχανικής εκμάθησης, είτε πρόκειται για επεξεργασία φυσικής γλώσσας, οδήγηση σε δρόμους που είναι φτιαγμένοι για την ανθρώπινη όραση έως τη ρομποτική διασύνδεση με το καθημερινό περιβάλλον», δήλωσε ο Ganesh Venkataramanan, ανώτερος διευθυντής μηχανικής υλικού στην Tesla. κατά την κεντρική του ομιλία.

Ωστόσο, υποστήριξε ότι οι παραδοσιακές μέθοδοι για την κλιμάκωση του κατανεμημένου φόρτου εργασίας απέτυχαν να επιταχυνθούν με τον απαραίτητο ρυθμό για να συμβαδίσουν με τις απαιτήσεις της μηχανικής μάθησης. Ουσιαστικά, ο νόμος του Moore δεν το κόβει και ούτε τα συστήματα είναι διαθέσιμα για εκπαίδευση AI/ML σε κλίμακα, συγκεκριμένα κάποιος συνδυασμός CPU/GPU ή σε πιο σπάνιες περιπτώσεις χρησιμοποιώντας ειδικούς επιταχυντές τεχνητής νοημοσύνης. 

«Παραδοσιακά κατασκευάζουμε τσιπ, τα βάζουμε σε πακέτα, τα πακέτα πηγαίνουν σε PCB, τα οποία μπαίνουν σε συστήματα. Τα συστήματα μπαίνουν σε ράφια», είπε ο Venkataramanan. Το πρόβλημα είναι ότι κάθε φορά που τα δεδομένα μετακινούνται από το τσιπ στο πακέτο και εκτός του πακέτου, επισύρουν ποινή καθυστέρησης και εύρους ζώνης.

Ένα σάντουιτς κέντρου δεδομένων

Έτσι, για να ξεπεράσουν τους περιορισμούς, ο Venkataramanan και η ομάδα του ξεκίνησαν από την αρχή.

«Από τη συνέντευξή μου με τον Έλον, με ρώτησε τι μπορείς να κάνεις που είναι διαφορετικό από τους CPU και τις GPU για την τεχνητή νοημοσύνη. Νιώθω ότι όλη η ομάδα εξακολουθεί να απαντά σε αυτήν την ερώτηση».

Πλακίδιο εκπαίδευσης Dojo της Tesla

Αυτό οδήγησε στην ανάπτυξη του πλακιδίου εκπαίδευσης Dojo, ενός αυτόνομου συμπλέγματος υπολογιστών που καταλαμβάνει μισό κυβικό πόδι ικανό για 556 TFLOPS απόδοσης FP32 σε ένα υγρόψυκτο πακέτο 15 kW.

Κάθε πλακίδιο είναι εξοπλισμένο με 11 GB SRAM και συνδέεται σε ύφασμα 9 TB/s χρησιμοποιώντας ένα προσαρμοσμένο πρωτόκολλο μεταφοράς σε ολόκληρη τη στοίβα.

"Αυτό το πλακίδιο εκπαίδευσης αντιπροσωπεύει απαράμιλλη ποσότητα ενσωμάτωσης από τον υπολογιστή στη μνήμη στην παροχή ρεύματος, στην επικοινωνία, χωρίς να απαιτεί επιπλέον διακόπτες", είπε ο Venkataramanan.

Στην καρδιά του πλακιδίου εκπαίδευσης βρίσκεται το D1 της Tesla, ένα καλούπι τρανζίστορ 50 δισεκατομμυρίων, που βασίζεται στη διαδικασία των 7 nm του TSMC. Η Tesla λέει ότι κάθε D1 είναι ικανό για απόδοση 22 TFLOPS FP32 σε TDP 400 W. Ωστόσο, η Tesla σημειώνει ότι το τσιπ είναι ικανό να εκτελέσει ένα ευρύ φάσμα υπολογισμών κινητής υποδιαστολής, συμπεριλαμβανομένων μερικών προσαρμοσμένων.

Το Dojo D1 Die της Tesla

Το Dojo D1 του Tesla πεθαίνει

"Αν συγκρίνετε τρανζίστορ για τετραγωνικά χιλιοστά, αυτό είναι πιθανώς η αιμορραγική άκρη οποιουδήποτε υπάρχει εκεί έξω", είπε ο Venkataramanan.

Στη συνέχεια, η Tesla πήρε 25 D1, τα δέσμευσε για γνωστά καλά καλούπια και στη συνέχεια τα συσκεύασε χρησιμοποιώντας την τεχνολογία system-on-wafer της TSMC για «να επιτύχει τεράστιο όγκο υπολογιστικής ολοκλήρωσης σε πολύ χαμηλή καθυστέρηση και πολύ υψηλό εύρος ζώνης», είπε.

Ωστόσο, η σχεδίαση system-on-wafer και η κατακόρυφα στοιβαγμένη αρχιτεκτονική εισήγαγαν προκλήσεις όσον αφορά την παροχή ισχύος.

Σύμφωνα με τον Venkataramanan, οι περισσότεροι επιταχυντές σήμερα τοποθετούν την ισχύ απευθείας δίπλα στο πυρίτιο. Και παρόλο που είναι αποδεδειγμένη, αυτή η προσέγγιση σημαίνει ότι μια μεγάλη περιοχή του επιταχυντή πρέπει να αφιερωθεί σε αυτά τα εξαρτήματα, τα οποία την καθιστούν ανέφικτη για το Dojo, εξήγησε. Αντίθετα, η Tesla σχεδίασε τα τσιπ της για να παρέχουν ενέργεια απευθείας στο κάτω μέρος της μήτρας. 

Βάζοντας όλα μαζί

«Θα μπορούσαμε να δημιουργήσουμε ένα ολόκληρο κέντρο δεδομένων ή ένα ολόκληρο κτίριο από αυτό το πλακίδιο εκπαίδευσης, αλλά το πλακίδιο εκπαίδευσης είναι απλώς το υπολογιστικό τμήμα. Πρέπει επίσης να το ταΐσουμε», είπε ο Venkataramanan.

Επεξεργαστής διασύνδεσης Dojo της Tesla

Επεξεργαστής διασύνδεσης Dojo της Tesla

Για αυτό, η Tesla ανέπτυξε επίσης τον Dojo Interface Processor (DIP), ο οποίος λειτουργεί ως γέφυρα μεταξύ της κεντρικής CPU και των επεξεργαστών εκπαίδευσης. Το DIP χρησιμεύει επίσης ως πηγή κοινής μνήμης υψηλού εύρους ζώνης (HBM) και ως NIC υψηλής ταχύτητας 400 Gbit/sec.

Κάθε DIP διαθέτει 32 GB HBM και έως και πέντε από αυτές τις κάρτες μπορούν να συνδεθούν σε ένα πλακίδιο εκπαίδευσης στα 900 GB/s για ένα σύνολο 4.5 TB/s στον κεντρικό υπολογιστή για συνολικά 160 GB HBM ανά πλακίδιο.

Τα ζεύγη ρύθμισης παραμέτρων V1 της Tesla από αυτά τα πλακίδια – ή 150 μήτρες D1 – σε συστοιχία υποστήριζαν τέσσερις κεντρικούς επεξεργαστές ο καθένας εξοπλισμένος με πέντε κάρτες DIP για να επιτύχει μια ισχυρή exaflop απόδοσης BF16 ή CFP8.

Το V1 Arrangement της Tesla

Το V1 Arrangement της Tesla

Συνολικά, ο Venkataramanan λέει την αρχιτεκτονική – αναλυτικά σε βάθος εδώ by Η επόμενη πλατφόρμα – επιτρέπει στην Tesla να ξεπεράσει τους περιορισμούς που σχετίζονται με τους παραδοσιακούς επιταχυντές όπως η Nvidia και η AMD.

«Πώς λειτουργούν οι παραδοσιακοί επιταχυντές, συνήθως προσπαθείτε να χωρέσετε ένα ολόκληρο μοντέλο σε κάθε επιταχυντή. Αντιγράψτε το και στη συνέχεια διοχετεύστε τα δεδομένα μέσω καθενός από αυτά», είπε. «Τι θα συμβεί αν έχουμε όλο και μεγαλύτερα μοντέλα; Αυτοί οι επιταχυντές μπορεί να πέσουν σταδιακά επειδή εξαντλείται η μνήμη».

Αυτό δεν είναι νέο πρόβλημα, σημείωσε. Ο διακόπτης NV της Nvidia, για παράδειγμα, επιτρέπει τη συγκέντρωση της μνήμης σε μεγάλες ομάδες GPU. Ωστόσο, ο Venkataramanan υποστηρίζει ότι αυτό όχι μόνο προσθέτει πολυπλοκότητα, αλλά εισάγει λανθάνουσα κατάσταση και συμβιβασμούς στο εύρος ζώνης.

«Το σκεφτήκαμε από την αρχή. Τα υπολογιστικά μας πλακίδια και κάθε ένα από τα καλούπια κατασκευάστηκαν για την τοποθέτηση μεγάλων μοντέλων», είπε ο Venkataramanan.

λογισμικό

Μια τέτοια εξειδικευμένη αρχιτεκτονική υπολογιστών απαιτεί μια εξειδικευμένη στοίβα λογισμικού. Ωστόσο, ο Venkataramanan και η ομάδα του αναγνώρισαν ότι ο προγραμματισμός είτε θα έκανε είτε θα έσπασε το Dojo.

«Η ευκολία προγραμματισμού για τους αντίστοιχους λογισμικού είναι πρωταρχικής σημασίας όταν σχεδιάζουμε αυτά τα συστήματα», είπε. "Οι ερευνητές δεν θα περιμένουν από τους ανθρώπους του λογισμικού σας να γράψουν έναν χειρόγραφο πυρήνα για προσαρμογή σε έναν νέο αλγόριθμο που θέλουμε να εκτελέσουμε."

Για να γίνει αυτό, ο Tesla εγκατέλειψε την ιδέα της χρήσης πυρήνων και σχεδίασε την αρχιτεκτονική του Dojo γύρω από τους μεταγλωττιστές.

«Αυτό που κάναμε ήταν ότι χρησιμοποιήσαμε το PiTorch. Δημιουργήσαμε ένα ενδιάμεσο επίπεδο, το οποίο μας βοηθά να παραλληλίσουμε για να κλιμακώσουμε το υλικό κάτω από αυτό. Κάτω από όλα υπάρχει μεταγλωττισμένος κώδικας», είπε. "Αυτός είναι ο μόνος τρόπος για να δημιουργήσετε στοίβες λογισμικού που είναι προσαρμόσιμες σε όλους αυτούς τους μελλοντικούς φόρτους εργασίας."

Παρά την έμφαση στην ευελιξία του λογισμικού, ο Venkataramanan σημειώνει ότι η πλατφόρμα, η οποία λειτουργεί επί του παρόντος στα εργαστήριά τους, περιορίζεται προς το παρόν στη χρήση της Tesla.

«Εστιάζουμε πρώτα στους εσωτερικούς πελάτες μας», είπε. «Ο Έλον δημοσιοποίησε ότι με την πάροδο του χρόνου, θα το κάνουμε διαθέσιμο στους ερευνητές, αλλά δεν έχουμε ένα χρονικό πλαίσιο για αυτό. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο