Η Meta παρουσιάζει το «Tulip», ένα δυαδικό πρωτόκολλο σειριοποίησης που βοηθά στη σχηματοποίηση δεδομένων αντιμετωπίζοντας την αξιοπιστία του πρωτοκόλλου για φόρτους εργασίας τεχνητής νοημοσύνης και μηχανικής μάθησης PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η Meta παρουσιάζει το «Tulip», ένα δυαδικό πρωτόκολλο σειριοποίησης που βοηθά στη σχηματοποίηση δεδομένων αντιμετωπίζοντας την αξιοπιστία πρωτοκόλλου για φόρτους εργασίας τεχνητής νοημοσύνης και μηχανικής μάθησης

Η Meta παρουσιάζει το «Tulip», ένα δυαδικό πρωτόκολλο σειριοποίησης που υποστηρίζει την εξέλιξη του σχήματος. Αυτό αντιμετωπίζει ταυτόχρονα την αξιοπιστία του πρωτοκόλλου και άλλα ζητήματα και μας βοηθά με τη σχηματοποίηση δεδομένων. Το Tulip έχει πολλές μορφές παλαιού τύπου. Ως εκ τούτου, χρησιμοποιείται στην πλατφόρμα δεδομένων της Meta και έχει σημειώσει σημαντική αύξηση στην απόδοση και την αποδοτικότητα. Η πλατφόρμα δεδομένων της Meta αποτελείται από πολυάριθμες ετερογενείς υπηρεσίες, όπως αποθήκευση δεδομένων αποθήκης και διάφορα συστήματα σε πραγματικό χρόνο που ανταλλάσσουν μεγάλες ποσότητες δεδομένων και επικοινωνούν μεταξύ τους μέσω API υπηρεσιών. Καθώς ο αριθμός των φόρτων εργασίας που σχετίζονται με την τεχνητή νοημοσύνη και τη μηχανική εκμάθηση ML στο σύστημα της Meta αυξάνεται που χρησιμοποιούν δεδομένα για την εκπαίδευση αυτών των μοντέλων ML, είναι απαραίτητο να εργαζόμαστε συνεχώς για να κάνουμε τα συστήματα καταγραφής δεδομένων μας αποτελεσματικά. Η σχηματοποίηση δεδομένων παίζει τεράστιο ρόλο στη δημιουργία μιας πλατφόρμας για δεδομένα σε κλίμακα Meta. Αυτά τα συστήματα έχουν σχεδιαστεί με βάση τη γνώση ότι κάθε απόφαση και ανταλλαγή επηρεάζει την αξιοπιστία, την αποτελεσματικότητα της προεπεξεργασίας δεδομένων, την απόδοση και την εμπειρία προγραμματιστή του μηχανικού. Η αλλαγή των μορφών σειριοποίησης για την υποδομή δεδομένων είναι ένα μεγάλο στοίχημα, αλλά προσφέρει οφέλη μακροπρόθεσμα που κάνουν την πλατφόρμα να εξελίσσεται με την πάροδο του χρόνου.

Η Βιβλιοθήκη καταγραφής δεδομένων Analytics υπάρχει στο επίπεδο Ιστού και στις εσωτερικές υπηρεσίες και είναι επίσης υπεύθυνη για την καταγραφή αναλυτικών και λειτουργικών δεδομένων χρησιμοποιώντας το Scribe- ένα ανθεκτικό σύστημα ουράς μηνυμάτων που χρησιμοποιείται από τη Meta. Τα δεδομένα διαβάζονται και λαμβάνονται από το Scribe, το οποίο περιλαμβάνει επίσης μια υπηρεσία απορρόφησης πλατφόρμας δεδομένων και συστήματα επεξεργασίας σε πραγματικό χρόνο. Η βιβλιοθήκη ανάγνωσης αναλυτικών δεδομένων βοηθά στην αφαίρεση δεδομένων και στην ενυδάτωση τους σε ένα δομημένο ωφέλιμο φορτίο. Τα σχήματα καταγραφής δημιουργούνται, ενημερώνονται και διαγράφονται κάθε μήνα από χιλιάδες μηχανικούς στο Meta, και αυτές οι ροές δεδομένων σχήματος καταγραφής σε petabyte κυμαίνονται κάθε μέρα μέσω του Scribe. 

Η σχηματοποίηση είναι απαραίτητη για να διασφαλιστεί ότι οποιοδήποτε μήνυμα έχει καταγραφεί στο παρελθόν, το παρόν ή το μέλλον, ανάλογα με την έκδοση του (απο)σειριοποιητή, μπορεί να (απο)σειριοποιηθεί αξιόπιστα ανά πάσα στιγμή με τη μέγιστη πιστότητα και χωρίς απώλεια δεδομένων. Ασφαλής εξέλιξη σχήματος μέσω συμβατότητας προς τα πίσω και προς τα εμπρός είναι το όνομα που δόθηκε σε αυτό το χαρακτηριστικό. Η κύρια εστίαση του άρθρου έγκειται στη μορφή σειριοποίησης on-wire που χρησιμοποιείται για την κωδικοποίηση των δεδομένων που τελικώς επεξεργάζονται από την πλατφόρμα δεδομένων. Σε σύγκριση με τις δύο μορφές σειριοποίησης που χρησιμοποιήθηκαν προηγουμένως, Hive Text Delimited και JSON serialization, η νέα μορφή κωδικοποίησης είναι πιο αποτελεσματική, καθώς απαιτεί 40 έως 85 τοις εκατό λιγότερα byte και 50 έως 90 τοις εκατό λιγότερους κύκλους CPU για την (απ)σειριοποίηση δεδομένων.

Οι εφαρμογές της βιβλιοθήκης καταγραφής είναι γραμμένες σε διάφορες γλώσσες όπως C++, Java, Haskell, Hack και Python, έτσι ώστε να γίνεται σειριακός ωφέλιμο φορτίο σύμφωνα με το σχήμα καταγραφής, και αυτά τα σχήματα καταγραφής ορίζονται σύμφωνα με τις ανάγκες της επιχείρησης και γράφονται στο Scribe για ευκολότερη παράδοση . Η βιβλιοθήκη υλοτομίας διατίθεται σε δύο γεύσεις, το Code Generated και το Generic. Στο άρωμα που δημιουργείται κώδικας για χρήση με ασφάλεια τύπου, δημιουργούνται ρυθμιστές στατικής πληκτρολόγησης για κάθε πεδίο. Για βέλτιστη απόδοση, δημιουργείται επίσης κώδικας μετα-επεξεργασίας και σειριοποίησης. Ενώ σε Generic άρωμα για τη διεξαγωγή (απο)σειριοποίησης δυναμικά πληκτρολογημένων ωφέλιμων φορτίων, προσφέρεται μια βιβλιοθήκη C++ με το όνομα Tulib. Ένα μήνυμα που χρησιμοποιεί δυναμική πληκτρολόγηση σειριοποιείται σύμφωνα με ένα σχήμα καταγραφής. Επειδή επιτρέπει την (απο)σειριοποίηση των μηνυμάτων χωρίς να απαιτείται ανακατασκευή και αναδιάταξη του δυαδικού αρχείου της εφαρμογής, αυτή η μέθοδος είναι πιο ευέλικτη από τη λειτουργία που δημιουργείται από κώδικα.

Η βιβλιοθήκη καταγραφής στέλνει δεδομένα σε διάφορα συστήματα υποστήριξης, καθένα από τα οποία έχει παραδοσιακά καθορίσει τους δικούς του κανόνες σειριοποίησης και αντιμετωπίζονται διάφορα προβλήματα κατά τη χρήση αυτών των μορφών για τη σειριοποίηση ωφέλιμων φορτίων.

  • Τυποποίηση: Δεν υπήρχε τυποποίηση των μορφών σειριοποίησης στο παρελθόν. Κάθε μεταγενέστερο σύστημα είχε τη δική του μορφή που οδηγεί σε αύξηση του κόστους συντήρησης και ανάπτυξης. 
  • Αξιοπιστία: Μπορούν να προστεθούν νέες στήλες μόνο στο τέλος για να διατηρηθεί η αξιοπιστία της αποσειριοποίησης. Οποιαδήποτε προσπάθεια να εισαγάγετε ένα πεδίο στο μέσο μιας υπάρχουσας στήλης ή να αφαιρέσετε μια στήλη θα προκαλούσε μετατόπιση όλων των παρακάτω στηλών, καθιστώντας αδύνατη την αποσειροποίηση της σειράς και το ενημερωμένο σχήμα διανέμεται στους αναγνώστες σε πραγματικό χρόνο. 
  • Αποδοτικότητα: Σε σύγκριση με τη δυαδική (απο)σειριοποίηση, τόσο τα πρωτόκολλα Hive Text Delimited όσο και τα πρωτόκολλα JSON βασίζονται σε κείμενο και είναι αναποτελεσματικά.
  • Ορθότητα: Οι οριοθέτες πεδίων και οι οριοθέτες γραμμών πρέπει να έχουν διαφυγή και χωρίς διαφυγή για πρωτόκολλα που βασίζονται σε κείμενο όπως το Hive Text. Κάθε συγγραφέας και αναγνώστης το κάνει αυτό, γεγονός που αυξάνει την πίεση στους συγγραφείς της βιβλιοθήκης. Η αντιμετώπιση παρωχημένων ή ελαττωματικών υλοποιήσεων που αναζητούν απλώς την παρουσία αυτών των χαρακτήρων και απορρίπτουν ολόκληρο το μήνυμα αντί να ξεφύγουν από τους ενοχλητικούς χαρακτήρες είναι δύσκολο.
  • Συμβατότητα προς τα εμπρός και προς τα πίσω: Είναι επιθυμητή η κατανάλωση ωφέλιμων φορτίων που είχαν σειριοποιηθεί με ένα σχήμα σειριοποίησης τόσο πριν όσο και μετά την έκδοση που βλέπει ο καταναλωτής. Το Πρωτόκολλο κειμένου Hive δεν παρέχει αυτή τη διασφάλιση.
  • Μεταδεδομένα: Η εισαγωγή μεταδεδομένων στο ωφέλιμο φορτίο δεν υποστηρίζεται επιπόλαια από τη σειριοποίηση κειμένου Hive. Για τα μεταγενέστερα συστήματα για την εφαρμογή χαρακτηριστικών που επωφελούνται από την παρουσία μεταδεδομένων, η διάδοση αυτών των δεδομένων είναι απαραίτητη.

Το Tulip λύνει το θεμελιώδες μας πρόβλημα, το ζήτημα της αξιοπιστίας, παρέχοντας μια ασφαλή μορφή εξέλιξης σχήματος που είναι συμβατή προς τα πίσω και προς τα εμπρός σε όλες τις υπηρεσίες με διαφορετικούς κύκλους ανάπτυξης. Η Tulip έλυσε όλα αυτά τα προβλήματα μονομιάς, καθιστώντας την καλύτερη επένδυση από άλλες διαθέσιμες επιλογές. 

Το TCompactProtocol από τη Thrift χρησιμοποιείται για τη σειριοποίηση ενός ωφέλιμου φορτίου στο πρωτόκολλο σειριοποίησης Tulip, το οποίο είναι ένα δυαδικό πρωτόκολλο σειριοποίησης. Τα πεδία αριθμούνται με αναγνωριστικά με τον ίδιο τρόπο που θα περίμενε ένας μηχανικός όταν αλλάζει τα αναγνωριστικά σε μια δομή Thrift. Οι μηχανικοί ορίζουν μια λίστα ονομάτων και ειδών πεδίων όταν δημιουργούν ένα σχήμα καταγραφής και η διαχείριση των αναγνωριστικών πεδίων γίνεται από τη μονάδα διαχείρισης πλατφόρμας δεδομένων και όχι από τους καθορισμένους μηχανικούς. Το αποθετήριο σχήματος σειριοποίησης περιέχει μια μετάφραση του σχήματος καταγραφής σε ένα σχήμα σειριοποίησης. Οι λίστες με το όνομα πεδίου, τον τύπο πεδίου, το αναγνωριστικό πεδίου για ένα σχετικό σχήμα καταγραφής και το ιστορικό πεδίου αποθηκεύονται σε μια διαμόρφωση σειριοποίησης. Όταν ένας μηχανικός θέλει να ενημερώσει ένα σχήμα καταγραφής, εκτελείται μια λειτουργία συναλλαγής στο σχήμα σειριοποίησης.

Αναφορά: https://engineering.fb.com/2022/11/09/developer-tools/tulip-schematizing-metas-data-platform/

Παρακαλώ μην ξεχάσετε να εγγραφείτε Το ML Subreddit μας

Η Avanthy Yeluri είναι φοιτήτρια διπλού πτυχίου στο IIT Kharagpur. Έχει έντονο ενδιαφέρον για την Επιστήμη των Δεδομένων λόγω των πολυάριθμων εφαρμογών της σε μια ποικιλία βιομηχανιών, καθώς και των τεχνολογικών εξελίξεων αιχμής και του τρόπου με τον οποίο χρησιμοποιούνται στην καθημερινή ζωή.

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

->

Σφραγίδα ώρας:

Περισσότερα από Σύμβουλοι Blockchain