Αυτή η ανάρτηση συντάσσεται από τον Anatoly Khomenko, Μηχανικό Μηχανικής Μάθησης και τον Abdenour Bezzouh, Chief Technology Officer στο Talent.com.
Ιδρύθηκε το 2011, Talent.com είναι μια από τις μεγαλύτερες πηγές απασχόλησης στον κόσμο. Η εταιρεία συνδυάζει τις λίστες θέσεων εργασίας επί πληρωμή από τους πελάτες της με τις δημόσιες καταχωρίσεις θέσεων εργασίας σε μια ενιαία πλατφόρμα με δυνατότητα αναζήτησης. Με περισσότερες από 30 εκατομμύρια θέσεις εργασίας σε περισσότερες από 75 χώρες, το Talent.com εξυπηρετεί θέσεις εργασίας σε πολλές γλώσσες, βιομηχανίες και κανάλια διανομής. Το αποτέλεσμα είναι μια πλατφόρμα που ταιριάζει με εκατομμύρια άτομα που αναζητούν εργασία με τις διαθέσιμες θέσεις εργασίας.
Η αποστολή του Talent.com είναι να συγκεντρώνει όλες τις θέσεις εργασίας που είναι διαθέσιμες στον ιστό για να βοηθήσει τα άτομα που αναζητούν εργασία να βρουν το καλύτερο ταίρι τους παρέχοντάς τους παράλληλα την καλύτερη εμπειρία αναζήτησης. Η εστίασή του είναι στη συνάφεια, επειδή η σειρά των προτεινόμενων εργασιών είναι ζωτικής σημασίας για να εμφανιστούν οι εργασίες που είναι πιο σχετικές με τα ενδιαφέροντα των χρηστών. Η απόδοση του αλγορίθμου αντιστοίχισης του Talent.com είναι υψίστης σημασίας για την επιτυχία της επιχείρησης και βασικός παράγοντας στην εμπειρία των χρηστών του. Είναι δύσκολο να προβλέψεις ποιες θέσεις εργασίας είναι σχετικές με ένα άτομο που αναζητά εργασία με βάση τον περιορισμένο όγκο πληροφοριών που παρέχονται, που συνήθως περιέχονται σε μερικές λέξεις-κλειδιά και μια τοποθεσία.
Δεδομένης αυτής της αποστολής, το Talent.com και η AWS ένωσαν τις δυνάμεις τους για να δημιουργήσουν μια μηχανή προτάσεων εργασίας χρησιμοποιώντας προηγμένες τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) και μοντέλων βαθιάς μάθησης με Amazon Sage Maker να προσφέρει μια ασυναγώνιστη εμπειρία σε όσους αναζητούν εργασία. Αυτή η ανάρτηση δείχνει την κοινή μας προσέγγιση στο σχεδιασμό ενός συστήματος προτάσεων εργασίας, συμπεριλαμβανομένης της μηχανικής χαρακτηριστικών, του σχεδιασμού αρχιτεκτονικής μοντέλων βαθιάς μάθησης, της βελτιστοποίησης υπερπαραμέτρων και της αξιολόγησης μοντέλων που διασφαλίζει την αξιοπιστία και την αποτελεσματικότητα της λύσης μας τόσο για όσους αναζητούν εργασία όσο και για τους εργοδότες. Το σύστημα αναπτύχθηκε από μια ομάδα αφοσιωμένων επιστημόνων εφαρμοσμένης μηχανικής μάθησης (ML), μηχανικών ML και ειδικών σε θέματα σε συνεργασία μεταξύ της AWS και του Talent.com.
Το σύστημα συστάσεων οδήγησε σε αύξηση 8.6% στην αναλογία κλικ προς αριθμό εμφανίσεων (CTR) στις διαδικτυακές δοκιμές A/B έναντι μιας προηγούμενης λύσης που βασίζεται στο XGBoost, βοηθώντας στη σύνδεση εκατομμυρίων χρηστών του Talent.com σε καλύτερες θέσεις εργασίας.
Επισκόπηση της λύσης
Μια επισκόπηση του συστήματος φαίνεται στο παρακάτω σχήμα. Το σύστημα λαμβάνει το ερώτημα αναζήτησης ενός χρήστη ως είσοδο και εξάγει μια ταξινομημένη λίστα εργασιών με σειρά καταλληλότητας. Η συνάφεια εργασίας μετριέται με την πιθανότητα κλικ (η πιθανότητα να κάνει κλικ σε μια θέση εργασίας για περισσότερες πληροφορίες ένας αναζητητής εργασίας).
Το σύστημα περιλαμβάνει τέσσερα κύρια στοιχεία:
- Μοντέλο αρχιτεκτονικής – Ο πυρήνας αυτής της μηχανής προτάσεων εργασίας είναι ένα μοντέλο Triple Tower Pointwise που βασίζεται σε βαθιά μάθηση, το οποίο περιλαμβάνει έναν κωδικοποιητή ερωτημάτων που κωδικοποιεί ερωτήματα αναζήτησης χρηστών, έναν κωδικοποιητή εγγράφων που κωδικοποιεί τις περιγραφές θέσεων εργασίας και έναν κωδικοποιητή αλληλεπίδρασης που επεξεργάζεται την προηγούμενη εργασία χρήστη χαρακτηριστικά αλληλεπίδρασης. Οι έξοδοι των τριών πύργων ενώνονται και περνούν μέσα από μια κεφαλή ταξινόμησης για να προβλέψουν τις πιθανότητες κλικ της εργασίας. Με την εκπαίδευση αυτού του μοντέλου σε ερωτήματα αναζήτησης, ιδιαιτερότητες εργασίας και ιστορικά δεδομένα αλληλεπίδρασης χρηστών από το Talent.com, αυτό το σύστημα παρέχει εξατομικευμένες και εξαιρετικά σχετικές προτάσεις εργασίας σε όσους αναζητούν εργασία.
- Μηχανική χαρακτηριστικών – Εκτελούμε δύο σετ μηχανικής χαρακτηριστικών για να εξάγουμε πολύτιμες πληροφορίες από τα δεδομένα εισόδου και να τις τροφοδοτούμε στους αντίστοιχους πύργους του μοντέλου. Τα δύο σετ είναι τυπική μηχανική χαρακτηριστικών και βελτιωμένες ενσωματώσεις Sentence-BERT (SBERT). Χρησιμοποιούμε τις τυπικές μηχανικές δυνατότητες ως είσοδο στον κωδικοποιητή αλληλεπίδρασης και τροφοδοτούμε την ενσωμάτωση που προκύπτει από το SBERT στον κωδικοποιητή ερωτήματος και στον κωδικοποιητή εγγράφων.
- Βελτιστοποίηση και ρύθμιση μοντέλου – Χρησιμοποιούμε προηγμένες μεθοδολογίες εκπαίδευσης για την εκπαίδευση, τη δοκιμή και την ανάπτυξη του συστήματος με το SageMaker. Αυτό περιλαμβάνει εκπαίδευση SageMaker Distributed Data Parallel (DDP), SageMaker Automatic Model Tuning (AMT), προγραμματισμό ρυθμού εκμάθησης και πρόωρη διακοπή για τη βελτίωση της απόδοσης του μοντέλου και της ταχύτητας εκπαίδευσης. Η χρήση του πλαισίου εκπαίδευσης DDP βοήθησε στην επιτάχυνση της εκπαίδευσης μοντέλων μας σε περίπου οκτώ φορές ταχύτερη.
- Αξιολόγηση μοντέλου – Πραγματοποιούμε αξιολόγηση τόσο εκτός σύνδεσης όσο και σε απευθείας σύνδεση. Αξιολογούμε την απόδοση του μοντέλου με την περιοχή κάτω από την καμπύλη (AUC) και τη μέση μέση ακρίβεια στο K (mAP@K) σε αξιολόγηση εκτός σύνδεσης. Κατά τη διάρκεια της διαδικτυακής δοκιμής A/B, αξιολογούμε τις βελτιώσεις CTR.
Στις επόμενες ενότητες, παρουσιάζουμε τις λεπτομέρειες αυτών των τεσσάρων στοιχείων.
Σχεδιασμός αρχιτεκτονικής μοντέλου Deep Learning
Σχεδιάζουμε ένα μοντέλο Triple Tower Deep Pointwise (TTDP) χρησιμοποιώντας μια αρχιτεκτονική βαθιάς μάθησης τριπλού πύργου και την προσέγγιση μοντελοποίησης ζεύγους σημείου. Η αρχιτεκτονική του τριπλού πύργου παρέχει τρία παράλληλα βαθιά νευρωνικά δίκτυα, με κάθε πύργο να επεξεργάζεται ένα σύνολο χαρακτηριστικών ανεξάρτητα. Αυτό το σχέδιο σχεδίασης επιτρέπει στο μοντέλο να μάθει ξεχωριστές αναπαραστάσεις από διαφορετικές πηγές πληροφοριών. Αφού ληφθούν οι αναπαραστάσεις και από τους τρεις πύργους, συνενώνονται και περνούν μέσα από μια κεφαλή ταξινόμησης για να γίνει η τελική πρόβλεψη (0–1) σχετικά με την πιθανότητα κλικ (μια διάταξη μοντελοποίησης κατά σημείο).
Οι τρεις πύργοι ονομάζονται με βάση τις πληροφορίες που επεξεργάζονται: ο κωδικοποιητής ερωτήματος επεξεργάζεται το ερώτημα αναζήτησης χρήστη, ο κωδικοποιητής εγγράφων επεξεργάζεται τα περιεχόμενα τεκμηρίωσης της υποψήφιας εργασίας, συμπεριλαμβανομένου του τίτλου εργασίας και του ονόματος της εταιρείας, και ο κωδικοποιητής αλληλεπίδρασης χρησιμοποιεί σχετικά χαρακτηριστικά που εξάγονται από προηγούμενες αλληλεπιδράσεις χρηστών και ιστορία (αναλύεται περισσότερο στην επόμενη ενότητα).
Καθένας από αυτούς τους πύργους διαδραματίζει κρίσιμο ρόλο στην εκμάθηση πώς να προτείνουμε θέσεις εργασίας:
- Κωδικοποιητής ερωτήματος – Ο κωδικοποιητής ερωτήματος δέχεται τις ενσωματώσεις SBERT που προέρχονται από το ερώτημα αναζήτησης εργασίας του χρήστη. Βελτιώνουμε τις ενσωματώσεις μέσω ενός μοντέλου SBERT που βελτιστοποιήσαμε. Αυτός ο κωδικοποιητής επεξεργάζεται και κατανοεί την πρόθεση αναζήτησης εργασίας του χρήστη, συμπεριλαμβανομένων των λεπτομερειών και των αποχρώσεων που καταγράφονται από τις ενσωματώσεις μας για συγκεκριμένο τομέα.
- Κωδικοποιητής εγγράφων – Ο κωδικοποιητής εγγράφων επεξεργάζεται τις πληροφορίες κάθε λίστας εργασιών. Συγκεκριμένα, παίρνει τις ενσωματώσεις SBERT του συνδυασμένου κειμένου από τον τίτλο εργασίας και την εταιρεία. Η διαίσθηση είναι ότι οι χρήστες θα ενδιαφέρονται περισσότερο για υποψήφιες θέσεις εργασίας που είναι πιο σχετικές με το ερώτημα αναζήτησης. Αντιστοιχίζοντας τις θέσεις εργασίας και τα ερωτήματα αναζήτησης στον ίδιο διανυσματικό χώρο (που ορίζεται από τον SBERT), το μοντέλο μπορεί να μάθει να προβλέπει την πιθανότητα των πιθανών θέσεων εργασίας που θα κάνει κλικ ένας αναζητητής εργασίας.
- Κωδικοποιητής αλληλεπίδρασης – Ο κωδικοποιητής αλληλεπίδρασης ασχολείται με τις προηγούμενες αλληλεπιδράσεις του χρήστη με τις λίστες εργασιών. Τα χαρακτηριστικά παράγονται μέσω ενός τυπικού βήματος μηχανικής χαρακτηριστικών, το οποίο περιλαμβάνει τον υπολογισμό μετρήσεων δημοτικότητας για ρόλους εργασίας και εταιρείες, τον καθορισμό βαθμολογιών ομοιότητας περιβάλλοντος και την εξαγωγή παραμέτρων αλληλεπίδρασης από προηγούμενες δεσμεύσεις χρηστών. Επεξεργάζεται επίσης τις επώνυμες οντότητες που προσδιορίζονται στον τίτλο της θέσης εργασίας και τα ερωτήματα αναζήτησης με ένα προεκπαιδευμένο μοντέλο αναγνώρισης επώνυμης οντότητας (NER).
Κάθε πύργος παράγει μια ανεξάρτητη έξοδο παράλληλα, τα οποία στη συνέχεια ενώνονται μεταξύ τους. Αυτό το συνδυασμένο διάνυσμα χαρακτηριστικών μεταβιβάζεται στη συνέχεια για να προβλέψει την πιθανότητα κλικ μιας λίστας εργασίας για ένα ερώτημα χρήστη. Η αρχιτεκτονική του τριπλού πύργου παρέχει ευελιξία στην καταγραφή σύνθετων σχέσεων μεταξύ διαφορετικών εισόδων ή χαρακτηριστικών, επιτρέποντας στο μοντέλο να εκμεταλλευτεί τα δυνατά σημεία κάθε πύργου ενώ μαθαίνει πιο εκφραστικές αναπαραστάσεις για τη δεδομένη εργασία.
Οι προβλεπόμενες πιθανότητες κλικ των υποψήφιων θέσεων εργασίας κατατάσσονται από τις υψηλές έως τις χαμηλές, δημιουργώντας εξατομικευμένες προτάσεις εργασίας. Μέσω αυτής της διαδικασίας, διασφαλίζουμε ότι κάθε πληροφορία —είτε πρόκειται για την πρόθεση αναζήτησης του χρήστη, για λεπτομέρειες της λίστας εργασιών ή για παλαιότερες αλληλεπιδράσεις— καταγράφεται πλήρως από έναν συγκεκριμένο πύργο αφιερωμένο σε αυτό. Οι σύνθετες σχέσεις μεταξύ τους αποτυπώνονται επίσης μέσω του συνδυασμού των εξόδων του πύργου.
Μηχανική χαρακτηριστικών
Εκτελούμε δύο σειρές διαδικασιών μηχανικής χαρακτηριστικών για να εξάγουμε πολύτιμες πληροφορίες από τα ακατέργαστα δεδομένα και να τις τροφοδοτούμε στους αντίστοιχους πύργους του μοντέλου: τυπική μηχανική χαρακτηριστικών και λεπτομέρεια ενσωματώσεων SBERT.
Τυπική μηχανική χαρακτηριστικών
Η διαδικασία προετοιμασίας δεδομένων μας ξεκινά με την τυπική μηχανική χαρακτηριστικών. Συνολικά, ορίζουμε τέσσερις τύπους χαρακτηριστικών:
- Δημοτικότητα – Υπολογίζουμε τις βαθμολογίες δημοτικότητας σε ατομικό επίπεδο εργασίας, επαγγέλματος και εταιρικού επιπέδου. Αυτό παρέχει μια μέτρηση του πόσο ελκυστική μπορεί να είναι μια συγκεκριμένη εργασία ή εταιρεία.
- Κειμενική ομοιότητα – Για να κατανοήσουμε τη σχέση με τα συμφραζόμενα μεταξύ διαφορετικών στοιχείων κειμένου, υπολογίζουμε τις βαθμολογίες ομοιότητας, συμπεριλαμβανομένης της ομοιότητας συμβολοσειρών μεταξύ του ερωτήματος αναζήτησης και του τίτλου εργασίας. Αυτό μας βοηθά να μετρήσουμε τη συνάφεια ενός ανοίγματος θέσης εργασίας με το ιστορικό αναζήτησης ή αίτησης ενός αιτούντος εργασία.
- Αλληλεπίδραση – Επιπλέον, εξάγουμε λειτουργίες αλληλεπίδρασης από προηγούμενες δεσμεύσεις χρηστών με λίστες θέσεων εργασίας. Ένα χαρακτηριστικό παράδειγμα αυτού είναι η ομοιότητα ενσωμάτωσης μεταξύ των τίτλων εργασιών που κάνατε κλικ στο παρελθόν και των τίτλων εργασίας υποψηφίων. Αυτό το μέτρο μας βοηθά να κατανοήσουμε την ομοιότητα μεταξύ των προηγούμενων θέσεων εργασίας που έχει δείξει ενδιαφέρον ένας χρήστης σε σχέση με τις επερχόμενες ευκαιρίες εργασίας. Αυτό ενισχύει την ακρίβεια της μηχανής συστάσεων εργασίας μας.
- Προφίλ ⬇️ – Τέλος, εξάγουμε πληροφορίες ενδιαφέροντος για εργασία που καθορίζονται από το χρήστη από το προφίλ χρήστη και τις συγκρίνουμε με νέους υποψήφιους θέσεις εργασίας. Αυτό μας βοηθά να καταλάβουμε εάν ένας υποψήφιος για εργασία ταιριάζει με το ενδιαφέρον ενός χρήστη.
Ένα κρίσιμο βήμα στην προετοιμασία των δεδομένων μας είναι η εφαρμογή ενός προεκπαιδευμένου μοντέλου NER. Εφαρμόζοντας ένα μοντέλο NER, μπορούμε να αναγνωρίσουμε και να επισημάνουμε επώνυμες οντότητες εντός των τίτλων θέσεων εργασίας και των ερωτημάτων αναζήτησης. Κατά συνέπεια, αυτό μας επιτρέπει να υπολογίσουμε τις βαθμολογίες ομοιότητας μεταξύ αυτών των αναγνωρισμένων οντοτήτων, παρέχοντας ένα πιο εστιασμένο και ενήμερο μέτρο της συνάφειας. Αυτή η μεθοδολογία μειώνει τον θόρυβο στα δεδομένα μας και μας δίνει μια πιο διαφοροποιημένη, ευαίσθητη στο περιβάλλον μέθοδο σύγκρισης εργασιών.
Προσαρμοσμένες ενσωματώσεις SBERT
Για να βελτιώσουμε τη συνάφεια και την ακρίβεια του συστήματος προτάσεων εργασίας που διαθέτουμε, χρησιμοποιούμε τη δύναμη του SBERT, ενός ισχυρού μοντέλου που βασίζεται σε μετασχηματιστές, γνωστό για την επάρκειά του στην καταγραφή σημασιολογικών σημασιών και πλαισίων από κείμενο. Ωστόσο, γενικές ενσωματώσεις όπως το SBERT, αν και αποτελεσματικές, ενδέχεται να μην αποτυπώνουν πλήρως τις μοναδικές αποχρώσεις και ορολογίες που είναι εγγενείς σε έναν συγκεκριμένο τομέα όπως ο δικός μας, ο οποίος επικεντρώνεται στην απασχόληση και την αναζήτηση εργασίας. Για να το ξεπεράσουμε αυτό, προσαρμόζουμε τις ενσωματώσεις SBERT χρησιμοποιώντας τα δεδομένα μας για συγκεκριμένο τομέα. Αυτή η διαδικασία βελτιστοποίησης βελτιστοποιεί το μοντέλο για την καλύτερη κατανόηση και επεξεργασία της γλώσσας, της ορολογίας και του πλαισίου του κλάδου, καθιστώντας τις ενσωματώσεις πιο αντανακλαστικές του συγκεκριμένου τομέα μας. Ως αποτέλεσμα, οι εκλεπτυσμένες ενσωματώσεις προσφέρουν βελτιωμένη απόδοση στη λήψη τόσο σημασιολογικών όσο και συμφραζόμενων πληροφοριών στη σφαίρα μας, οδηγώντας σε πιο ακριβείς και ουσιαστικές προτάσεις εργασίας για τους χρήστες μας.
Το παρακάτω σχήμα απεικονίζει το βήμα μικρορύθμισης SBERT.
Βελτιώνουμε τις ενσωματώσεις SBERT χρησιμοποιώντας TripletLoss με μια μέτρηση απόστασης συνημιτόνου που μαθαίνει την ενσωμάτωση κειμένου όπου τα κείμενα αγκύρωσης και θετικών κειμένων έχουν μεγαλύτερη ομοιότητα συνημιτόνου από τα άγκυρα και τα αρνητικά κείμενα. Χρησιμοποιούμε τα ερωτήματα αναζήτησης των χρηστών ως κείμενα αγκύρωσης. Συνδυάζουμε τίτλους εργασίας και ονόματα εργοδοτών ως εισροές στα θετικά και αρνητικά κείμενα. Τα θετικά κείμενα δειγματίζονται από αγγελίες εργασίας στις οποίες έκανε κλικ ο αντίστοιχος χρήστης, ενώ τα αρνητικά κείμενα δειγματοληπτούνται από αγγελίες εργασίας στις οποίες ο χρήστης δεν έκανε κλικ. Ακολουθεί δείγμα υλοποίησης της διαδικασίας μικρορύθμισης:
Μοντέλο εκπαίδευσης με το SageMaker Distributed Data Parallel
Χρησιμοποιούμε το SageMaker Distributed Data Parallel (SMDDP), μια δυνατότητα της πλατφόρμας SageMaker ML που είναι χτισμένη πάνω από το PyTorch DDP. Παρέχει ένα βελτιστοποιημένο περιβάλλον για την εκτέλεση εργασιών εκπαίδευσης PyTorch DDP στην πλατφόρμα SageMaker. Έχει σχεδιαστεί για να επιταχύνει σημαντικά την εκπαίδευση μοντέλων βαθιάς μάθησης. Αυτό το επιτυγχάνει χωρίζοντας ένα μεγάλο σύνολο δεδομένων σε μικρότερα κομμάτια και διανέμοντας τα σε πολλαπλές GPU. Το μοντέλο αναπαράγεται σε κάθε GPU. Κάθε GPU επεξεργάζεται τα δεδομένα που της έχουν εκχωρηθεί ανεξάρτητα και τα αποτελέσματα συγκεντρώνονται και συγχρονίζονται σε όλες τις GPU. Το DDP φροντίζει για την επικοινωνία gradient για να διατηρεί τα αντίγραφα των μοντέλων συγχρονισμένα και τα επικαλύπτει με υπολογισμούς gradient για να επιταχύνει την εκπαίδευση. Το SMDDP χρησιμοποιεί έναν βελτιστοποιημένο αλγόριθμο AllReduce για να ελαχιστοποιήσει την επικοινωνία μεταξύ των GPU, μειώνοντας τον χρόνο συγχρονισμού και βελτιώνοντας τη συνολική ταχύτητα εκπαίδευσης. Ο αλγόριθμος προσαρμόζεται σε διαφορετικές συνθήκες δικτύου, καθιστώντας τον εξαιρετικά αποδοτικό τόσο για περιβάλλοντα εσωτερικού χώρου όσο και για περιβάλλοντα που βασίζονται σε cloud. Στην αρχιτεκτονική SMDDP (όπως φαίνεται στο παρακάτω σχήμα), η κατανεμημένη εκπαίδευση κλιμακώνεται επίσης χρησιμοποιώντας ένα σύμπλεγμα πολλών κόμβων. Αυτό σημαίνει όχι μόνο πολλαπλές GPU σε μια παρουσία υπολογιστών, αλλά πολλές περιπτώσεις με πολλές GPU, γεγονός που επιταχύνει περαιτέρω την εκπαίδευση.
Για περισσότερες πληροφορίες σχετικά με αυτήν την αρχιτεκτονική, ανατρέξτε στο Εισαγωγή στην παράλληλη βιβλιοθήκη κατανεμημένων δεδομένων του SageMaker.
Με το SMDDP, μπορέσαμε να μειώσουμε σημαντικά τον χρόνο εκπαίδευσης για το μοντέλο TTDP μας, καθιστώντας το οκτώ φορές πιο γρήγορο. Οι ταχύτεροι χρόνοι εκπαίδευσης σημαίνουν ότι μπορούμε να επαναλάβουμε και να βελτιώσουμε τα μοντέλα μας πιο γρήγορα, οδηγώντας σε καλύτερες προτάσεις εργασίας για τους χρήστες μας σε μικρότερο χρονικό διάστημα. Αυτό το κέρδος αποδοτικότητας είναι καθοριστικής σημασίας για τη διατήρηση της ανταγωνιστικότητας της μηχανής συστάσεων εργασίας μας σε μια ταχέως εξελισσόμενη αγορά εργασίας.
Μπορείτε να προσαρμόσετε το σενάριο εκπαίδευσης με το SMDDP με τρεις μόνο γραμμές κώδικα, όπως φαίνεται στο παρακάτω μπλοκ κώδικα. Χρησιμοποιώντας το PyTorch ως παράδειγμα, το μόνο πράγμα που χρειάζεται να κάνετε είναι να εισαγάγετε τον πελάτη PyTorch της βιβλιοθήκης SMDDP (smdistributed.dataparallel.torch.torch_smddp
). Ο πελάτης εγγράφεται smddp
ως backend για το PyTorch.
Αφού έχετε ένα λειτουργικό σενάριο PyTorch που είναι προσαρμοσμένο να χρησιμοποιεί την παράλληλη βιβλιοθήκη κατανεμημένων δεδομένων, μπορείτε ξεκινήστε μια κατανεμημένη εργασία εκπαίδευσης χρησιμοποιώντας το SageMaker Python SDK.
Αξιολόγηση της απόδοσης του μοντέλου
Κατά την αξιολόγηση της απόδοσης ενός συστήματος συστάσεων, είναι σημαντικό να επιλέγετε μετρήσεις που ευθυγραμμίζονται στενά με τους επιχειρηματικούς στόχους και παρέχουν σαφή κατανόηση της αποτελεσματικότητας του μοντέλου. Στην περίπτωσή μας, χρησιμοποιούμε την AUC για να αξιολογήσουμε την απόδοση πρόβλεψης κλικ εργασίας του μοντέλου TTDP και το mAP@K για να αξιολογήσουμε την ποιότητα της τελικής λίστας εργασιών κατάταξης.
Η AUC αναφέρεται στην περιοχή κάτω από την καμπύλη χαρακτηριστικών λειτουργίας δέκτη (ROC). Αντιπροσωπεύει την πιθανότητα ότι ένα τυχαία επιλεγμένο θετικό παράδειγμα θα καταταχθεί υψηλότερα από ένα τυχαία επιλεγμένο αρνητικό παράδειγμα. Κυμαίνεται από 0–1, όπου το 1 υποδηλώνει έναν ιδανικό ταξινομητή και το 0.5 αντιπροσωπεύει μια τυχαία εικασία. Το mAP@K είναι μια μέτρηση που χρησιμοποιείται συνήθως για την αξιολόγηση της ποιότητας των συστημάτων ανάκτησης πληροφοριών, όπως ο μηχανισμός συστάσεων εργασίας. Μετρά τη μέση ακρίβεια ανάκτησης των κορυφαίων K σχετικών στοιχείων για ένα δεδομένο ερώτημα ή χρήστη. Κυμαίνεται από 0–1, με το 1 να δείχνει τη βέλτιστη κατάταξη και το 0 να δείχνει τη χαμηλότερη δυνατή ακρίβεια στη δεδομένη τιμή Κ. Αξιολογούμε τα AUC, mAP@1 και mAP@3. Συλλογικά, αυτές οι μετρήσεις μας επιτρέπουν να μετρήσουμε την ικανότητα του μοντέλου να διακρίνει μεταξύ θετικών και αρνητικών κλάσεων (AUC) και την επιτυχία του στην κατάταξη των πιο συναφών στοιχείων στην κορυφή (mAP@K).
Με βάση την αξιολόγησή μας εκτός σύνδεσης, το μοντέλο TTDP ξεπέρασε το βασικό μοντέλο —το υπάρχον μοντέλο παραγωγής που βασίζεται στο XGBoost— κατά 16.65% για το AUC, 20% για το mAP@1 και 11.82% για το mAP@3.
Επιπλέον, σχεδιάσαμε ένα διαδικτυακό τεστ A/B για να αξιολογήσουμε το προτεινόμενο σύστημα και εκτελέσαμε το τεστ σε ένα ποσοστό του πληθυσμού email των ΗΠΑ για 6 εβδομάδες. Συνολικά, στάλθηκαν περίπου 22 εκατομμύρια email χρησιμοποιώντας την εργασία που προτείνει το νέο σύστημα. Η προκύπτουσα αύξηση στα κλικ σε σύγκριση με το προηγούμενο μοντέλο παραγωγής ήταν 8.6%. Το Talent.com αυξάνει σταδιακά το ποσοστό για τη διάθεση του νέου συστήματος σε ολόκληρο τον πληθυσμό και τα κανάλια του.
Συμπέρασμα
Η δημιουργία ενός συστήματος συστάσεων εργασίας είναι μια πολύπλοκη προσπάθεια. Κάθε άτομο που αναζητά εργασία έχει μοναδικές ανάγκες, προτιμήσεις και επαγγελματικές εμπειρίες που δεν μπορούν να συναχθούν από ένα σύντομο ερώτημα αναζήτησης. Σε αυτήν την ανάρτηση, το Talent.com συνεργάστηκε με την AWS για να αναπτύξει μια ολοκληρωμένη λύση συστάσεων εργασίας βασισμένη σε βαθιά μάθηση που κατατάσσει λίστες θέσεων εργασίας που πρέπει να προτείνουν στους χρήστες. Η ομάδα του Talent.com απολάμβανε πραγματικά τη συνεργασία με την ομάδα AWS σε όλη τη διαδικασία επίλυσης αυτού του προβλήματος. Αυτό σηματοδοτεί ένα σημαντικό ορόσημο στο μετασχηματιστικό ταξίδι του Talent.com, καθώς η ομάδα εκμεταλλεύεται τη δύναμη της βαθιάς μάθησης για να ενδυναμώσει την επιχείρησή της.
Αυτό το έργο ρυθμίστηκε με ακρίβεια χρησιμοποιώντας το SBERT για τη δημιουργία ενσωματώσεων κειμένου. Κατά τη στιγμή της γραφής, το AWS εισήχθη Amazon Titan Embeddings ως μέρος των θεμελιωδών μοντέλων τους (FM) που προσφέρονται μέσω Θεμέλιο του Αμαζονίου, η οποία είναι μια πλήρως διαχειριζόμενη υπηρεσία που παρέχει μια επιλογή βασικών μοντέλων υψηλής απόδοσης από κορυφαίες εταιρείες τεχνητής νοημοσύνης. Ενθαρρύνουμε τους αναγνώστες να εξερευνήσουν τις τεχνικές μηχανικής εκμάθησης που παρουσιάζονται σε αυτήν την ανάρτηση ιστολογίου και να αξιοποιήσουν τις δυνατότητες που παρέχει το AWS, όπως το SMDDP, ενώ χρησιμοποιούν τα βασικά μοντέλα του AWS Bedrock για να δημιουργήσουν τις δικές τους λειτουργίες αναζήτησης.
αναφορές
Σχετικά με τους συγγραφείς
Γι Σιανγκ είναι Applied Scientist II στο Amazon Machine Learning Solutions Lab, όπου βοηθά τους πελάτες της AWS σε διαφορετικούς κλάδους να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης και του cloud.
Tong Wang είναι Ανώτερος Εφαρμοσμένος Επιστήμονας στο Amazon Machine Learning Solutions Lab, όπου βοηθά τους πελάτες του AWS σε διαφορετικούς κλάδους να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης και του cloud.
Ντμίτρι Μπεσπάλοφ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας στο Amazon Machine Learning Solutions Lab, όπου βοηθά τους πελάτες του AWS σε διαφορετικούς κλάδους να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης και του cloud.
Ανατόλι Χομένκο είναι Ανώτερος Μηχανικός Μηχανικής Εκμάθησης στο Talent.com με πάθος για την επεξεργασία φυσικής γλώσσας που ταιριάζει με καλούς ανθρώπους με καλές δουλειές.
Abdenour Bezzouh είναι στέλεχος με περισσότερα από 25 χρόνια εμπειρίας στην κατασκευή και παροχή τεχνολογικών λύσεων που εκτείνονται σε εκατομμύρια πελάτες. Ο Abdenour κατείχε τη θέση του Chief Technology Officer (CTO) στο Talent.com όταν η ομάδα AWS σχεδίασε και εκτέλεσε τη συγκεκριμένη λύση για Talent.com.
Ντέιλ Ζακ είναι Ανώτερος Στρατηγός AI στο Generative AI Innovation Center, όπου βοηθά τους πελάτες της AWS να μεταφράζουν επιχειρηματικά προβλήματα σε λύσεις AI.
Yanjun Qi είναι Senior Applied Science Manager στο Amazon Machine Learning Solution Lab. Καινοτομεί και εφαρμόζει μηχανική εκμάθηση για να βοηθήσει τους πελάτες του AWS να επιταχύνουν την υιοθέτηση της τεχνητής νοημοσύνης και του cloud.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/from-text-to-dream-job-building-an-nlp-based-job-recommender-at-talent-com-with-amazon-sagemaker/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 1
- 100
- 11
- 16
- 2011
- 22
- 25
- 30
- 31
- 32
- 7
- 75
- 8
- a
- ικανότητα
- Ικανός
- Σχετικα
- επιταχύνουν
- ακρίβεια
- ακριβής
- απέναντι
- προσαρμόσει
- προσαρμόζεται
- Επιπλέον
- Υιοθεσία
- προηγμένες
- Πλεονέκτημα
- Μετά το
- κατά
- AI
- αλγόριθμος
- ευθυγράμμιση
- Όλα
- επιτρέπουν
- Επιτρέποντας
- επιτρέπει
- Επίσης
- Αν και
- Amazon
- Εκμάθηση μηχανών του Αμαζονίου
- Amazon Sage Maker
- Amazon υπηρεσίες Web
- ποσό
- an
- Άγκυρα
- και
- Εφαρμογή
- εφαρμοσμένος
- ισχύει
- πλησιάζω
- περίπου
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- AS
- εκτιμώ
- ανατεθεί
- At
- ελκυστικός
- ωκ
- Αυτόματο
- διαθέσιμος
- μέσος
- AWS
- Backend
- βασίζονται
- Baseline
- BE
- επειδή
- ήταν
- ΚΑΛΎΤΕΡΟΣ
- Καλύτερα
- μεταξύ
- Αποκλεισμός
- Μπλοκ
- και οι δύο
- Κτίριο
- χτισμένο
- επιχείρηση
- αλλά
- by
- υπολογίσει
- υπολογισμό
- CAN
- υποψήφιος
- υποψηφίους
- δυνατότητες
- πιάνω
- συλλαμβάνονται
- Καταγραφή
- ο οποίος
- περίπτωση
- Κέντρο
- Κέντρα
- πρόκληση
- κανάλια
- χαρακτηριστικός
- αρχηγός
- Γενικός Διευθυντής Τεχνολογίας
- Επιλέξτε
- επιλέγονται
- τάξεις
- ταξινόμηση
- καθαρός
- κλικ
- πελάτης
- πελάτες
- στενά
- Backup
- υιοθέτηση νέφους
- συστάδα
- κωδικός
- συνεργάστηκαν
- συνεργάζεται
- συνεργασία
- συλλογικά
- COM
- συνδυασμός
- συνδυασμός
- σε συνδυασμό
- συνδυάζει
- συνήθως
- Επικοινωνία
- Εταιρείες
- εταίρα
- συγκρίνουν
- σύγκριση
- συγκρίνοντας
- ανταγωνιστικότητα
- πλήρης
- συγκρότημα
- εξαρτήματα
- υπολογισμοί
- Υπολογίστε
- χρήση υπολογιστή
- Συνθήκες
- Διεξαγωγή
- Connect
- συνεπώς
- κατασκευάσει
- που περιέχονται
- περιεχόμενα
- συμφραζόμενα
- πλαίσια
- συμφραζόμενα
- συνεισφέρων
- πυρήνας
- Αντίστοιχος
- χώρες
- δημιουργία
- κρίσιμος
- ΚΟΤ
- καμπύλη
- Πελάτες
- ημερομηνία
- Προετοιμασία δεδομένων
- ημερομηνία
- DDP
- Προσφορές
- αφιερωμένο
- βαθύς
- βαθιά μάθηση
- ορίζεται
- ορίζεται
- παράδοση
- παρατάσσω
- Συμπληρωματικός
- Υπηρεσίες
- σχεδιασμένα
- σχέδιο
- καθέκαστα
- ανάπτυξη
- αναπτύχθηκε
- DID
- διαφορετικές
- συζήτηση
- απόσταση
- διακριτή
- διακρίνω
- διανέμονται
- κατανεμημένη εκπαίδευση
- διανομή
- διανομή
- do
- έγγραφο
- τομέα
- όνειρο
- οδηγείται
- κατά την διάρκεια
- κάθε
- Νωρίς
- Αποτελεσματικός
- αποτελεσματικότητα
- αποδοτικότητα
- αποτελεσματικός
- στοιχεία
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- ενσωμάτωση
- εργοδότες
- εργασία
- εξουσιοδοτώ
- ενθαρρύνει
- από άκρη σε άκρη
- προσπάθεια
- αρραβώνες
- Κινητήρας
- μηχανικός
- μηχανικής
- Μηχανική
- Μηχανικοί
- ενίσχυση
- Ενισχύει
- εξασφαλίζω
- εξασφαλίζει
- οντότητες
- οντότητα
- Περιβάλλον
- περιβάλλοντα
- δημιουργία
- αξιολογήσει
- αξιολογώντας
- εκτίμηση
- Κάθε
- παράδειγμα
- εκτελέστηκε
- εκτελεστικός
- υφιστάμενα
- εμπειρία
- Δραστηριοτητες
- εμπειρογνώμονες
- διερευνήσει
- εκφραστικός
- εκχύλισμα
- γρηγορότερα
- Χαρακτηριστικό
- Χαρακτηριστικά
- λίγοι
- Εικόνα
- τελικός
- Εύρεση
- Ευελιξία
- Συγκέντρωση
- επικεντρώθηκε
- Εξής
- Για
- Δυνάμεις
- τέσσερα
- Πλαίσιο
- από
- πλήρως
- λειτουργίες
- περαιτέρω
- Κέρδος
- μετρητής
- παράγουν
- δημιουργεί
- παραγωγής
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- δεδομένου
- δίνει
- Στόχοι
- καλός
- GPU
- GPU
- σταδιακά
- Έχω
- he
- κεφάλι
- Ήρωας
- βοήθεια
- βοήθησε
- βοήθεια
- βοηθά
- Ψηλά
- υψηλή απόδοση
- υψηλότερο
- υψηλά
- ιστορικών
- ιστορία
- Πως
- Πώς να
- Ωστόσο
- HTML
- http
- HTTPS
- Βελτιστοποίηση υπερπαραμέτρων
- ιδανικό
- προσδιορίζονται
- προσδιορίσει
- if
- ii
- απεικονίζει
- εκτέλεση
- εκτελεστικών
- εισαγωγή
- σημαντικό
- βελτίωση
- βελτιωθεί
- βελτιώσεις
- βελτίωση
- in
- περιλαμβάνει
- Συμπεριλαμβανομένου
- Αυξάνουν
- αύξηση
- ανεξάρτητος
- ανεξάρτητα
- υποδηλώνει
- ατομικές
- βιομηχανίες
- ειδικά για τη βιομηχανία
- πληροφορίες
- συμφυής
- Καινοτομία
- εισαγωγή
- είσοδοι
- παράδειγμα
- ενόργανος
- πρόθεση
- αλληλεπίδραση
- αλληλεπιδράσεις
- τόκος
- ενδιαφερόμενος
- συμφέροντα
- σε
- εισήγαγε
- IT
- αντικειμένων
- ΤΟΥ
- ορολογία
- Δουλειά
- κατάλογο εργασίας
- τίτλοι εργασίας
- Θέσεις εργασίας
- εντάχθηκαν
- άρθρωση
- ταξίδι
- μόλις
- Διατήρηση
- Κλειδί
- λέξεις-κλειδιά
- γνωστός
- εργαστήριο
- επιγραφή
- Γλώσσα
- Γλώσσες
- large
- μεγαλύτερη
- εν τέλει
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- Επίπεδο
- Μόχλευση
- Βιβλιοθήκη
- Μου αρέσει
- Περιωρισμένος
- γραμμές
- Λιστα
- Εισηγμένες
- λίστα
- Ακίνητα
- Λίστες
- φορτίο
- τοποθεσία
- απώλειες
- Χαμηλός
- χαμηλότερο
- μηχανή
- μάθηση μηχανής
- Κυρίως
- Η διατήρηση
- κάνω
- Κατασκευή
- διαχειρίζεται
- διευθυντής
- πολοί
- χαρτης
- αγορά
- Ταίριασμα
- σπίρτα
- ταιριάζουν
- μαθηματικά
- ύλη
- Ενδέχεται..
- εννοώ
- νόημα
- σημασίες
- μέσα
- μέτρο
- μέτρα
- μέθοδος
- μεθοδολογίες
- Μεθοδολογία
- μετρικός
- Metrics
- ενδέχεται να
- ορόσημο
- εκατομμύριο
- εκατομμύρια
- Αποστολή
- ML
- μοντέλο
- μοντελοποίηση
- μοντέλα
- περισσότερο
- πλέον
- πολλαπλούς
- όνομα
- Ονομάστηκε
- ονόματα
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Ανάγκη
- ανάγκες
- αρνητικός
- αρνητικά
- δίκτυο
- δίκτυα
- νευρικός
- νευρωνικά δίκτυα
- Νέα
- επόμενη
- nlp
- κόμβων
- Θόρυβος
- αποχρώσεις
- λαμβάνεται
- επάγγελμα
- of
- προσφορά
- προσφέρονται
- Αξιωματικός
- offline
- on
- ONE
- διαδικτυακά (online)
- αποκλειστικά
- άνοιγμα
- λειτουργίας
- Ευκαιρίες
- βέλτιστη
- βελτιστοποίηση
- βελτιστοποιημένη
- Βελτιστοποιεί
- or
- τάξη
- δικός μας
- φέρουν
- έξω
- υπερέβησαν
- παραγωγή
- εξόδους
- επί
- φόρμες
- Ξεπεράστε
- επισκόπηση
- δική
- καταβλήθηκε
- ζεύγος
- Παράλληλο
- παράμετροι
- κυρίαρχος
- μέρος
- Ειδικότερα
- πέρασε
- πάθος
- Το παρελθόν
- πρότυπο
- People
- ποσοστό
- Εκτελέστε
- επίδοση
- Εξατομικευμένη
- κομμάτι
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- παίζει
- δημοτικότητα
- πληθυσμός
- θέση
- θετικός
- δυνατός
- Θέση
- δυναμικού
- δύναμη
- ισχυρός
- Ακρίβεια
- προβλέψει
- προβλεπόμενη
- πρόβλεψη
- προτιμήσεις
- προετοιμασία
- παρόν
- παρουσιάζονται
- προηγούμενος
- Ακμή
- Πρόβλημα
- προβλήματα
- διαδικασία
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- Παράγεται
- παραγωγή
- επαγγελματίας
- Προφίλ ⬇️
- σχέδιο
- προτείνεται
- παρέχουν
- παρέχεται
- παρέχει
- χορήγηση
- δημόσιο
- Python
- pytorch
- Qi
- ποιότητα
- ερωτήματα
- γρήγορα
- τυχαίος
- κατάταξη
- Κατάταξη
- τάξεις
- Τιμή
- Ακατέργαστος
- αναγνώστες
- αναγνώριση
- συνιστώ
- Σύσταση
- συστάσεις
- συνιστάται
- μείωση
- μειώνει
- μείωση
- παραπέμπω
- αναφέρεται
- εξευγενισμένα
- μητρώα
- σχέση
- Σχέσεις
- συνάφεια
- αξιοπιστία
- επαναλαμβάνεται
- αντιπροσωπεύει
- αποτέλεσμα
- με αποτέλεσμα
- Αποτελέσματα
- Ρόλος
- ρόλους
- Ρολό
- τρέξιμο
- σοφός
- Αυτόματος συντονισμός μοντέλων SageMaker
- ίδιο
- Κλίμακα
- προγραμματισμός
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- γραφή
- Αναζήτηση
- αναζητήσεις
- Τμήμα
- τμήματα
- επιλογή
- αρχαιότερος
- αποστέλλονται
- εξυπηρετεί
- υπηρεσία
- Υπηρεσίες
- σειρά
- Σέτς
- setup
- αυτή
- Κοντά
- δείχνουν
- παρουσιάζεται
- Δείχνει
- σημαντικός
- σημαντικά
- ενιαίας
- μικρότερος
- λύση
- Λύσεις
- Επίλυση
- Πηγές
- Χώρος
- συγκεκριμένες
- ειδικά
- ειδικότητες
- ταχύτητα
- ταχύτητες
- πρότυπο
- state-of-the-art
- Βήμα
- στάθμευση
- αποθηκεύονται
- Στρατηγός
- δυνατά
- Σπάγγος
- θέμα
- ουσιαστικά
- επιτυχία
- τέτοιος
- συγχρονισμός
- σύστημα
- συστήματα
- Πάρτε
- παίρνει
- Ταλέντο
- Έργο
- τεχνικές
- Τεχνολογία
- δοκιμή
- Δοκιμές
- κείμενο
- κείμενο
- από
- ότι
- Η
- Η περιοχή
- οι πληροφορίες
- τους
- Τους
- τότε
- Αυτοί
- αυτοί
- πράγμα
- αυτό
- τρία
- Μέσω
- παντού
- ώρα
- φορές
- Τιτάν
- Τίτλος
- τίτλους
- προς την
- μαζι
- κορυφή
- δάδα
- Σύνολο
- Πύργος
- Τρένο
- Εκπαίδευση
- μεταμορφωτικός
- μεταφράζω
- Τριπλούς
- όντως
- δύο
- τύποι
- υπό
- καταλαβαίνω
- κατανόηση
- καταλαβαίνει
- μοναδικός
- απαράμιλλος
- ανερχόμενος
- Ανύψωση
- us
- χρήση
- μεταχειρισμένος
- Χρήστες
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- συνήθως
- χρησιμοποιώ
- χρησιμοποιεί
- Πολύτιμος
- αξία
- μέσω
- vs
- ήταν
- we
- ιστός
- διαδικτυακές υπηρεσίες
- Εβδ.
- ήταν
- πότε
- ενώ
- Ποιό
- ενώ
- θα
- με
- εντός
- εργαζόμενος
- του κόσμου
- γραφή
- χρόνια
- Εσείς
- Σας
- zephyrnet