Σύνδεση Amazon Redshift και RStudio στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Πέρυσι, ανακοινώσαμε τη γενική διαθεσιμότητα του RStudio στο Amazon SageMaker, το πρώτο πλήρως διαχειριζόμενο περιβάλλον ανάπτυξης RStudio Workbench (IDE) του κλάδου στο cloud. Μπορείτε να εκκινήσετε γρήγορα το γνωστό RStudio IDE και να καλέσετε πάνω-κάτω τους υποκείμενους υπολογιστικούς πόρους χωρίς να διακόψετε την εργασία σας, καθιστώντας εύκολη τη δημιουργία λύσεων μηχανικής εκμάθησης (ML) και αναλυτικών στοιχείων σε R σε κλίμακα.

Πολλοί από τους χρήστες του RStudio στο SageMaker είναι επίσης χρήστες Amazon RedShift, μια πλήρως διαχειριζόμενη, κλίμακας petabyte, μαζικά παράλληλη αποθήκη δεδομένων για αποθήκευση δεδομένων και αναλυτικό φόρτο εργασίας. Καθιστά γρήγορη, απλή και οικονομικά αποδοτική την ανάλυση όλων των δεδομένων σας χρησιμοποιώντας την τυπική SQL και τα υπάρχοντα εργαλεία επιχειρηματικής ευφυΐας (BI). Οι χρήστες μπορούν επίσης να αλληλεπιδράσουν με δεδομένα με ODBC, JDBC ή το Amazon Redshift Data API.

Η χρήση του RStudio στο SageMaker και στο Amazon Redshift μπορεί να είναι χρήσιμη για την αποτελεσματική εκτέλεση ανάλυσης σε μεγάλα σύνολα δεδομένων στο cloud. Ωστόσο, η εργασία με δεδομένα στο cloud μπορεί να παρουσιάσει προκλήσεις, όπως η ανάγκη κατάργησης των σιλό δεδομένων του οργανισμού, η διατήρηση της ασφάλειας και της συμμόρφωσης και η μείωση της πολυπλοκότητας με την τυποποίηση των εργαλείων. Το AWS προσφέρει εργαλεία όπως το RStudio στο SageMaker και το Amazon Redshift για να βοηθήσουν στην αντιμετώπιση αυτών των προκλήσεων.

Σε αυτήν την ανάρτηση ιστολογίου, θα σας δείξουμε πώς να χρησιμοποιείτε και τις δύο αυτές υπηρεσίες μαζί για να εκτελείτε αποτελεσματικά ανάλυση σε τεράστια σύνολα δεδομένων στο cloud, ενώ αντιμετωπίζετε τις προκλήσεις που αναφέρονται παραπάνω. Αυτό το ιστολόγιο εστιάζει στο Rstudio στη γλώσσα Amazon SageMaker, με επιχειρηματικούς αναλυτές, μηχανικούς δεδομένων, επιστήμονες δεδομένων και όλους τους προγραμματιστές που χρησιμοποιούν τη γλώσσα R και το Amazon Redshift, ως κοινό-στόχο.

Εάν θέλετε να χρησιμοποιήσετε την παραδοσιακή εμπειρία του SageMaker Studio με το Amazon Redshift, ανατρέξτε στο Χρήση του Amazon Redshift Data API για αλληλεπίδραση από έναν φορητό υπολογιστή Amazon SageMaker Jupyter.

Επισκόπηση λύσεων

Στο ιστολόγιο σήμερα, θα εκτελέσουμε τα ακόλουθα βήματα:

Κλωνοποίηση του αποθετηρίου δειγμάτων με τα απαιτούμενα πακέτα.
Σύνδεση στο Amazon Redshift με ασφαλή σύνδεση ODBC (Το ODBC είναι το προτιμώμενο πρωτόκολλο για το RStudio).
Εκτέλεση ερωτημάτων και ενέργειες SageMaker API σε δεδομένα εντός του Amazon Redshift Serverless μέσω του RStudio στο SageMaker

Αυτή η διαδικασία απεικονίζεται στην ακόλουθη αρχιτεκτονική λύσεων:

Αναλυτική λύση

Προϋποθέσεις

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε όλες τις απαιτήσεις για τη ρύθμιση του RStudio στο Amazon SageMaker και στο Amazon Redshift Serverless, όπως:

Θα χρησιμοποιήσουμε μια στοίβα CloudFormation για να δημιουργήσουμε την απαιτούμενη υποδομή.

Σημείωση: Εάν έχετε ήδη έναν τομέα RStudio και σύμπλεγμα Amazon Redshift, μπορείτε να παραλείψετε αυτό το βήμα

Η εκκίνηση αυτής της στοίβας δημιουργεί τους ακόλουθους πόρους:

3 Ιδιωτικά υποδίκτυα
1 Δημόσιο υποδίκτυο
1 πύλη NAT
Πύλη Διαδικτύου
Σύμπλεγμα χωρίς διακομιστή Amazon Redshift
Τομέας SageMaker με RStudio
Προφίλ χρήστη SageMaker RStudio
Ρόλος υπηρεσίας IAM για την εκτέλεση τομέα SageMaker RStudio
Ρόλος υπηρεσίας IAM για την εκτέλεση προφίλ χρήστη SageMaker RStudio

Αυτό το πρότυπο έχει σχεδιαστεί για να λειτουργεί σε μια Περιοχή (π.χ. us-east-1, us-west-2) με τρεις Ζώνες Διαθεσιμότητας, το RStudio στο SageMaker και το Amazon Redshift Serverless. Βεβαιωθείτε ότι η περιοχή σας έχει πρόσβαση σε αυτούς τους πόρους ή τροποποιήστε τα πρότυπα ανάλογα.

Πατήστε το κουμπί Εκκίνηση στοίβας κουμπί για να δημιουργήσετε τη στοίβα.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις Δημιουργία στοίβας σελίδα, επιλέξτε Επόμενο.
Στις Καθορίστε λεπτομέρειες στοίβας σελίδα, δώστε ένα όνομα για τη στοίβα σας και αφήστε τις υπόλοιπες επιλογές ως προεπιλογές και, στη συνέχεια, επιλέξτε Επόμενο.
Στις Διαμόρφωση επιλογών στοίβας σελίδα, αφήστε τις επιλογές ως προεπιλογές και πατήστε Επόμενο.
Στις Σελίδα αναθεώρησης, Επιλέξτε το

Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM με προσαρμοσμένα ονόματα
Αναγνωρίζω ότι το AWS CloudFormation ενδέχεται να απαιτεί την ακόλουθη δυνατότητα: CAPABILITY_AUTO_EXPANDκαι επιλέξτε Υποβολη.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το πρότυπο θα δημιουργήσει πέντε στοίβες.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μόλις είναι η κατάσταση στοίβας ΔΗΜΙΟΥΡΓΙΑ_COMPLETE, μεταβείτε στην κονσόλα Amazon Redshift Serverless. Αυτή είναι μια νέα δυνατότητα που καθιστά εξαιρετικά εύκολη την εκτέλεση αναλυτικών στοιχείων στο cloud με υψηλή απόδοση σε οποιαδήποτε κλίμακα. Απλώς φορτώστε τα δεδομένα σας και ξεκινήστε την αναζήτηση. Δεν υπάρχει ανάγκη δημιουργίας και διαχείρισης συμπλεγμάτων.

Note: Το μοτίβο που παρουσιάζεται σε αυτό το ιστολόγιο ενσωματώνοντας το Amazon Redshift και το RStudio στο Amazon SageMaker θα είναι το ίδιο ανεξάρτητα από το μοτίβο ανάπτυξης του Amazon Redshift (χωρίς διακομιστή ή παραδοσιακό σύμπλεγμα).

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Φόρτωση δεδομένων στο Amazon Redshift Serverless

Το σενάριο CloudFormation δημιούργησε μια βάση δεδομένων που ονομάζεται sagemaker. Ας συμπληρώσουμε αυτήν τη βάση δεδομένων με πίνακες για τον χρήστη του RStudio να κάνει ερώτημα. Δημιουργήστε μια καρτέλα επεξεργασίας SQL και βεβαιωθείτε ότι sagemaker επιλέγεται η βάση δεδομένων. Θα χρησιμοποιήσουμε το συνθετικά δεδομένα συναλλαγών με πιστωτική κάρτα για τη δημιουργία πινάκων στη βάση δεδομένων μας. Αυτά τα δεδομένα αποτελούν μέρος των δειγμάτων πίνακα δεδομένων του SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Θα εκτελέσουμε το ακόλουθο ερώτημα στον επεξεργαστή ερωτημάτων. Αυτό θα δημιουργήσει τρεις πίνακες, κάρτες, συναλλαγές, και Χρήστες.

CREATE SCHEMA IF NOT EXISTS synthetic;
DROP TABLE IF EXISTS synthetic.transactions;

CREATE TABLE synthetic.transactions(
    user_id INT,
    card_id INT,
    year INT,
    month INT,
    day INT,
    time_stamp TIME,
    amount VARCHAR(100),
    use_chip VARCHAR(100),
    merchant_name VARCHAR(100),
    merchant_city VARCHAR(100),
    merchant_state VARCHAR(100),
    merchant_zip_code VARCHAR(100),
    merchant_category_code INT,
    is_error VARCHAR(100),
    is_fraud VARCHAR(100)
);

COPY synthetic.transactions
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/credit_card_transactions-ibm_v2.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

DROP TABLE IF EXISTS synthetic.cards;

CREATE TABLE synthetic.cards(
    user_id INT,
    card_id INT,
    card_brand VARCHAR(100),
    card_type VARCHAR(100),
    card_number VARCHAR(100),
    expire_date VARCHAR(100),
    cvv INT,
    has_chip VARCHAR(100),
    number_cards_issued INT,
    credit_limit VARCHAR(100),
    account_open_date VARCHAR(100),
    year_pin_last_changed VARCHAR(100),
    is_card_on_dark_web VARCHAR(100)
);

COPY synthetic.cards
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/sd254_cards.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

DROP TABLE IF EXISTS synthetic.users;

CREATE TABLE synthetic.users(
    name VARCHAR(100),
    current_age INT,
    retirement_age INT,
    birth_year INT,
    birth_month INT,
    gender VARCHAR(100),
    address VARCHAR(100),
    apartment VARCHAR(100),
    city VARCHAR(100),
    state VARCHAR(100),
    zip_code INT,
    lattitude VARCHAR(100),
    longitude VARCHAR(100),
    per_capita_income_zip_code VARCHAR(100),
    yearly_income VARCHAR(100),
    total_debt VARCHAR(100),
    fico_score INT,
    number_credit_cards INT
);

COPY synthetic.users
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/sd254_users.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

Μπορείτε να επιβεβαιώσετε ότι το ερώτημα εκτελέστηκε με επιτυχία βλέποντας τρεις πίνακες στο αριστερό παράθυρο του προγράμματος επεξεργασίας ερωτημάτων.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μόλις συμπληρωθούν όλοι οι πίνακες, μεταβείτε στο SageMaker RStudio και ξεκινήστε μια νέα περίοδο λειτουργίας με εικόνα βάσης RSession σε μια παρουσία ml.m5.xlarge.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μόλις ξεκινήσει η συνεδρία, θα τρέξουμε αυτόν τον κώδικα για να δημιουργήσουμε μια σύνδεση με τη βάση δεδομένων Amazon Redshift Serverless.

library(DBI)
library(reticulate)
boto3 <- import('boto3')
client <- boto3$client('redshift-serverless')
workgroup <- unlist(client$list_workgroups())
namespace <- unlist(client$get_namespace(namespaceName=workgroup$workgroups.namespaceName))
creds <- client$get_credentials(dbName=namespace$namespace.dbName,
                                durationSeconds=3600L,
                                workgroupName=workgroup$workgroups.workgroupName)
con <- dbConnect(odbc::odbc(),
                 Driver='redshift',
                 Server=workgroup$workgroups.endpoint.address,
                 Port='5439',
                 Database=namespace$namespace.dbName,
                 UID=creds$dbUser,
                 PWD=creds$dbPassword)

Για να δείτε τους πίνακες στο συνθετικό σχήμα, θα χρειαστεί να παραχωρήσετε πρόσβαση στο Amazon Redshift μέσω του επεξεργαστή ερωτημάτων.

GRANT ALL ON SCHEMA synthetic to "IAMR:SageMakerUserExecutionRole";
GRANT ALL ON ALL TABLES IN SCHEMA synthetic to "IAMR:SageMakerUserExecutionRole";

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το RStudio Διασυνδέσεις το παράθυρο πρέπει να δείχνει το sagemaker βάση δεδομένων με συνθετικά σχήματα και πίνακες κάρτες, συναλλαγές, χρήστες.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να κάνετε κλικ στο εικονίδιο του πίνακα δίπλα στους πίνακες για να προβάλετε 1,000 εγγραφές.

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Σημείωση: Έχουμε δημιουργήσει ένα προκατασκευασμένο αρχείο R Markdown με όλα τα μπλοκ κωδικών προκατασκευασμένα που μπορούν να βρεθούν στο έργο GitHub repo.

Τώρα ας χρησιμοποιήσουμε το DBI λειτουργία πακέτου dbListTables() για να δείτε τους υπάρχοντες πίνακες.

dbListTables(con)

Χρησιμοποιήστε το dbGetQuery() για να περάσετε ένα ερώτημα SQL στη βάση δεδομένων.

dbGetQuery(con, "select * from synthetic.users limit 100")
dbGetQuery(con, "select * from synthetic.cards limit 100")
dbGetQuery(con, "select * from synthetic.transactions limit 100")

Μπορούμε επίσης να χρησιμοποιήσουμε το dbplyr και dplyr πακέτα για την εκτέλεση ερωτημάτων στη βάση δεδομένων. Ας count() πόσες συναλλαγές υπάρχουν στον πίνακα συναλλαγών. Αλλά πρώτα, πρέπει να εγκαταστήσουμε αυτά τα πακέτα.

install.packages(c("dplyr", "dbplyr", "crayon"))

Χρησιμοποιήστε το tbl() λειτουργία κατά τον καθορισμό του σχήματος.

library(dplyr)
library(dbplyr)

users_tbl <- tbl(con, in_schema("synthetic", "users"))
cards_tbl <- tbl(con, in_schema("synthetic", "cards"))
transactions_tbl <- tbl(con, in_schema("synthetic", "transactions"))

Ας εκτελέσουμε μια καταμέτρηση του αριθμού των σειρών για κάθε πίνακα.

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

Έτσι έχουμε 2,000 χρήστες. 6,146 κάρτες; και 24,386,900 συναλλαγές. Μπορούμε επίσης να δούμε τους πίνακες στην κονσόλα.

transactions_tbl

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορούμε επίσης να δούμε τι dplyr ρήματα κάνουν κάτω από την κουκούλα.

show_query(transactions_tbl)

Ας εξερευνήσουμε οπτικά τον αριθμό των συναλλαγών ανά έτος.

transactions_by_year %
  count(year) %>%
  arrange(year) %>%
  collect()

transactions_by_year
install.packages(c('ggplot2', 'vctrs'))
library(ggplot2)
ggplot(transactions_by_year) +
  geom_col(aes(year, as.integer(n))) +
  ylab('transactions')

Σύνδεση του Amazon Redshift και του RStudio στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορούμε επίσης να συνοψίσουμε τα δεδομένα στη βάση δεδομένων ως εξής:

transactions_tbl %>%
  group_by(is_fraud) %>%
  count()
transactions_tbl %>%
  group_by(merchant_category_code, is_fraud) %>%
  count() %>% 
  arrange(merchant_category_code)

Ας υποθέσουμε ότι θέλουμε να δούμε απάτη χρησιμοποιώντας στοιχεία κάρτας. Απλώς πρέπει να ενώσουμε τους πίνακες και μετά να τους ομαδοποιήσουμε με βάση το χαρακτηριστικό.

cards_tbl %>%
  left_join(transactions_tbl, by = c("user_id", "card_id")) %>%
  group_by(card_brand, card_type, is_fraud) %>%
  count() %>% 
  arrange(card_brand)

Τώρα ας ετοιμάσουμε ένα σύνολο δεδομένων που θα μπορούσε να χρησιμοποιηθεί για μηχανική εκμάθηση. Ας φιλτράρουμε τα δεδομένα συναλλαγών για να συμπεριλάβουμε απλώς τις πιστωτικές κάρτες Discover, διατηρώντας παράλληλα μόνο ένα υποσύνολο στηλών.

discover_tbl %
  filter(card_brand == 'Discover', card_type == 'Credit') %>%
  left_join(transactions_tbl, by = c("user_id", "card_id")) %>%
  select(user_id, is_fraud, merchant_category_code, use_chip, year, month, day, time_stamp, amount)

Και τώρα ας κάνουμε λίγο καθαρισμό χρησιμοποιώντας τους ακόλουθους μετασχηματισμούς:

Μετατρέπω is_fraud σε δυαδικό χαρακτηριστικό
Κατάργηση συμβολοσειράς συναλλαγής από use_chip και μετονομάστε το για να πληκτρολογήσετε
Συνδυάστε έτος, μήνα και ημέρα σε ένα αντικείμενο δεδομένων
Αφαιρέστε $ από το ποσό και μετατρέψτε σε έναν τύπο αριθμητικών δεδομένων

discover_tbl %
  mutate(is_fraud = ifelse(is_fraud == 'Yes', 1, 0),
         type = str_remove(use_chip, 'Transaction'),
         type = str_trim(type),
         type = tolower(type),
         date = paste(year, month, day, sep = '-'),
         date = as.Date(date),
         amount = str_remove(amount, '[$]'),
         amount = as.numeric(amount)) %>%
  select(-use_chip, -year, -month, -day)

Τώρα που φιλτράραμε και καθαρίσαμε το σύνολο δεδομένων μας, είμαστε έτοιμοι να συλλέξουμε αυτό το σύνολο δεδομένων στην τοπική μνήμη RAM.

discover <- collect(discover_tbl)
summary(discover)

Τώρα έχουμε ένα λειτουργικό σύνολο δεδομένων για να αρχίσουμε να δημιουργούμε χαρακτηριστικά και να προσαρμόζουμε μοντέλα. Δεν θα καλύψουμε αυτά τα βήματα σε αυτό το ιστολόγιο, αλλά αν θέλετε να μάθετε περισσότερα σχετικά με την κατασκευή μοντέλων στο RStudio στο SageMaker, ανατρέξτε στο Ανακοινώνουμε το πλήρως διαχειριζόμενο RStudio στο Amazon SageMaker για Επιστήμονες Δεδομένων.

Εκκαθάριση

Για να καθαρίσετε τυχόν πόρους για να αποφύγετε επαναλαμβανόμενα κόστη, διαγράψτε το ριζικό πρότυπο CloudFormation. Διαγράψτε επίσης όλες τις βάσεις EFS που δημιουργήθηκαν και τυχόν κάδους και αντικείμενα S3 που δημιουργήθηκαν.

Συμπέρασμα

Η ανάλυση και η μοντελοποίηση δεδομένων μπορεί να είναι προκλητική όταν εργάζεστε με μεγάλα σύνολα δεδομένων στο cloud. Το Amazon Redshift είναι μια δημοφιλής αποθήκη δεδομένων που μπορεί να βοηθήσει τους χρήστες να εκτελέσουν αυτές τις εργασίες. Το RStudio, ένα από τα πιο ευρέως χρησιμοποιούμενα ολοκληρωμένα περιβάλλοντα ανάπτυξης (IDE) για ανάλυση δεδομένων, χρησιμοποιείται συχνά με τη γλώσσα R. Σε αυτήν την ανάρτηση ιστολογίου, δείξαμε πώς να χρησιμοποιείτε μαζί το Amazon Redshift και το RStudio στο SageMaker για την αποτελεσματική εκτέλεση ανάλυσης σε τεράστια σύνολα δεδομένων. Χρησιμοποιώντας το RStudio στο SageMaker, οι χρήστες μπορούν να επωφεληθούν από την πλήρως διαχειριζόμενη υποδομή, τον έλεγχο πρόσβασης, τη δικτύωση και τις δυνατότητες ασφάλειας του SageMaker, ενώ παράλληλα απλοποιούν την ενσωμάτωση με το Amazon Redshift. Εάν θέλετε να μάθετε περισσότερα σχετικά με τη χρήση αυτών των δύο εργαλείων μαζί, ανατρέξτε στις άλλες αναρτήσεις και πόρους του ιστολογίου μας. Μπορείτε επίσης να δοκιμάσετε να χρησιμοποιήσετε το RStudio στο SageMaker και στο Amazon Redshift για τον εαυτό σας και να δείτε πώς μπορούν να σας βοηθήσουν με τις εργασίες ανάλυσης δεδομένων και μοντελοποίησης.

Προσθέστε τα σχόλιά σας σε αυτό το ιστολόγιο ή δημιουργήστε ένα αίτημα έλξης στο GitHub.

Σχετικά με τους Συγγραφείς

Ράιαν Γκάρνερ είναι Επιστήμονας Δεδομένων με AWS Professional Services. Είναι παθιασμένος να βοηθά τους πελάτες του AWS να χρησιμοποιούν το R για να λύσουν τα προβλήματα Επιστήμης Δεδομένων και Μηχανικής Μάθησης.

Raj Pathak είναι Senior Solutions Architect και Τεχνολόγος με ειδίκευση στις Χρηματοοικονομικές Υπηρεσίες (Ασφάλειες, Τραπεζικές, Κεφαλαιαγορές) και Machine Learning. Ειδικεύεται στην Επεξεργασία Φυσικής Γλώσσας (NLP), στα Μεγάλα Μοντέλα Γλωσσών (LLM) και σε έργα υποδομής και λειτουργιών Μηχανικής Μάθησης (MLOps).

Aditi Rajnish είναι δευτεροετής φοιτητής μηχανικής λογισμικού στο Πανεπιστήμιο του Waterloo. Τα ενδιαφέροντά της περιλαμβάνουν την όραση υπολογιστών, την επεξεργασία φυσικής γλώσσας και τον υπολογισμό αιχμής. Είναι επίσης παθιασμένη με την προσέγγιση και την υπεράσπιση του STEM που βασίζεται στην κοινότητα. Στον ελεύθερο χρόνο της, μπορεί να βρεθεί να σκαρφαλώνει, να παίζει πιάνο ή να μαθαίνει πώς να ψήνει το τέλειο scone.

Saiteja Pudi είναι αρχιτέκτονας λύσεων στην AWS, με έδρα το Ντάλας, Τέξας. Βρίσκεται στην AWS για περισσότερα από 3 χρόνια τώρα, βοηθώντας τους πελάτες να αντλήσουν τις πραγματικές δυνατότητες του AWS όντας ο έμπιστος σύμβουλός τους. Προέρχεται από ένα υπόβαθρο ανάπτυξης εφαρμογών, που ενδιαφέρεται για την Επιστήμη των Δεδομένων και τη Μηχανική Μάθηση.