Modernin tietoarkkitehtuurin käyttöönotto tarjoaa skaalautuvan menetelmän eri lähteistä peräisin olevan tiedon integroimiseen. Järjestämällä tiedot liiketoiminta-alueiden mukaan infrastruktuurin sijaan kukin toimialue voi valita tarpeisiinsa sopivat työkalut. Organisaatiot voivat maksimoida nykyaikaisen tietoarkkitehtuurinsa arvon generatiivisilla tekoälyratkaisuilla ja innovoida jatkuvasti.
Luonnollisen kielen ominaisuudet antavat ei-teknisille käyttäjille mahdollisuuden tiedustella tietoja englannin kielen monimutkaisen SQL:n sijaan. Täyden hyödyn ymmärtäminen edellyttää kuitenkin joidenkin haasteiden voittamista. Tekoäly- ja kielimallien on tunnistettava sopivat tietolähteet, luotava tehokkaita SQL-kyselyjä ja tuotettava yhtenäisiä vastauksia upotetuilla tuloksilla mittakaavassa. He tarvitsevat myös käyttöliittymän luonnollisen kielen kysymyksiin.
Kaiken kaikkiaan nykyaikaisen tietoarkkitehtuurin ja generatiivisten tekoälytekniikoiden käyttöönotto AWS:n avulla on lupaava tapa kerätä ja levittää keskeisiä oivalluksia monipuolisesta ja laajasta datasta yritystasolla. AWS:n uusin tarjous generatiiviselle tekoälylle on Amazonin kallioperä, joka on täysin hallittu palvelu ja helpoin tapa rakentaa ja skaalata generatiivisia tekoälysovelluksia perusmalleilla. AWS tarjoaa myös pohjamallien kautta Amazon SageMaker JumpStart as Amazon Sage Maker päätepisteitä. Suurten kielimallien (LLM) yhdistelmä, mukaan lukien Amazon Bedrockin tarjoama integroinnin helppous, ja skaalautuva, toimialuelähtöinen tietoinfrastruktuuri tekevät tästä älykkään menetelmän hyödyntää erilaisten analytiikkatietokantojen ja datajärvien runsasta tietoa.
Postauksessa esittelemme skenaarion, jossa yritys on ottanut käyttöön nykyaikaisen tietoarkkitehtuurin, jonka tiedot sijaitsevat useissa tietokannoissa ja API-liittymissä, kuten lailliset tiedot Amazonin yksinkertainen tallennuspalvelu (Amazon S3), henkilöresurssit päällä Amazon Relational Database -palvelu (Amazon RDS), myynti ja markkinointi päällä Amazonin punainen siirto, rahoitusmarkkinoiden tiedot kolmannen osapuolen tietovarastoratkaisusta Lumihiutaleja tuotetiedot API:na. Tämän toteutuksen tavoitteena on parantaa yrityksen liiketoimintaanalytiikan, tuoteomistajien ja liiketoiminta-alueen asiantuntijoiden tuottavuutta. Kaikki tämä saavutetaan käyttämällä generatiivista tekoälyä tässä verkkoalueen mesh-arkkitehtuurissa, jonka avulla yritys voi saavuttaa liiketoimintatavoitteensa tehokkaammin. Tässä ratkaisussa on mahdollisuus sisällyttää JumpStartin LLM:itä SageMaker-päätepisteeksi sekä kolmannen osapuolen malleja. Tarjoamme yrityskäyttäjille välineen esittää faktoihin perustuvia kysymyksiä ilman, että heillä on taustalla olevaa tietoa tietokanavista, mikä tekee abstraktista monimutkaisen kirjoittamisen yksinkertaisista monimutkaisiin SQL-kyselyihin.
Ratkaisun yleiskatsaus
AWS:n moderni tietoarkkitehtuuri käyttää tekoälyä ja luonnollisen kielen käsittelyä useiden analytiikkatietokantojen kyselyihin. Käyttämällä palveluita, kuten Amazon Redshift, Amazon RDS, Snowflake, Amazon Athenaja AWS-liima, se luo skaalautuvan ratkaisun datan integroimiseen eri lähteistä. Käyttämällä LangChain, tehokas kirjasto LLM-työskentelyyn, mukaan lukien Amazon Bedrockin ja JumpStartin perusmallit Amazon SageMaker Studio muistikirjat, rakennetaan järjestelmä, jossa käyttäjät voivat esittää liiketoimintakysymyksiä luonnollisella englannin kielellä ja saada vastauksia asiaankuuluvista tietokannoista kerätyillä tiedoilla.
Seuraava kaavio kuvaa arkkitehtuuria.
Hybridiarkkitehtuuri käyttää useita tietokantoja ja LLM:itä sekä Amazon Bedrockin ja JumpStartin perusmalleja tietolähteiden tunnistamiseen, SQL:n luomiseen ja tekstin luomiseen tuloksilla.
Seuraava kaavio havainnollistaa ratkaisumme tietyt työnkulun vaiheet.
Vaiheet ovat seuraavat:
- Yrityskäyttäjä tarjoaa englanninkielisen kysymyskehotteen.
- AWS Glue -indeksointirobotin on määrä suorittaa säännöllisin väliajoin metatietojen poimimiseksi tietokannoista ja taulukkomääritelmien luomiseksi AWS-liimatietoluettelo. Tietokatalogi syötetään ketjusekvenssiin 1 (katso edellinen kaavio).
- Studio-muistikirjoissa käytetään LangChain-työkalua, jolla työskennellään LLM:iden ja kehotteiden kanssa. LangChain vaatii LLM:n määrittelyn. Osana Ketjusekvenssiä 1 kehote ja Data Catalogin metatiedot välitetään LLM:lle, jota isännöidään SageMaker-päätepisteessä, jotta voidaan tunnistaa asiaankuuluva tietokanta ja taulukko LangChainin avulla.
- Kehotettu ja tunnistettu tietokanta ja taulukko välitetään ketjusekvenssille 2.
- LangChain muodostaa yhteyden tietokantaan ja suorittaa SQL-kyselyn saadakseen tulokset.
- Tulokset välitetään LLM:lle englanninkielisen vastauksen luomiseksi tiedoilla.
- Käyttäjä saa englanninkielisen vastauksen kehotteeseensa, jossa hän kyselee tietoja eri tietokannoista.
Näissä seuraavissa osissa selitetään joitakin keskeisiä vaiheita niihin liittyvän koodin kanssa. Jos haluat sukeltaa syvemmälle ratkaisuun ja koodata kaikki tässä näkyvät vaiheet, katso GitHub repo. Seuraava kaavio näyttää vaiheiden järjestyksen:
Edellytykset
Voit käyttää mitä tahansa tietokantoja, jotka ovat yhteensopivia SQLAlchemy tuottaa vastauksia LLM:iltä ja LangChainilta. Näiden tietokantojen metatiedot on kuitenkin rekisteröitävä AWS Glue Data Catalogiin. Lisäksi sinulla on oltava pääsy LLM:iin joko JumpStart- tai API-avainten kautta.
Yhdistä tietokantoihin SQLAlchemyn avulla
LangChain käyttää SQLAlchemyä yhteyden muodostamiseen SQL-tietokantoihin. Alustamme LangChainin SQLDatabase-toiminnon luomalla moottorin ja muodostamalla yhteyden jokaiselle tietolähteelle. Seuraavassa on esimerkki yhteyden muodostamisesta Amazon Aurora MySQL-yhteensopiva versio palvelimeton tietokanta ja sisällytä vain työntekijätaulukko:
Seuraavaksi rakennamme Ketjusekvenssi 1:n käyttämät kehotteet tietokannan ja taulukon nimen tunnistamiseen käyttäjän kysymyksen perusteella.
Luo dynaamisia kehotemalleja
Käytämme AWS Glue Data Catalogia, joka on suunniteltu tallentamaan ja hallitsemaan metatietotietoja, tunnistamaan tietolähde käyttäjän kyselyä varten ja luomaan kehotteita ketjusekvenssille 1, kuten seuraavissa vaiheissa on kuvattu:
- Luomme tietokatalogin indeksoimalla useiden tietolähteiden metadataa käyttämällä JDBC-yhteys käytetään esittelyssä.
- Boto3-kirjaston avulla rakennamme konsolidoidun näkymän tietokatalogista useista tietolähteistä. Seuraavassa on esimerkki siitä, kuinka työntekijätaulukon metatiedot saadaan Aurora MySQL -tietokannan tietokatalogista:
Yhdistetyssä tietokatalogissa on tietoja tietolähteestä, kuten skeeman, taulukoiden ja sarakkeiden nimet. Seuraavassa on esimerkki konsolidoidun tietokatalogin tuloksesta:
- Välitämme konsolidoidun tietokatalogin kehotemalliin ja määrittelemme LangChainin käyttämät kehotteet:
Ketjusekvenssi 1: Tunnista käyttäjän kyselyn lähdemetatiedot LangChainin ja LLM:n avulla
Välitämme edellisessä vaiheessa luodun kehotemallin kehotteeseen yhdessä käyttäjän kyselyn kanssa LangChain-malliin löytääksemme parhaan tietolähteen kysymykseen vastaamiseen. LangChain käyttää valitsemaamme LLM-mallia lähdemetadatan havaitsemiseen.
Käytä seuraavaa koodia käyttääksesi LLM:ää JumpStartista tai kolmannen osapuolen malleista:
Luotu teksti sisältää tietoja, kuten tietokannan ja taulukoiden nimet, joita vastaan käyttäjän kysely suoritetaan. Esimerkiksi käyttäjän kyselylle "Nimeä kaikki työntekijät, joiden syntymäaika on tässä kuussa", generated_text
on tietoa database == rdsmysql
ja database.table == rdsmysql.employees
.
Seuraavaksi välitämme henkilöresurssien toimialueen, Aurora MySQL -tietokannan ja työntekijätaulukon tiedot ketjusekvenssille 2.
Ketjusekvenssi 2: Hae vastaukset tietolähteistä vastataksesi käyttäjän kyselyyn
Seuraavaksi suoritamme LangChainin SQL-tietokantaketjun tekstin muuntamiseksi SQL:ksi ja suoritamme implisiittisesti luodun SQL:n tietokantaa vastaan hakeaksemme tietokantatulokset yksinkertaisella luettavalla kielellä.
Aloitamme määrittämällä kehotemallin, joka kehottaa LLM:ää luomaan SQL:n syntaktisesti oikealla murteella ja suorittamaan sen sitten tietokantaa vastaan:
Lopuksi välitämme LLM:n, tietokantayhteyden ja kehotteen SQL-tietokantaketjuun ja suoritamme SQL-kyselyn:
Esimerkiksi käyttäjän kyselyyn "Nimetkää kaikki työntekijät, joiden syntymäaika on tässä kuussa", vastaus on seuraava:
Puhdistaa
Kun olet käyttänyt modernia dataarkkitehtuuria generatiivisella tekoälyllä, muista puhdistaa kaikki käyttämättömät resurssit. Sammuta ja poista käytetyt tietokannat (Amazon Redshift, Amazon RDS, Snowflake). Lisäksi poista tiedot Amazon S3:sta ja pysäytä kaikki Studio-muistikirjan esiintymät, jotta niistä ei aiheudu lisäkuluja. Jos käytit JumpStartia LLM:n käyttöönottoon SageMakerin reaaliaikaisena päätepisteenä, poista päätepiste joko SageMaker-konsolin tai Studion kautta.
Yhteenveto
Tässä viestissä integroimme SageMakerissa modernin tietoarkkitehtuurin generatiivisiin tekoälyihin ja LLM:ihin. Tämä ratkaisu käyttää erilaisia JumpStartin tekstistä tekstiin perustuvia malleja sekä kolmannen osapuolen malleja. Tämä hybridilähestymistapa tunnistaa tietolähteet, kirjoittaa SQL-kyselyitä ja tuottaa vastauksia kyselytuloksilla. Se käyttää Amazon Redshiftiä, Amazon RDS:ää, Snowflakea ja LLM:itä. Ratkaisun parantamiseksi voit lisätä tietokantoja, käyttöliittymän englanninkielisille kyselyille, nopean suunnittelun ja tietotyökaluja. Tästä voisi tulla älykäs, yhtenäinen tapa saada näkemyksiä useista tietovarastoista. Jos haluat sukeltaa syvemmälle ratkaisuun ja tässä viestissä näkyvään koodiin, tutustu GitHub repo . Katso myös Amazonin kallioperä käyttötapauksiin generatiivisissa tekoälyissä, perusmalleissa ja suurissa kielimalleissa.
Liite
Esimerkkikehotteet
Domain | Tietokanta/API | nopea | SQL (LLM:n luoma) | ulostulo |
Myynti | Amazon RedShift | Kuinka monta lippua myydään? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
Myynti | Amazon RedShift | Mikä oli kokonaispalkkio lipunmyynnistä vuonna 2008? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
juridinen | S3 | Kuinka monta petosta tapahtui vuonna 2023? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
juridinen | S3 | Kuinka monta vakuutusta haettiin tänä vuonna? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
Human Resources | Amazon Aurora MySQL | Nimeä kaikki työntekijät, joilla on syntymäaika tässä kuussa | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
Human Resources | Amazon Aurora MySQL | Kuinka monta työntekijää palkattiin ennen vuotta 1990? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
Rahoitus ja investoinnit | Lumihiutale | Mikä osake menestyi parhaiten ja huonoimmin toukokuussa 2013? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
Rahoitus ja investoinnit | Lumihiutale | Mikä on osakkeiden keskimääräinen kauppa heinäkuussa 2013? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
Tuote – Sää | API | Millainen sää on tällä hetkellä New Yorkissa Fahrenheit-asteina? |
Tietoja Tekijät
Navneet Tuteja on tietoasiantuntija Amazon Web Services -palvelussa. Ennen AWS:ään siirtymistään Navneet työskenteli fasilitaattorina organisaatioille, jotka pyrkivät modernisoimaan tietoarkkitehtuuriaan ja toteuttamaan kattavia AI/ML-ratkaisuja. Hän on suorittanut insinööritutkinnon Thaparin yliopistosta sekä tilastotieteen maisterin tutkinnon Texas A&M -yliopistosta.
Sovik Kumar Nath on AI/ML-ratkaisuarkkitehti AWS:n kanssa. Hänellä on laaja kokemus kokonaisvaltaisten koneoppimis- ja liiketoimintaanalytiikkaratkaisujen suunnittelusta rahoituksen, toiminnan, markkinoinnin, terveydenhuollon, toimitusketjun hallinnan ja IoT:n aloilla. Sovik on julkaissut artikkeleita ja omistaa patentin ML-mallien valvontaan. Hänellä on kaksois maisterin tutkinto Etelä-Floridan yliopistosta, Fribourgin yliopistosta Sveitsistä ja kandidaatin tutkinto Indian Institute of Technologysta, Kharagpurista. Työn ulkopuolella Sovik nauttii matkustamisesta, lauttamatkoista ja elokuvien katselusta.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- EVM Finance. Hajautetun rahoituksen yhtenäinen käyttöliittymä. Pääsy tästä.
- Quantum Media Group. IR/PR vahvistettu. Pääsy tästä.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :on
- :On
- :ei
- :missä
- $3
- $ YLÖS
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- runsas
- pääsy
- Saavuttaa
- saavutettu
- lisätä
- Lisäksi
- Lisäksi
- vastaan
- AI
- AI / ML
- tavoitteet
- Kaikki
- sallia
- pitkin
- Myös
- Amazon
- Amazon RDS
- Amazonin punainen siirto
- Amazon Web Services
- an
- Analytics
- ja
- vastaus
- vastauksia
- Kaikki
- api
- API-AVAimet
- API
- sovellukset
- lähestymistapa
- sopiva
- arkkitehtuuri
- OVAT
- artikkelit
- keinotekoinen
- tekoäly
- AS
- liittyvä
- At
- aamurusko
- keskimäärin
- AWS
- AWS-liima
- perustua
- BE
- tulevat
- ennen
- alle
- Hyödyt
- PARAS
- välillä
- rakentaa
- rakennettu
- liiketoiminta
- by
- CAN
- kyvyt
- tapauksissa
- luettelo
- ketju
- haasteet
- kanavat
- maksut
- tarkastaa
- valinta
- Valita
- Kaupunki
- väitti
- vaatimukset
- lähellä
- sulkeminen
- koodi
- JOHDONMUKAINEN
- Sarake
- Pylväät
- yhdistelmä
- provision
- yritys
- yhteensopiva
- monimutkainen
- monimutkaisuus
- kattava
- kytkeä
- liitäntä
- Console
- sisältää
- sisältää
- jatkuvasti
- puhekielen
- muuntaa
- korjata
- vastaava
- voisi
- tela
- luoda
- luo
- Luominen
- tiedot
- tietoinfrastruktuuri
- tietokanta
- tietokannat
- Päivämäärä
- syvempää
- määritelty
- määrittelemällä
- määritelmät
- Aste
- sijoittaa
- käyttöön
- suunniteltu
- suunnittelu
- yksityiskohtainen
- yksityiskohdat
- eri
- erilainen
- useat
- verkkotunnuksen
- verkkotunnuksia
- kaksinkertainen
- alas
- laadittu
- dynaaminen
- kukin
- helpottaa
- Helpoin
- Tehokas
- tehokkaasti
- myöskään
- upotettu
- työntekijää
- mahdollistaa
- päittäin
- päätepiste
- Moottori
- Tekniikka
- Englanti
- parantaa
- yritys
- laatii
- perustamisesta
- esimerkki
- laaja
- experience
- asiantuntijat
- Selittää
- laaja
- Kattava kokemus
- uute
- helpottajana
- rahoittaa
- taloudellinen
- Rahoitusmarkkinat
- Löytää
- Etunimi
- Florida
- seurannut
- jälkeen
- seuraa
- varten
- perusta
- petos
- tiheä
- alkaen
- koko
- täysin
- toiminto
- edelleen
- tuottaa
- syntyy
- synnyttää
- sukupolvi
- generatiivinen
- Generatiivinen AI
- saada
- Antaa
- tietty
- tapahtui
- Olla
- ottaa
- he
- terveydenhuollon
- sankari
- tätä
- pitää
- isännöi
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- ihmisen
- Human Resources
- Hybridi
- Tunnistaminen
- tunnistettu
- tunnistaa
- tunnistaa
- if
- havainnollistaa
- toteuttaa
- täytäntöönpano
- täytäntöönpanosta
- parantaa
- in
- sisältää
- Mukaan lukien
- intialainen
- tiedot
- Infrastruktuuri
- innovoidaan
- panos
- oivalluksia
- sen sijaan
- Instituutti
- yhdistää
- integroitu
- integraatio
- Älykkyys
- Älykäs
- liitäntä
- tulee
- Esineiden internet
- IT
- SEN
- tuloaan
- jpg
- heinäkuu
- avain
- avaimet
- tuntemus
- Kieli
- suuri
- uusin
- oppiminen
- juridinen
- Kirjasto
- pitää
- OTK
- katso
- kone
- koneoppiminen
- tehty
- tehdä
- hoitaa
- onnistui
- johto
- monet
- markkinat
- Markkinatiedot
- Marketing
- maisterin
- Maksimoida
- maksimi
- Saattaa..
- tarkoittaa
- keskikokoinen
- verkko
- Metadata
- menetelmä
- minimi
- ML
- malli
- mallit
- Moderni
- nykyaikaistaa
- seuranta
- Kuukausi
- lisää
- Elokuvat
- moninkertainen
- täytyy
- mysql
- nimi
- nimet
- Luonnollinen
- Luonnollinen kielen käsittely
- Tarve
- tarpeet
- Uusi
- New York
- new york city
- ei-teknisiä
- muistikirja
- nyt
- numero
- tavoitteet
- of
- tarjoamalla
- Tarjoukset
- on
- vain
- Operations
- Vaihtoehto
- or
- organisaatioiden
- organisointi
- meidän
- ulos
- ulostulo
- ulkopuolella
- omistajat
- osa
- kulkea
- Hyväksytty
- patentti-
- suoritettu
- Platon
- Platonin tietotieto
- PlatonData
- politiikkaa
- kantoja
- Kirje
- voimakas
- edellinen
- hinta
- käsittely
- tuottaa
- Tuotteet
- tuottavuus
- lupaava
- toimittaa
- tarjoaa
- julkaistu
- kyselyt
- kysymys
- kysymykset
- pikemminkin
- reaaliaikainen
- ymmärtämättä
- ihan oikeesti
- vastaanottaa
- vastaanottaa
- kirjattu
- merkityksellinen
- Vaatii
- Esittelymateriaalit
- vastaus
- vasteet
- tulokset
- palata
- oikein
- ajaa
- sagemaker
- myynti
- Säästä
- skaalautuva
- Asteikko
- skenaario
- suunniteltu
- osiot
- nähdä
- etsiä
- Järjestys
- serverless
- palvelu
- Palvelut
- hän
- näyteikkuna
- esitetty
- Näytä
- sulkea
- Yksinkertainen
- ratkaisu
- Ratkaisumme
- jonkin verran
- Joku
- lähde
- Lähteet
- Etelä
- Etelä-Floridassa
- asiantuntija
- erityinen
- Alkaa
- tilasto
- Vaihe
- Askeleet
- Varastossa
- Osakkeet
- stop
- Levytila
- verkkokaupasta
- varastot
- studio
- niin
- Puku
- toimittaa
- toimitusketju
- toimitusketjun hallinta
- Sveitsi
- järjestelmä
- taulukko
- ottaen
- tekniikat
- Elektroniikka
- sapluuna
- texas
- kuin
- että
- -
- tiedot
- Lähde
- heidän
- sitten
- Siellä.
- siten
- Nämä
- ne
- kolmannen osapuolen
- kolmannen osapuolen tiedot
- tätä
- Tämä vuosi
- Kautta
- lippu
- lipunmyynnit
- että
- työkalu
- työkalut
- Yhteensä
- vaihdettiin
- Matkustaminen
- ui
- taustalla oleva
- yhdistynyt
- yliopisto
- avata
- käyttää
- käytetty
- käyttäjä
- Käyttöliittymä
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- hyödynnetty
- arvo
- eri
- Näytä
- tilavuus
- oli
- katsomassa
- Tapa..
- we
- Sää
- verkko
- verkkopalvelut
- HYVIN
- olivat
- joka
- vaikka
- tulee
- with
- sisällä
- ilman
- Referenssit
- työskenteli
- työnkulku
- työskentely
- pahin
- kirjoittaminen
- vuosi
- york
- Voit
- Sinun
- zephyrnet