Kaasaegse andmearhitektuuri rakendamine pakub skaleeritavat meetodit erinevatest allikatest pärit andmete integreerimiseks. Korraldades andmeid infrastruktuuri asemel ettevõtte domeenide järgi, saab iga domeen valida oma vajadustele vastavad tööriistad. Organisatsioonid saavad generatiivsete AI-lahendustega maksimeerida oma kaasaegse andmearhitektuuri väärtust, tehes samal ajal pidevalt uuendusi.
Loomuliku keele võimalused võimaldavad mittetehnilistel kasutajatel teha päringuid inglise keele, mitte keeruka SQL-i kaudu. Täieliku kasu mõistmine nõuab aga mõningate väljakutsete ületamist. AI- ja keelemudelid peavad tuvastama sobivad andmeallikad, genereerima tõhusaid SQL-päringuid ja tootma sidusaid vastuseid koos manustatud tulemustega. Nad vajavad ka loomuliku keele küsimuste jaoks kasutajaliidest.
Üldiselt on tänapäevase andmearhitektuuri ja generatiivsete AI-tehnikate rakendamine AWS-iga paljutõotav lähenemisviis mitmekesistest ja ulatuslikest andmetest ettevõtte mastaabis peamiste teadmiste kogumiseks ja levitamiseks. AWS-i uusim pakkumine generatiivse AI jaoks on Amazonase aluspõhi, mis on täielikult hallatav teenus ja lihtsaim viis generatiivsete AI-rakenduste loomiseks ja skaleerimiseks alusmudelitega. AWS pakub ka vundamendimudeleid Amazon SageMaker JumpStart as Amazon SageMaker lõpp-punktid. Suurte keelemudelite (LLM) kombinatsioon, sealhulgas Amazon Bedrocki pakutav integreerimise lihtsus, ja skaleeritav domeenile orienteeritud andmeinfrastruktuur positsioneerib selle intelligentse meetodina erinevates analüütikaandmebaasides ja andmejärvedes hoitava rikkaliku teabe leidmiseks.
Postituses tutvustame stsenaariumi, kus ettevõte on võtnud kasutusele kaasaegse andmearhitektuuri, mille andmed asuvad mitmes andmebaasis ja API-des, näiteks juriidilised andmed Amazoni lihtne salvestusteenus (Amazon S3), inimressursid edasi Amazoni relatsioonide andmebaasiteenus (Amazon RDS), müük ja turundus edasi Amazoni punane nihe, finantsturu andmed kolmanda osapoole andmelaolahenduse kohta Lumehelvesja tooteandmed API-na. Selle rakenduse eesmärk on tõsta ettevõtte ärianalüütika, tooteomanike ja ärivaldkonna ekspertide tootlikkust. Kõik see saavutati generatiivse AI kasutamisega selles domeeni võrguarhitektuuris, mis võimaldab ettevõttel oma ärieesmärke tõhusamalt saavutada. Sellel lahendusel on võimalus lisada SageMakeri lõpp-punktina JumpStarti LLM-e ja ka kolmandate osapoolte mudeleid. Pakume ettevõtte kasutajatele võimalust esitada faktidel põhinevaid küsimusi ilma andmekanalite alusteadmisteta, abstraheerides nii lihtsate kuni keerukate SQL-päringute kirjutamise keerukust.
Lahenduse ülevaade
AWS-i kaasaegne andmearhitektuur kasutab tehisintellekti ja loomuliku keele töötlemist, et teha päringuid mitmest analüüsiandmebaasist. Kasutades selliseid teenuseid nagu Amazon Redshift, Amazon RDS, Snowflake, Amazonase Athenaja AWS liim, loob see skaleeritava lahenduse erinevatest allikatest pärit andmete integreerimiseks. Kasutades LangChain, võimas raamatukogu LLM-idega töötamiseks, sealhulgas Amazon Bedrocki vundamendimudelid ja JumpStart in Amazon SageMaker Studio märkmikud, on ehitatud süsteem, kus kasutajad saavad esitada äriküsimusi loomulikus inglise keeles ja saada vastuseid asjakohastest andmebaasidest kogutud andmetega.
Järgmine diagramm illustreerib arhitektuuri.
Hübriidarhitektuur kasutab mitut andmebaasi ja LLM-i koos Amazon Bedrocki ja JumpStarti alusmudelitega andmeallika tuvastamiseks, SQL-i genereerimiseks ja teksti genereerimiseks koos tulemustega.
Järgmine diagramm illustreerib meie lahenduse konkreetseid töövoo etappe.
Toimingud on järgmised:
- Ärikasutaja esitab ingliskeelse küsimuse.
- AWS-i liimiroomaja töötab sagedaste ajavahemike järel, et eraldada andmebaasidest metaandmeid ja luua tabelimääratlusi. AWS-i liimiandmete kataloog. Andmekataloog sisestatakse 1. ahela järjestusse (vt eelmist diagrammi).
- Studio sülearvutites kasutatakse LLM-ide ja viipadega töötamise tööriista LangChain. LangChain nõuab LLM-i määratlemist. Aheljärjestuse 1 osana edastatakse viip ja andmekataloogi metaandmed LLM-ile, mis on hostitud SageMakeri lõpp-punktis, et tuvastada asjakohane andmebaas ja tabel LangChaini abil.
- Viip ja tuvastatud andmebaas ja tabel edastatakse 2. aheljadale.
- LangChain loob ühenduse andmebaasiga ja käivitab tulemuste saamiseks SQL-päringu.
- Tulemused edastatakse LLM-ile, et genereerida andmetega ingliskeelne vastus.
- Kasutaja saab oma viipale ingliskeelse vastuse, mis pärib andmeid erinevatest andmebaasidest.
Need järgmised jaotised selgitavad mõningaid peamisi samme seotud koodiga. Lahendusse ja kõigi siin näidatud sammude kodeerimiseks sügavamale sukeldumiseks vaadake jaotist GitHub repo. Järgmine diagramm näitab toimingute jada:
Eeldused
Võite kasutada mis tahes andmebaase, mis ühilduvad SQLAlchemy LLM-ide ja LangChaini vastuste genereerimiseks. Kuid nende andmebaaside metaandmed peavad olema registreeritud AWS-i liimiandmete kataloogis. Lisaks peab teil olema juurdepääs LLM-idele kas KiirStardi või API võtmete kaudu.
Ühendage andmebaasidega SQLAlchemy abil
LangChain kasutab SQL-andmebaasidega ühenduse loomiseks SQLAlchemyt. Initsialiseerime LangChaini SQLDatabase funktsiooni, luues mootori ja luues ühenduse iga andmeallika jaoks. Järgmine on näidis, kuidas ühenduse luua Amazon Aurora MySQL-iga ühilduv väljaanne serverita andmebaas ja sisaldama ainult töötajate tabelit:
Järgmisena koostame käsud, mida Chain Sequence 1 kasutab andmebaasi ja tabeli nime tuvastamiseks kasutaja küsimuse põhjal.
Looge dünaamilisi viipamalle
Kasutame AWS-i liimiandmete kataloogi, mis on loodud metaandmete teabe salvestamiseks ja haldamiseks, et tuvastada kasutajapäringu andmeallikas ja koostada ahela jada 1 viipasid, nagu on kirjeldatud järgmistes sammudes.
- Loome andmekataloogi, roomates läbi mitme andmeallika metaandmete, kasutades JDBC ühendus demonstratsioonil kasutatud.
- Boto3 teegiga loome andmekataloogi koondvaate mitmest andmeallikast. Järgnevalt on toodud näide, kuidas hankida Aurora MySQL andmebaasi andmekataloogist töötajate tabeli metaandmed:
Konsolideeritud andmekataloog sisaldab andmeallika üksikasju, nagu skeem, tabelinimed ja veergude nimed. Järgmine on konsolideeritud andmekataloogi väljundi näidis:
- Edastame konsolideeritud andmekataloogi viipamallile ja määratleme LangChaini kasutatavad viibad:
1. ahela järjestus: tuvastage kasutajapäringu lähtemetaandmed, kasutades LangChaini ja LLM-i
Edastame eelmises etapis loodud viipa malli koos kasutajapäringuga LangChaini mudelile, et leida küsimusele vastamiseks parim andmeallikas. LangChain kasutab allika metaandmete tuvastamiseks meie valitud LLM-mudelit.
JumpStarti või kolmanda osapoole mudelite LLM-i kasutamiseks kasutage järgmist koodi:
Loodud tekst sisaldab teavet, näiteks andmebaasi ja tabelinimesid, mille alusel kasutaja päringut käitatakse. Näiteks kasutaja päringu „Nimeta kõik töötajad, kelle sünnikuupäev on sel kuul” generated_text
omab teavet database == rdsmysql
ja database.table == rdsmysql.employees
.
Järgmisena edastame inimressursside domeeni, Aurora MySQL-i andmebaasi ja töötajate tabeli üksikasjad ahelasse 2.
2. ahela järjestus: kasutaja päringule vastamiseks hankige andmeallikatest vastused
Järgmisena käivitame LangChaini SQL-andmebaasi ahela, et teisendada tekst SQL-i ja kaudselt käivitada genereeritud SQL andmebaasiga, et tuua andmebaasi tulemused lihtsas loetavas keeles.
Alustame viipamalli määratlemisega, mis käsib LLM-il genereerida SQL süntaktiliselt õiges dialektis ja seejärel käivitada see andmebaasis:
Lõpuks edastame LLM-i, andmebaasiühenduse ja viipa SQL-i andmebaasiahelasse ning käivitame SQL-päringu:
Näiteks kasutaja päringule „Nimeta kõik töötajad, kelle sünnikuupäev on sel kuul”, on vastus järgmine:
Koristage
Pärast generatiivse AI-ga kaasaegse andmearhitektuuri käitamist puhastage kindlasti ära kõik ressursid, mida ei kasutata. Lülitage välja ja kustutage kasutatud andmebaasid (Amazon Redshift, Amazon RDS, Snowflake). Lisaks kustutage Amazon S3 andmed ja peatage kõik Studio sülearvuti eksemplarid, et teil ei tekiks täiendavaid tasusid. Kui kasutasite JumpStarti LLM-i juurutamiseks SageMakeri reaalajas lõpp-punktina, kustutage lõpp-punkt kas SageMakeri konsooli või Studio kaudu.
Järeldus
Selles postituses integreerisime SageMakeris kaasaegse andmearhitektuuri generatiivse AI ja LLM-idega. See lahendus kasutab JumpStarti erinevaid tekst-teksti alusmudeleid ja ka kolmandate osapoolte mudeleid. See hübriidmeetod tuvastab andmeallikad, kirjutab SQL-päringuid ja genereerib päringutulemustega vastuseid. See kasutab Amazon Redshift, Amazon RDS, Snowflake ja LLM-e. Lahenduse täiustamiseks võiksite lisada rohkem andmebaase, kasutajaliidese ingliskeelsete päringute jaoks, viipasid ja andmetööriistu. Sellest võib saada intelligentne ja ühtne viis mitmest andmesalvest ülevaate saamiseks. Selles postituses näidatud lahendusse ja koodi sügavamale sukeldumiseks vaadake GitHub repo . Samuti vaadake Amazonase aluspõhi generatiivsete tehisintellekti, alusmudelite ja suurte keelemudelite kasutusjuhtudeks.
Lisa
Näidisjuhised
Domeen | Andmebaas/API | kiire | SQL (genereerinud LLM) | Väljund |
Müük | Amazon RedShift | Kui palju pileteid müüakse? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
Müük | Amazon RedShift | Kui suur oli 2008. aasta piletimüügi vahendustasu kokku? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
Õigus | S3 | Kui palju pettusi juhtus aastal 2023? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
Õigus | S3 | Kui palju poliise sel aastal taotleti? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
Inimressursid | Amazon Aurora MySQL | Nimetage kõik töötajad, kelle sünnikuupäev on sel kuul | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
Inimressursid | Amazon Aurora MySQL | Kui palju töötajaid võeti tööle enne 1990. aastat? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
Rahandus ja investeeringud | Lumehelves | Milline aktsia toimis 2013. aasta mais kõige paremini ja mis halvimalt? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
Rahandus ja investeeringud | Lumehelves | Kui suur on keskmine aktsiate maht 2013. aasta juulis? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
Toode – Ilm | API | Milline on ilm praegu New Yorgis Fahrenheiti kraadides? |
Autoritest
Navneet Tuteja on Amazon Web Servicesi andmespetsialist. Enne AWS-iga liitumist töötas Navneet organisatsioonide abistajana, kes soovisid moderniseerida oma andmearhitektuure ja rakendada kõikehõlmavaid AI/ML-lahendusi. Tal on insenerikraad Thapari ülikoolist ja magistrikraad statistikas Texase A&M ülikoolis.
Sovik Kumar Nath on AWS-iga AI/ML lahenduste arhitekt. Tal on laialdased kogemused täielike masinõppe- ja ärianalüütikalahenduste kavandamisel rahanduse, operatsioonide, turunduse, tervishoiu, tarneahela juhtimise ja asjade Interneti vallas. Sovik on avaldanud artikleid ja omab patenti ML-mudelite monitooringus. Tal on topeltmagistri kraad Lõuna-Florida ülikoolist, Fribourgi ülikoolist Šveitsis ja bakalaureusekraad India Tehnoloogiainstituudist Kharagpuris. Väljaspool tööd naudib Sovik reisimist, praamisõitu ja filmide vaatamist.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- EVM Finance. Detsentraliseeritud rahanduse ühtne liides. Juurdepääs siia.
- Quantum Media Group. IR/PR võimendatud. Juurdepääs siia.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :on
- :on
- :mitte
- : kus
- $3
- $ UP
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- rohke
- juurdepääs
- Saavutada
- saavutada
- lisama
- lisamine
- Lisaks
- vastu
- AI
- AI / ML
- Eesmärgid
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- mööda
- Ka
- Amazon
- Amazoni RDS
- Amazoni punane nihe
- Amazon Web Services
- an
- analytics
- ja
- vastus
- vastuseid
- mistahes
- API
- API VÕTMED
- API-liidesed
- rakendused
- lähenemine
- asjakohane
- arhitektuur
- OLEME
- kaubad
- kunstlik
- tehisintellekti
- AS
- seotud
- At
- Aurora
- keskmine
- AWS
- AWS liim
- põhineb
- BE
- muutuma
- enne
- alla
- Kasu
- BEST
- vahel
- ehitama
- ehitatud
- äri
- by
- CAN
- võimeid
- juhtudel
- kataloog
- kett
- väljakutseid
- kanalid
- koormuste
- kontrollima
- valik
- Vali
- Linn
- väitis
- nõuete
- lähedal
- Sulgemine
- kood
- SIDUS
- Veerg
- Veerud
- kombinatsioon
- komisjonitasu
- ettevõte
- kokkusobiv
- keeruline
- keerukust
- terviklik
- Võta meiega ühendust
- ühendus
- konsool
- sisaldama
- sisaldab
- pidevalt
- jutukas
- muutma
- parandada
- Vastav
- võiks
- roomik
- looma
- loob
- loomine
- andmed
- andmete infrastruktuur
- andmebaas
- andmebaasid
- kuupäev
- sügavam
- määratletud
- määratlemisel
- mõisted
- Kraad
- juurutada
- lähetatud
- kavandatud
- projekteerimine
- üksikasjalik
- detailid
- erinev
- erinevad
- mitu
- domeen
- Domeenid
- kahekordistada
- alla
- koostatud
- dünaamiline
- iga
- leevendada
- lihtsaim
- Tõhus
- tõhusalt
- kumbki
- varjatud
- töötajad
- võimaldab
- Lõpuks-lõpuni
- Lõpp-punkt
- Mootor
- Inseneriteadus
- Inglise
- suurendama
- ettevõte
- kehtestab
- asutades
- näide
- laiendav
- kogemus
- ekspertide
- Selgitama
- ulatuslik
- Laialdased kogemused
- väljavõte
- Juhendaja
- rahastama
- finants-
- Finantsturg
- leidma
- esimene
- Florida
- Järgneb
- Järel
- järgneb
- eest
- Sihtasutus
- pettus
- sage
- Alates
- täis
- täielikult
- funktsioon
- edasi
- tekitama
- loodud
- genereerib
- põlvkond
- generatiivne
- Generatiivne AI
- saama
- Andma
- antud
- juhtus
- Olema
- võttes
- he
- tervishoid
- Held
- siin
- omab
- võõrustas
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- inim-
- Inimressursid
- hübriid
- Identifitseerimine
- tuvastatud
- identifitseerib
- identifitseerima
- if
- illustreerib
- rakendada
- täitmine
- rakendamisel
- parandama
- in
- sisaldama
- Kaasa arvatud
- india
- info
- Infrastruktuur
- uuenduslik
- sisend
- teadmisi
- selle asemel
- Instituut
- integreerima
- integreeritud
- integratsioon
- Intelligentsus
- Intelligentne
- Interface
- sisse
- asjade Interneti
- IT
- ITS
- liitumine
- jpg
- Juuli
- Võti
- võtmed
- teadmised
- keel
- suur
- hiljemalt
- õppimine
- Õigus
- Raamatukogu
- nagu
- LLM
- Vaata
- masin
- masinõpe
- tehtud
- tegema
- juhtima
- juhitud
- juhtimine
- palju
- Turg
- Turuinfo
- Turundus
- meistrid
- Maksimeerima
- maksimaalne
- mai..
- keskmine
- keskmine
- silma
- Metaandmed
- meetod
- miinimum
- ML
- mudel
- mudelid
- Kaasaegne
- kaasajastama
- järelevalve
- kuu
- rohkem
- Filmid
- mitmekordne
- peab
- MySQL
- nimi
- nimed
- Natural
- Natural Language Processing
- Vajadus
- vajadustele
- Uus
- New York
- New York City
- mittetehniline
- märkmik
- nüüd
- number
- eesmärgid
- of
- pakkumine
- Pakkumised
- on
- ainult
- Operations
- valik
- or
- organisatsioonid
- korraldamine
- meie
- välja
- väljund
- väljaspool
- omanikud
- osa
- sooritama
- Vastu võetud
- patent
- teostatud
- Platon
- Platoni andmete intelligentsus
- PlatoData
- Poliitika
- positsioone
- post
- võimas
- eelmine
- hind
- töötlemine
- tootma
- Toode
- tootlikkus
- paljutõotav
- anda
- annab
- avaldatud
- päringud
- küsimus
- Küsimused
- pigem
- reaalajas
- realiseerimisel
- tõesti
- saama
- saab
- registreeritud
- asjakohane
- Vajab
- Vahendid
- vastus
- vastuste
- Tulemused
- tagasipöördumine
- õige
- jooks
- salveitegija
- müük
- Säästa
- skaalautuvia
- Skaala
- stsenaarium
- plaanitud
- lõigud
- vaata
- otsib
- Jada
- Serverita
- teenus
- Teenused
- ta
- presentatsioon
- näidatud
- Näitused
- sulgema
- lihtne
- lahendus
- Lahendused
- mõned
- Keegi
- allikas
- Allikad
- Lõuna
- Lõuna-Florida
- spetsialist
- konkreetse
- algus
- statistika
- Samm
- Sammud
- varu
- varud
- Peatus
- ladustamine
- salvestada
- kauplustes
- stuudio
- selline
- Kostüüm
- varustama
- tarneahelas
- tarneahela juhtimine
- Šveits
- süsteem
- tabel
- võtmine
- tehnikat
- Tehnoloogia
- šabloon
- texas
- kui
- et
- .
- teave
- Allikas
- oma
- SIIS
- Seal.
- sellega
- Need
- nad
- kolmanda osapoole
- kolmanda osapoole andmed
- see
- Sel aastal
- Läbi
- pilet
- piletimüük
- et
- tööriist
- töövahendid
- Summa
- kaubeldakse
- Reisimine
- ui
- aluseks
- ühtne
- Ülikool
- avamine
- kasutama
- Kasutatud
- Kasutaja
- Kasutajaliides
- Kasutajad
- kasutusalad
- kasutamine
- kasutatud
- väärtus
- eri
- vaade
- maht
- oli
- vaadates
- Tee..
- we
- ilm
- web
- veebiteenused
- Hästi
- olid
- mis
- kuigi
- will
- koos
- jooksul
- ilma
- Töö
- töötas
- töövoog
- töö
- halvim
- kirjutamine
- aasta
- york
- sa
- Sinu
- sephyrnet