Vlaganje v Pinecone

Vlaganje v Pinecone

Investing in Pinecone PlatoBlockchain Data Intelligence. Vertical Search. Ai.

S pregibom velikih jezikovnih modelov (LLM) smo priča spremembi paradigme v razvoju programske opreme in računalniški industriji kot celoti. AI se dogaja in pred našimi očmi nastaja nov kup. To je kot internet znova in znova, ki kliče v uporabo nove komponente infrastrukture, zgrajene za nov način delovanja.

Vse bolj se priznava, da so LLM dejansko nova oblika računalnika, v nekem smislu. Poganjajo lahko »programe«, napisane v naravnem jeziku (tj. pozive), izvajajo poljubne računalniške naloge (npr. pisanje kode Python ali iskanje v Googlu) in vrnejo rezultate nazaj uporabniku v človeku berljivi obliki. To je velik posel iz dveh razlogov: 

  1. Nov razred aplikacij okoli povzemanja in generativne vsebine je zdaj mogoče, kar ima za posledico spremembo vedenja potrošnikov glede uporabe programske opreme.
  2. Nov razred razvijalcev je zdaj sposoben pisati programsko opremo. Računalniško programiranje zdaj zahteva samo obvladovanje angleščine (ali drugega človeškega jezika), ne pa usposabljanja v tradicionalnem programskem jeziku, kot sta Python ali JavaScript. 

Ena naših glavnih prednostnih nalog pri Andreessen Horowitz je identificirati podjetja, ki gradijo ključne komponente tega novega sklada AI. Z veseljem sporočamo, da vodimo 100-milijonski krog serije B Pincone, da bi podprli njihovo vizijo postati pomnilniški sloj za aplikacije AI.

Težava: LLM halucinirajo in so brez državljanstva

Velik izziv pri trenutnih LLM so halucinacije. Dajejo zelo samozavestne odgovore, ki so dejansko in včasih logično napačni. Na primer, če vprašate LLM za bruto maržo družbe Apple za zadnje četrtletje, lahko dobite zanesljiv odgovor 63 milijard dolarjev. Model lahko celo podkrepi svoj odgovor z razlago, da z odštevanjem 25 milijard dolarjev stroškov blaga od 95 milijard dolarjev prihodkov dobite bruto maržo 63 milijard dolarjev. Seveda je napačno v več dimenzijah:

  • Prvič, številka prihodkov je napačna, saj LLM nima podatkov v realnem času. Deluje na zastarelih podatkih o usposabljanju, ki so stari meseci ali verjetno leta.
  • Drugič, te številke o prihodkih in stroških blaga je pobral naključno iz računovodskih izkazov drugega sadjarskega podjetja.
  • Tretjič, izračun njegove bruto marže ni matematično pravilen.

Predstavljajte si, da bi ta odgovor dali direktorju podjetja a Fortune 500 podjetje. 

Vse to se zgodi zato, ker so na koncu dneva LLM-ji stroji za napovedovanje, usposobljeni na ogromnih količinah internetnih podatkov tretjih oseb. Pogosto informacij, ki jih uporabnik potrebuje, preprosto ni v kompletu za usposabljanje. Torej bo model dal najbolj verjetne in jezikovno dobro oblikovane odgovore na podlagi zastarelih podatkov o usposabljanju. Že zdaj lahko opazimo potencialno rešitev zgornjega problema – posredovanje vsebinsko ustreznih podatkov zasebnih podjetij v realnem času LLM-jem.

Splošna oblika tega problema je, da so s sistemskega vidika LLM-ji in večina drugih modelov umetne inteligence v koraku sklepanja brez stanja. Vsakič, ko pokličete API GPT-4, je rezultat odvisen samo na podatke in parametre, ki jih pošljete v tovoru. Model nima vgrajenega načina za vključitev kontekstualnih podatkov ali zapomnitev, kaj ste že vprašali. Natančna nastavitev modela je možna, vendar je draga in razmeroma neprilagodljiva (tj. model se ne more odzivati ​​na nove podatke v realnem času). Ker modeli ne upravljajo stanja ali pomnilnika sami, morajo razvijalci zapolniti vrzel. 

Rešitev: Vektorske podatkovne baze so plast za shranjevanje LLM

Tukaj nastopi Pinecone.

Pinecone je zunanja baza podatkov, kjer lahko razvijalci shranijo ustrezne kontekstualne podatke za aplikacije LLM. Namesto pošiljanja velikih zbirk dokumentov naprej in nazaj z vsakim klicem API-ja, jih lahko razvijalci shranijo v zbirko podatkov Pinecone, nato pa izberejo le nekaj najpomembnejših za katero koli dano poizvedbo – pristop, imenovan učenje v kontekstu. To je treba imeti, da primeri uporabe v podjetjih resnično zacvetijo.

Zlasti Pinecone je a vektor baza podatkov, kar pomeni, da so podatki shranjeni v obliki pomensko pomembne vgradnje. Medtem ko tehnična razlaga vdelav presega obseg te objave, je pomembno razumeti, da LLM-ji delujejo tudi na vektorskih vdelavah – torej s shranjevanjem podatkov v Pinecone v tem formatu je bil del dela AI dejansko vnaprej obdelan in prenese v bazo podatkov.

Za razliko od obstoječih baz podatkov, ki so zasnovane za atomske transakcijske ali izčrpne analitične delovne obremenitve, je (Pinecone) vektorska baza podatkov zasnovana za končno konsistentno iskanje približnega soseda, kar je prava paradigma baze podatkov za vektorje višjih dimenzij. Zagotavljajo tudi API-je za razvijalce, ki se integrirajo z drugimi ključnimi komponentami aplikacij AI, kot so OpenAI, Cohere, LangChain itd. Tako dobro premišljena zasnova zelo olajša življenje razvijalcev. Enostavne naloge umetne inteligence, kot so semantično iskanje, priporočila za izdelke ali razvrščanje virov, je mogoče modelirati neposredno kot težave z vektorskim iskanjem in izvajati v vektorski zbirki podatkov brez končnega koraka sklepanja o modelu — nekaj, česar obstoječe baze podatkov ne zmorejo.

Pinecone je nastajajoči standard za upravljanje državnih in kontekstualnih podatkov podjetja v aplikacijah LLM. Menimo, da je to pomembna infrastrukturna komponenta, ki zagotavlja plast za shranjevanje ali »pomnilnik« za povsem nov sklad aplikacij AI.

Neverjeten napredek za Pinecone do danes

Pinecon ni edina vektorska zbirka podatkov, vendar verjamemo, da je vodilna vektorska zbirka podatkov – zdaj pripravljena za sprejetje v resničnem svetu – s precejšnjo razliko. Pinecone je zabeležil 8-kratno rast plačljivih strank (približno 1,600) v samo treh mesecih, vključno s tehnološkimi podjetji, usmerjenimi v prihodnost, kot so Shopify, Gong, Zapier in drugimi. Uporablja se v številnih panogah, vključno s programsko opremo za podjetja, potrošniškimi aplikacijami, e-trgovino, fintechom, zavarovalništvom, mediji in AI/ML.

Tega uspeha ne pripisujemo le globokemu razumevanju uporabnika, trga in tehnologije s strani ekipe, ampak tudi – kar je kritično – njihovemu pristopu k izdelku, ki je naravnan v oblaku, od samega začetka. Eden najtežjih delov gradnje te storitve je zagotavljanje zanesljivega, zelo razpoložljivega zaledja v oblaku, ki izpolnjuje širok nabor ciljev učinkovitosti strank in SLA. Z več iteracijami nad arhitekturo izdelka in upravljanjem številnih plačanih strank velikega obsega v proizvodnji je ta ekipa pokazala operativno odličnost, ki se pričakuje od proizvodne baze podatkov.

Pincone je ustanovil Edo Liberty, ki je bil dolgoletni in zagrizeni zagovornik pomena vektorskih baz podatkov v strojnem učenju, vključno s tem, kako lahko vsakemu podjetju omogočijo, da gradi primere uporabe na vrhu LLM. Kot uporabni matematik je svojo kariero posvetil študiju in implementaciji najsodobnejših algoritmov vektorskega iskanja. Hkrati je bil pragmatik, gradil je osnovna orodja ML, kot je Sagemaker pri AWS, in prevajal uporabne raziskave ML v praktične izdelke, ki jih lahko stranke uporabljajo. Redko je videti tako kombinacijo globokega raziskovanja in pragmatičnega razmišljanja o izdelku.

Edu se pridruži Bob Wiederhold, izkušen izvršni direktor in operater (prej Couchbase), kot partner na strani operacij kot predsednik in COO. Pinecone ima tudi fantastično ekipo vodij in inženirjev z globokim strokovnim znanjem o sistemih v oblaku iz krajev, kot so AWS, Google in Databricks. Navdušeni smo nad globokim inženirskim znanjem ekipe, osredotočenostjo na izkušnje razvijalcev in učinkovito izvedbo GTM, zato smo privilegirani, da sodelujemo z njimi pri izgradnji pomnilniške plasti za aplikacije AI.

* * *

Tukaj izražena stališča so stališča posameznega citiranega osebja družbe AH Capital Management, LLC (»a16z«) in niso stališča družbe a16z ali njenih podružnic. Nekatere informacije, vsebovane tukaj, so bile pridobljene iz virov tretjih oseb, vključno s portfeljskimi družbami skladov, ki jih upravlja a16z. Čeprav so vzeti iz virov, za katere menijo, da so zanesljivi, a16z ni neodvisno preveril takih informacij in ne daje nobenih zagotovil o trajni točnosti informacij ali njihovi ustreznosti za dano situacijo. Poleg tega lahko ta vsebina vključuje oglase tretjih oseb; a16z ni pregledal takšnih oglasov in ne podpira nobene oglaševalske vsebine v njih.

Ta vsebina je na voljo samo v informativne namene in se je ne smete zanašati kot pravni, poslovni, naložbeni ali davčni nasvet. Glede teh zadev se morate posvetovati s svojimi svetovalci. Sklici na katere koli vrednostne papirje ali digitalna sredstva so samo v ilustrativne namene in ne predstavljajo naložbenega priporočila ali ponudbe za zagotavljanje investicijskih svetovalnih storitev. Poleg tega ta vsebina ni namenjena nobenim vlagateljem ali bodočim vlagateljem niti ji ni namenjena in se nanjo v nobenem primeru ne smete zanašati, ko se odločate za vlaganje v kateri koli sklad, ki ga upravlja a16z. (Ponudba za vlaganje v sklad a16z bo podana le z memorandumom o zasebni plasiranju, pogodbo o vpisu in drugo ustrezno dokumentacijo katerega koli takega sklada in jo je treba prebrati v celoti.) Vse naložbe ali portfeljske družbe, omenjene, navedene ali opisane niso reprezentativne za vse naložbe v vozila, ki jih upravlja a16z, in ni nobenega zagotovila, da bodo naložbe donosne ali da bodo imele druge naložbe v prihodnosti podobne značilnosti ali rezultate. Seznam naložb skladov, ki jih upravlja Andreessen Horowitz (razen naložb, za katere izdajatelj ni dal dovoljenja a16z za javno razkritje, ter nenapovedanih naložb v digitalna sredstva, s katerimi se javno trguje), je na voljo na https://a16z.com/investments /.

Grafi in grafi, ki so navedeni znotraj, so izključno informativne narave in se nanje ne bi smeli zanašati pri sprejemanju kakršnih koli investicijskih odločitev. Pretekla uspešnost ni pokazatelj prihodnjih rezultatov. Vsebina govori samo od navedenega datuma. Vse projekcije, ocene, napovedi, cilji, obeti in/ali mnenja, izražena v tem gradivu, se lahko spremenijo brez predhodnega obvestila in se lahko razlikujejo ali so v nasprotju z mnenji, ki so jih izrazili drugi. Za dodatne pomembne informacije obiščite https://a16z.com/disclosures.

Časovni žig:

Več od Andreessen Horowitz