Đầu tư vào Pinecone

Đầu tư vào Pinecone

Đầu tư vào Pinecone PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Với sự thay đổi của các mô hình ngôn ngữ lớn (LLM), chúng ta đang chứng kiến ​​sự thay đổi mô hình trong phát triển phần mềm và toàn bộ ngành điện toán. AI đang diễn ra và một ngăn xếp mới đang hình thành trước mắt chúng ta. Nó giống như Internet hoạt động trở lại, yêu cầu phục vụ các thành phần cơ sở hạ tầng mới được xây dựng cho cách thức hoạt động mới.

Ngày càng có nhiều sự công nhận rằng các LLM thực sự là một dạng máy tính mới, theo một nghĩa nào đó. Chúng có thể chạy các “chương trình” được viết bằng ngôn ngữ tự nhiên (ví dụ: lời nhắc), thực thi các tác vụ tính toán tùy ý (ví dụ: viết mã Python hoặc tìm kiếm trên Google) và trả lại kết quả cho người dùng ở dạng con người có thể đọc được. Đây là một vấn đề lớn, vì hai lý do: 

  1. Một lớp ứng dụng mới xoay quanh nội dung tóm tắt và tổng quát hiện có thể dẫn đến thay đổi hành vi của người tiêu dùng xung quanh việc tiêu thụ phần mềm.
  2. Một lớp nhà phát triển mới hiện có thể viết phần mềm. Lập trình máy tính hiện nay chỉ yêu cầu thông thạo tiếng Anh (hoặc ngôn ngữ khác của con người), không cần đào tạo ngôn ngữ lập trình truyền thống như Python hay JavaScript. 

Một trong những ưu tiên hàng đầu của chúng tôi tại Andreessen Horowitz là xác định các công ty xây dựng các thành phần chính của ngăn xếp AI mới này. Chúng tôi vui mừng thông báo rằng chúng tôi đang dẫn đầu vòng Series B trị giá 100 triệu đô la trong trái tùng, để hỗ trợ tầm nhìn của họ về việc trở thành lớp bộ nhớ cho các ứng dụng AI.

Vấn đề: LLM ảo giác và không quốc tịch

Một thách thức rất lớn với các LLM hiện nay là ảo giác. Họ đưa ra những câu trả lời rất tự tin nhưng đôi khi không đúng về mặt logic và thực tế. Ví dụ: hỏi một LLM về tỷ suất lợi nhuận gộp của Apple trong quý trước có thể dẫn đến câu trả lời chắc chắn là 63 tỷ đô la. Mô hình thậm chí có thể sao lưu câu trả lời của nó bằng cách giải thích rằng bằng cách trừ 25 tỷ đô la chi phí hàng hóa từ 95 tỷ đô la doanh thu, bạn sẽ có được tỷ suất lợi nhuận gộp là 63 tỷ đô la. Tất nhiên, nó sai ở một số khía cạnh:

  • Đầu tiên, số doanh thu bị sai vì LLM không có dữ liệu thời gian thực. Nó đang xử lý dữ liệu đào tạo cũ đã có từ nhiều tháng hoặc có thể là nhiều năm.
  • Thứ hai, nó chọn ngẫu nhiên các con số doanh thu và giá vốn từ báo cáo tài chính của một công ty trái cây khác.
  • Thứ ba, tính toán tỷ suất lợi nhuận gộp của nó không chính xác về mặt toán học.

Hãy tưởng tượng đưa ra câu trả lời đó cho Giám đốc điều hành của một Vận may 500 đại đội. 

Tất cả những điều đó xảy ra bởi vì, vào cuối ngày, LLM là những cỗ máy dự đoán được đào tạo trên một lượng lớn dữ liệu internet của bên thứ ba. Thông thường, thông tin người dùng cần đơn giản là không có trong tập huấn luyện. Vì vậy, mô hình sẽ đưa ra các câu trả lời có thể xảy ra nhất và được định dạng tốt về mặt ngôn ngữ dựa trên dữ liệu đào tạo cũ của nó. Chúng ta đã có thể bắt đầu thấy một giải pháp tiềm năng cho vấn đề trên — cung cấp dữ liệu doanh nghiệp tư nhân có liên quan theo ngữ cảnh theo thời gian thực cho các LLM.

Hình thức chung của vấn đề này là, từ góc độ hệ thống, LLM và hầu hết các mô hình AI khác đều không trạng thái ở bước suy luận. Mỗi khi bạn gọi API GPT-4, đầu ra sẽ phụ thuộc vào có thể trên dữ liệu và thông số bạn gửi trong tải trọng. Mô hình không có cách tích hợp sẵn để kết hợp dữ liệu theo ngữ cảnh hoặc ghi nhớ những gì bạn đã hỏi trước đó. Có thể tinh chỉnh mô hình, nhưng nó đắt tiền và tương đối không linh hoạt (nghĩa là mô hình không thể phản hồi dữ liệu mới trong thời gian thực). Vì các mô hình không tự quản lý trạng thái hoặc bộ nhớ, nên các nhà phát triển phải lấp đầy khoảng trống. 

Giải pháp: Cơ sở dữ liệu vectơ là lớp lưu trữ cho LLM

Đây là nơi Pinecone xuất hiện.

Pinecone là một cơ sở dữ liệu bên ngoài, nơi các nhà phát triển có thể lưu trữ dữ liệu theo ngữ cảnh có liên quan cho các ứng dụng LLM. Thay vì gửi đi gửi lại các bộ sưu tập tài liệu lớn với mỗi lệnh gọi API, các nhà phát triển có thể lưu trữ chúng trong cơ sở dữ liệu Pinecone, sau đó chỉ chọn một số ít phù hợp nhất với bất kỳ truy vấn cụ thể nào — một phương pháp được gọi là học theo ngữ cảnh. Đó là điều bắt buộc để các trường hợp sử dụng của doanh nghiệp thực sự nở rộ.

Đặc biệt, Pinecone là một vector cơ sở dữ liệu, có nghĩa là dữ liệu được lưu trữ dưới dạng có ý nghĩa về mặt ngữ nghĩa nhúng. Mặc dù giải thích kỹ thuật về nhúng nằm ngoài phạm vi của bài đăng này, nhưng phần quan trọng cần hiểu là LLM cũng hoạt động trên các nhúng vectơ - vì vậy bằng cách lưu trữ dữ liệu trong Pinecone ở định dạng này, một phần công việc của AI đã được xử lý trước một cách hiệu quả và giảm tải vào cơ sở dữ liệu.

Không giống như các cơ sở dữ liệu hiện có, được thiết kế cho khối lượng công việc phân tích toàn diện hoặc giao dịch nguyên tử, cơ sở dữ liệu vectơ (Picone) được thiết kế để tìm kiếm lân cận gần đúng nhất quán, mô hình cơ sở dữ liệu phù hợp cho các vectơ chiều cao hơn. Họ cũng cung cấp API dành cho nhà phát triển tích hợp với các thành phần chính khác của ứng dụng AI, chẳng hạn như OpenAI, Cohere, LangChain, v.v. Một thiết kế được cân nhắc kỹ lưỡng như vậy giúp cuộc sống của các nhà phát triển dễ dàng hơn nhiều. Các tác vụ AI đơn giản như tìm kiếm ngữ nghĩa, đề xuất sản phẩm hoặc xếp hạng nguồn cấp dữ liệu cũng có thể được mô hình hóa trực tiếp dưới dạng các bài toán tìm kiếm vectơ và chạy trên cơ sở dữ liệu vectơ mà không cần bước suy luận mô hình cuối cùng — một cái gì đó cơ sở dữ liệu hiện có không thể làm được.

Pinecone là tiêu chuẩn mới nổi để quản lý dữ liệu doanh nghiệp theo ngữ cảnh và trạng thái trong các ứng dụng LLM. Chúng tôi nghĩ rằng đó là một thành phần cơ sở hạ tầng quan trọng, cung cấp lớp lưu trữ hoặc “bộ nhớ” cho ngăn xếp ứng dụng AI hoàn toàn mới.

Tiến bộ đáng kinh ngạc cho Pinecone cho đến nay

Pinecone không phải là cơ sở dữ liệu vectơ duy nhất, nhưng chúng tôi tin rằng đây là cơ sở dữ liệu vectơ hàng đầu — hiện đã sẵn sàng để áp dụng trong thế giới thực — với một biên độ đáng kể. Pinecone đã chứng kiến ​​sự tăng trưởng gấp 8 lần về số lượng khách hàng trả phí (khoảng 1,600) chỉ sau ba tháng, bao gồm cả các công ty công nghệ hướng tới tương lai như Shopify, Gong, Zapier, v.v. Nó được sử dụng trong nhiều ngành công nghiệp, bao gồm phần mềm doanh nghiệp, ứng dụng tiêu dùng, thương mại điện tử, fintech, bảo hiểm, truyền thông và AI/ML.

Chúng tôi cho rằng thành công này không chỉ nhờ vào sự hiểu biết sâu sắc của nhóm về người dùng, thị trường và công nghệ, mà còn — về mặt phê bình — đối với cách tiếp cận sản phẩm dựa trên nền tảng đám mây của họ ngay từ đầu. Một trong những phần khó nhất khi xây dựng dịch vụ này là cung cấp phần phụ trợ đám mây đáng tin cậy, có tính sẵn sàng cao, đáp ứng nhiều mục tiêu về hiệu suất của khách hàng và SLA. Với nhiều lần lặp lại kiến ​​trúc sản phẩm và quản lý nhiều khách hàng trả tiền, quy mô lớn trong quá trình sản xuất, nhóm này đã thể hiện sự xuất sắc trong hoạt động mà cơ sở dữ liệu sản xuất mong đợi.

trái tùng được thành lập bởi Edo Liberty, người đã có một thời gian dài ủng hộ hết mình cho tầm quan trọng của cơ sở dữ liệu vectơ trong học máy, bao gồm cả cách chúng có thể cho phép mọi doanh nghiệp xây dựng các trường hợp sử dụng trên LLM. Là một nhà toán học ứng dụng, ông đã dành cả sự nghiệp của mình để nghiên cứu và triển khai các thuật toán tìm kiếm véc tơ tiên tiến. Đồng thời, anh ấy là một người theo chủ nghĩa thực dụng, xây dựng các công cụ ML cốt lõi như Sagemaker tại AWS và biến nghiên cứu ML ứng dụng thành các sản phẩm thực tế mà khách hàng có thể sử dụng. Thật hiếm khi thấy sự kết hợp giữa nghiên cứu sâu và tư duy sản phẩm thực dụng như vậy.

Edo có sự tham gia của Bob Wiederhold, một CEO và nhà điều hành giàu kinh nghiệm (trước đây của Couchbase), với tư cách là một đối tác về phía hoạt động với tư cách là Chủ tịch và COO. Pinecone cũng có một đội ngũ giám đốc điều hành và kỹ sư tuyệt vời với chuyên môn sâu về hệ thống đám mây từ những nơi như AWS, Google và Databricks. Chúng tôi rất ấn tượng với chuyên môn sâu về kỹ thuật của nhóm, tập trung vào trải nghiệm của nhà phát triển và thực thi GTM hiệu quả, đồng thời chúng tôi rất vinh dự được hợp tác với họ để xây dựng lớp bộ nhớ cho các ứng dụng AI.

* * *

Các quan điểm được trình bày ở đây là quan điểm của từng nhân viên AH Capital Management, LLC (“a16z”) được trích dẫn và không phải là quan điểm của a16z hoặc các chi nhánh của nó. Một số thông tin trong đây đã được lấy từ các nguồn của bên thứ ba, bao gồm từ các công ty danh mục đầu tư của các quỹ do a16z quản lý. Mặc dù được lấy từ các nguồn được cho là đáng tin cậy, a16z đã không xác minh độc lập thông tin đó và không đưa ra tuyên bố nào về tính chính xác lâu dài của thông tin hoặc tính thích hợp của nó đối với một tình huống nhất định. Ngoài ra, nội dung này có thể bao gồm các quảng cáo của bên thứ ba; a16z đã không xem xét các quảng cáo đó và không xác nhận bất kỳ nội dung quảng cáo nào có trong đó.

Nội dung này chỉ được cung cấp cho mục đích thông tin và không được dựa vào như lời khuyên về pháp lý, kinh doanh, đầu tư hoặc thuế. Bạn nên tham khảo ý kiến ​​của các cố vấn của riêng mình về những vấn đề đó. Các tham chiếu đến bất kỳ chứng khoán hoặc tài sản kỹ thuật số nào chỉ dành cho mục đích minh họa và không cấu thành khuyến nghị đầu tư hoặc đề nghị cung cấp dịch vụ tư vấn đầu tư. Hơn nữa, nội dung này không hướng đến cũng như không nhằm mục đích sử dụng cho bất kỳ nhà đầu tư hoặc nhà đầu tư tiềm năng nào và không được dựa vào bất kỳ trường hợp nào khi đưa ra quyết định đầu tư vào bất kỳ quỹ nào do a16z quản lý. (Đề nghị đầu tư vào quỹ a16z sẽ chỉ được thực hiện bởi bản ghi nhớ phát hành riêng lẻ, thỏa thuận đăng ký và các tài liệu liên quan khác về bất kỳ quỹ nào như vậy và phải được đọc toàn bộ.) Bất kỳ khoản đầu tư hoặc công ty danh mục đầu tư nào được đề cập, đề cập đến, hoặc được mô tả không phải là đại diện cho tất cả các khoản đầu tư vào xe do a16z quản lý và không thể đảm bảo rằng các khoản đầu tư sẽ sinh lời hoặc các khoản đầu tư khác được thực hiện trong tương lai sẽ có các đặc điểm hoặc kết quả tương tự. Danh sách các khoản đầu tư được thực hiện bởi các quỹ do Andreessen Horowitz quản lý (không bao gồm các khoản đầu tư mà tổ chức phát hành không cho phép a16z tiết lộ công khai cũng như các khoản đầu tư không thông báo vào tài sản kỹ thuật số được giao dịch công khai) có tại https://a16z.com/investments /.

Các biểu đồ và đồ thị được cung cấp bên trong chỉ nhằm mục đích cung cấp thông tin và không nên dựa vào khi đưa ra bất kỳ quyết định đầu tư nào. Hiệu suất trong quá khứ không cho thấy kết quả trong tương lai. Nội dung chỉ nói kể từ ngày được chỉ định. Mọi dự đoán, ước tính, dự báo, mục tiêu, triển vọng và / hoặc ý kiến ​​thể hiện trong các tài liệu này có thể thay đổi mà không cần báo trước và có thể khác hoặc trái ngược với ý kiến ​​của người khác. Vui lòng xem https://a16z.com/disclosures để biết thêm thông tin quan trọng.

Dấu thời gian:

Thêm từ Andreessen Horowitz