投资松果

投资松果

投资松果柏拉图区块链数据智能。 垂直搜索。 人工智能。

随着大语言模型 (LLM) 的发展,我们正在见证软件开发和整个计算行业的范式转变。 人工智能正在发生,一个新的堆栈正在我们眼前形成。 这就像互联网一样,它调用了为新的做事方式而构建的新基础设施组件.

人们越来越认识到法学硕士实际上是 一种新形式的计算机, 在某种意义上。 它们可以运行用自然语言(即提示)编写的“程序”,执行任意计算任务(例如,编写Python代码或搜索Google),并将结果以人类可读的形式返回给用户。 这是一件大事,原因有二: 

  1. 围绕摘要和生成内容的新型应用程序 现在有可能导致消费者围绕软件消费的行为发生变化。
  2. 现在,新一类开发人员能够编写软件。 计算机编程现在只需要掌握英语(或其他人类语言),而不需要接受 Python 或 JavaScript 等传统编程语言的培训。 

Andreessen Horowitz 的首要任务之一是确定构建这一新人工智能堆栈关键组件的公司。 我们很高兴地宣布,我们正在领投 100 亿美元的 B 轮融资 松球,以支持他们成为人工智能应用程序的内存层的愿景。

问题:法学硕士产生幻觉并且无国籍

当前法学硕士面临的一个巨大挑战是幻觉。 他们给出的答案非常自信,但事实上,有时甚至在逻辑上都是错误的。 例如,向法学硕士询问苹果公司上一季度的毛利率可能会得到 63 亿美元的自信答案。 该模型甚至可以通过解释从 25 亿美元的收入中减去 95 亿美元的商品成本,得到 63 亿美元的毛利率来支持其答案。 当然,它在几个维度上都是错误的:

  • 首先,收入数字是错误的,因为法学硕士没有实时数据。 它正在处理几个月甚至几年前的陈旧训练数据。
  • 其次,它从另一家水果公司的财务报表中随机提取了这些收入和商品成本数据。
  • 第三,其毛利率计算在数学上不正确。

想象一下将这个答案交给一家公司的首席执行官 运气 500强公司。 

所有这一切的发生都是因为,归根结底,法学硕士是经过大量第三方互联网数据训练的预测机器。 通常,用户需要的信息根本不在训练集中。 因此,该模型将根据其过时的训练数据给出最可能且语言格式良好的答案。 我们已经开始看到上述问题的潜在解决方案——向法学硕士实时提供上下文相关的私营企业数据。

这个问题的一般形式是,从系统角度来看,法学硕士和大多数其他人工智能模型在推理步骤是无状态的。 每次调用 GPT-4 API 时,输出取决于 仅由 关于您在有效负载中发送的数据和参数。 该模型没有内置方法来合并上下文数据或记住您之前询问过的内容。 模型微调是可能的,但其成本昂贵且相对不灵活(即模型无法实时响应新数据)。 由于模型本身不管理状态或内存,因此需要开发人员来填补这一空白。 

解决方案:矢量数据库是法学硕士的存储层

这就是松果的用武之地。

Pinecone 是一个外部数据库,开发人员可以在其中存储 LLM 应用程序的相关上下文数据。 开发人员可以将大型文档集合存储在 Pinecone 数据库中,然后只选择与任何给定查询最相关的几个,而不是在每次 API 调用时来回发送大型文档集合,这种方法称为上下文学习。 它是企业用例真正蓬勃发展的必备条件。

特别是,松果是 向量 数据库,意味着数据以语义上有意义的形式存储 嵌入。 虽然嵌入的技术解释超出了本文的范围,但需要理解的重要部分是法学硕士也对向量嵌入进行操作 - 因此通过以这种格式将数据存储在 Pinecone 中,部分人工智能工作已被有效地进行了预处理和卸载到数据库。

与专为原子事务或详尽分析工作负载而设计的现有数据库不同,(Pinecone)矢量数据库专为最终一致的近似邻居搜索而设计,这是高维矢量的正确数据库范例。 他们还提供与AI应用程序其他关键组件集成的开发者API,例如OpenAI、Cohere、LangChain等。这种深思熟虑的设计让开发者的生活变得更加轻松。 语义搜索、产品推荐或提要排名等简单的人工智能任务也可以直接建模为向量搜索问题,并在向量数据库上运行,而无需最终的模型推理步骤 - 现有数据库无法做到的事情。

Pinecone 是管理 LLM 应用程序中的状态和上下文企业数据的新兴标准。 我们认为它是一个重要的基础设施组件,为全新的人工智能应用程序堆栈提供存储或“内存”层。

迄今为止,松果取得了令人难以置信的进展

Pinecone 不是唯一的矢量数据库,但我们相信它是领先的矢量数据库 - 现在已准备好在现实世界中采用 - 遥遥领先。 Pinecone 的付费客户在短短三个月内增长了 8 倍(约 1,600 名),其中包括 Shopify、Gong、Zapier 等具有前瞻性的科技公司。 它广泛用于各个行业,包括企业软件、消费者应用程序、电子商务、金融科技、保险、媒体和人工智能/机器学习。

我们将这一成功不仅归功于团队对用户、市场和技术的深刻理解,更重要的是,归功于他们从一开始就采用的云原生产品方法。 构建此服务最困难的部分之一是提供可靠、高度可用的云后端,以满足广泛的客户性能目标和 SLA。 通过对产品架构进行多次迭代,并在生产中管理许多大规模付费客户,该团队表现出了生产数据库所期望的卓越运营能力。

松球 由 Edo Liberty 创立,他长期以来一直是矢量数据库在机器学习中的重要性的坚定倡导者,包括它们如何使每个企业能够在法学硕士之上构建用例。 作为一名应用数学家,他的职业生涯致力于研究和实现尖端的向量搜索算法。 同时,他是一位实用主义者,在 AWS 构建 Sagemaker 等核心 ML 工具,并将应用 ML 研究转化为客户可以使用的实用产品。 如此深入的研究和务实的产品思维的结合是很少见的。

经验丰富的首席执行官兼运营商(前 Couchbase)Bob Wiederhold 加入 Edo,担任运营方面的合伙人,担任总裁兼首席运营官。 Pinecone 还拥有一支出色的高管和工程师团队,他们拥有来自 AWS、Google 和 Databricks 等公司的深厚云系统专业知识。 该团队深厚的工程专业知识、注重开发人员体验和高效的 GTM 执行给我们留下了深刻的印象,我们很荣幸与他们合作,为 AI 应用程序构建内存层。

* * *

此处表达的观点是引用的个人 AH Capital Management, LLC (“a16z”) 人员的观点,而不是 a16z 或其关联公司的观点。 此处包含的某些信息是从第三方来源获得的,包括来自 a16z 管理的基金的投资组合公司。 虽然取自被认为可靠的来源,但 a16z 并未独立验证此类信息,也不对信息的持久准确性或其对特定情况的适用性做出任何陈述。 此外,该内容可能包含第三方广告; a16z 未审查此类广告,也不认可其中包含的任何广告内容。

此内容仅供参考,不应被视为法律、商业、投资或税务建议。 您应该就这些事项咨询您自己的顾问。 对任何证券或数字资产的引用仅用于说明目的,并不构成投资建议或提供投资咨询服务的要约。 此外,本内容并非针对也不打算供任何投资者或潜在投资者使用,并且在任何情况下都不得在决定投资于 a16z 管理的任何基金时作为依据。 (投资 a16z 基金的要约仅通过私募备忘录、认购协议和任何此类基金的其他相关文件提出,并应完整阅读。)任何提及、提及或提及的投资或投资组合公司所描述的并不代表对 a16z 管理的车辆的所有投资,并且不能保证这些投资将是有利可图的,或者将来进行的其他投资将具有类似的特征或结果。 由 Andreessen Horowitz 管理的基金进行的投资清单(不包括发行人未允许 a16z 公开披露的投资以及对公开交易的数字资产的未宣布投资)可在 https://a16z.com/investments 获得/。

其中提供的图表仅供参考,在做出任何投资决定时不应依赖。 过去的表现并不预示未来的结果。 内容仅在所示日期生效。 这些材料中表达的任何预测、估计、预测、目标、前景和/或意见如有更改,恕不另行通知,并且可能与他人表达的意见不同或相反。 有关其他重要信息,请参阅 https://a16z.com/disclosures。

时间戳记:

更多来自 安德森霍洛维茨