Инвестиции в сосновую шишку

Инвестиции в сосновую шишку

Инвестирование в разведку данных PlatoBlockchain Pinecone. Вертикальный поиск. Ай.

С изменением больших языковых моделей (LLM) мы наблюдаем сдвиг парадигмы в разработке программного обеспечения и компьютерной индустрии в целом. ИИ происходит, и на наших глазах формируется новый стек. Это похоже на Интернет снова и снова, который призывает к использованию новые компоненты инфраструктуры, созданные для нового способа ведения дел..

Растет признание того, что LLM на самом деле новая форма компьютера, в каком-то смысле. Они могут запускать «программы», написанные на естественном языке (т. е. подсказки), выполнять произвольные вычислительные задачи (например, написание кода на Python или поиск в Google) и возвращать результаты пользователю в удобочитаемой форме. Это большое дело по двум причинам: 

  1. Новый класс приложений для обобщения и создания контента теперь возможно, что приведет к изменению поведения потребителей в отношении потребления программного обеспечения.
  2. Новый класс разработчиков теперь может писать программы. Компьютерное программирование теперь требует только владения английским (или другим человеческим языком), а не изучением традиционных языков программирования, таких как Python или JavaScript. 

Одним из наших главных приоритетов в Andreessen Horowitz является выявление компаний, создающих ключевые компоненты этого нового стека ИИ. Мы рады сообщить, что лидируем в раунде серии B на сумму 100 миллионов долларов. сосновая шишка, чтобы поддержать их видение стать уровнем памяти для приложений ИИ.

Проблема: LLM галлюцинируют и не имеют гражданства

Огромной проблемой современных LLM являются галлюцинации. Они дают очень уверенные ответы, которые фактически, а иногда и логически неверны. Например, запросив у LLM валовую прибыль Apple за последний квартал, можно получить уверенный ответ в размере 63 миллиардов долларов. Модель может даже подтвердить свой ответ, объяснив, что, вычитая 25 миллиардов долларов стоимости товаров из 95 миллиардов долларов дохода, вы получаете валовую прибыль в 63 миллиарда долларов. Конечно, это неправильно по нескольким параметрам:

  • Во-первых, число доходов неверно, так как LLM не имеет данных в реальном времени. Он отрабатывает устаревшие обучающие данные, которым месяцы или, возможно, годы.
  • Во-вторых, она случайным образом взяла эти цифры выручки и стоимости товаров из финансовой отчетности другой фруктовой компании.
  • В-третьих, его расчет валовой прибыли неверен математически.

Представьте, что вы даете этот ответ генеральному директору Fortune 500 компания. 

Все это происходит потому, что, в конце концов, LLM — это прогностические машины, обученные на огромном количестве сторонних интернет-данных. Зачастую нужной пользователю информации просто нет в обучающей выборке. Таким образом, модель будет давать наиболее вероятные и лингвистически правильно оформленные ответы на основе устаревших обучающих данных. Мы уже можем видеть потенциальное решение вышеупомянутой проблемы — предоставление контекстуально релевантных данных частного предприятия в режиме реального времени для LLM.

Общая форма этой проблемы заключается в том, что с системной точки зрения LLM и большинство других моделей ИИ не имеют состояния на этапе вывода. Каждый раз, когда вы вызываете API GPT-4, вывод зависит только на данные и параметры, которые вы отправляете в полезной нагрузке. Модель не имеет встроенного способа включения контекстных данных или запоминания того, что вы спрашивали ранее. Возможна тонкая настройка модели, но это дорого и относительно негибко (т. е. модель не может реагировать на новые данные в режиме реального времени). Поскольку модели не управляют состоянием или памятью сами по себе, разработчики должны заполнить этот пробел. 

Решение: векторные базы данных — это уровень хранения для LLM.

Вот тут и появляется Сосновая шишка.

Pinecone — это внешняя база данных, в которой разработчики могут хранить соответствующие контекстные данные для приложений LLM. Вместо того, чтобы отправлять большие коллекции документов туда и обратно при каждом вызове API, разработчики могут хранить их в базе данных Pinecone, а затем выбирать только несколько наиболее релевантных для любого заданного запроса — подход, называемый обучением в контексте. Это необходимо для того, чтобы корпоративные варианты использования действительно расцвели.

В частности, сосновая шишка вектор базе данных, что означает, что данные хранятся в виде семантически значимых вложения. Хотя техническое объяснение вложений выходит за рамки этого поста, важно понять, что LLM также работают с векторными вложениями — поэтому, сохраняя данные в Pinecone в этом формате, часть работы ИИ эффективно предварительно обрабатывается и выгружается в базу данных.

В отличие от существующих баз данных, которые предназначены для атомарных транзакционных или исчерпывающих аналитических рабочих нагрузок, векторная база данных (Pinecone) предназначена для последовательного приближенного поиска соседей, что является правильной парадигмой базы данных для многомерных векторов. Они также предоставляют API-интерфейсы для разработчиков, интегрирующиеся с другими ключевыми компонентами приложений ИИ, такими как OpenAI, Cohere, LangChain и т. д. Такой продуманный дизайн значительно облегчает жизнь разработчикам. Простые задачи искусственного интеллекта, такие как семантический поиск, рекомендации продуктов или ранжирование каналов, также могут быть смоделированы непосредственно как задачи векторного поиска и запущены в векторной базе данных без окончательного шага вывода модели. то, что существующие базы данных не могут сделать.

Pinecone — это развивающийся стандарт управления данными о состоянии и контекстом предприятия в приложениях LLM. Мы считаем, что это важный компонент инфраструктуры, обеспечивающий уровень хранения или «памяти» для совершенно нового стека приложений ИИ.

Невероятный прогресс для Pinecone на сегодняшний день

Pinecone — не единственная база данных векторов, но мы считаем, что это ведущая база данных векторов, готовая к внедрению в реальном мире — со значительным отрывом. Всего за три месяца количество платных клиентов Pinecone увеличилось в 8 раз (примерно 1,600), включая перспективные технологические компании, такие как Shopify, Gong, Zapier и другие. Он используется в самых разных отраслях, включая корпоративное программное обеспечение, потребительские приложения, электронную коммерцию, финтех, страхование, средства массовой информации и AI/ML.

Мы приписываем этот успех не только глубокому пониманию командой пользователей, рынка и технологий, но и — что особенно важно — их подходу к облачным продуктам с самого начала. Одной из самых сложных частей создания этой службы является предоставление надежной, высокодоступной облачной серверной части, которая соответствует широкому диапазону целевых показателей производительности и SLA. Проведя несколько итераций по архитектуре продукта и управляя многими крупными платными клиентами в производственной среде, эта команда продемонстрировала операционное превосходство, ожидаемое от производственной базы данных.

сосновая шишка была основана Эдо Либерти, который долгое время был стойким сторонником важности векторных баз данных в машинном обучении, в том числе того, как они могут позволить каждому предприятию создавать варианты использования поверх LLM. Будучи прикладным математиком, он посвятил свою карьеру изучению и внедрению передовых алгоритмов векторного поиска. В то же время он был прагматиком, разрабатывая основные инструменты машинного обучения, такие как Sagemaker в AWS, и преобразовывая прикладные исследования машинного обучения в практические продукты, которые могут использовать клиенты. Редко можно увидеть такое сочетание глубоких исследований и прагматичного мышления о продукте.

К Эдо присоединился Боб Видерхолд, опытный генеральный директор и оператор (ранее работавший в Couchbase), в качестве партнера по операциям в качестве президента и главного операционного директора. У Pinecone также есть фантастическая команда руководителей и инженеров с глубоким опытом работы с облачными системами из таких мест, как AWS, Google и Databricks. Мы впечатлены глубоким инженерным опытом команды, сосредоточением внимания на опыте разработчиков и эффективным выполнением GTM, и для нас большая честь сотрудничать с ними для создания уровня памяти для приложений ИИ.

* * *

Мнения, выраженные здесь, принадлежат отдельным цитируемым сотрудникам AH Capital Management, LLC («a16z») и не являются мнением a16z или ее аффилированных лиц. Определенная информация, содержащаяся здесь, была получена из сторонних источников, в том числе от портфельных компаний фондов, управляемых a16z. Хотя информация взята из источников, считающихся надежными, a16z не проводила независимую проверку такой информации и не делает никаких заявлений о неизменной точности информации или ее уместности в данной ситуации. Кроме того, этот контент может включать стороннюю рекламу; a16z не просматривал такие рекламные объявления и не поддерживает какой-либо рекламный контент, содержащийся в них.

Этот контент предоставляется только в информационных целях и не может рассматриваться как юридическая, деловая, инвестиционная или налоговая консультация. Вы должны проконсультироваться со своими советниками по этим вопросам. Ссылки на любые ценные бумаги или цифровые активы предназначены только для иллюстративных целей и не представляют собой инвестиционную рекомендацию или предложение предоставить консультационные услуги по инвестициям. Кроме того, этот контент не предназначен и не предназначен для использования какими-либо инвесторами или потенциальными инвесторами, и ни при каких обстоятельствах на него нельзя полагаться при принятии решения об инвестировании в какой-либо фонд, управляемый a16z. (Предложение инвестировать в фонд a16z будет сделано только в меморандуме о частном размещении, договоре о подписке и другой соответствующей документации любого такого фонда, и их следует читать полностью.) Любые инвестиции или портфельные компании, упомянутые, упомянутые или описанные не являются репрезентативными для всех инвестиций в транспортные средства, управляемые a16z, и нет никаких гарантий, что инвестиции будут прибыльными или что другие инвестиции, сделанные в будущем, будут иметь аналогичные характеристики или результаты. Список инвестиций, сделанных фондами, управляемыми Andreessen Horowitz (за исключением инвестиций, в отношении которых эмитент не предоставил разрешение на публичное раскрытие информации a16z, а также необъявленных инвестиций в публично торгуемые цифровые активы), доступен по адресу https://a16z.com/investments. /.

Диаграммы и графики, представленные в нем, предназначены исключительно для информационных целей, и на них не следует полагаться при принятии каких-либо инвестиционных решений. Прошлые показатели не свидетельствуют о будущих результатах. Содержание говорит только по состоянию на указанную дату. Любые прогнозы, оценки, прогнозы, цели, перспективы и/или мнения, выраженные в этих материалах, могут быть изменены без предварительного уведомления и могут отличаться или противоречить мнениям, выраженным другими. Пожалуйста, посетите https://a16z.com/disclosures для получения дополнительной важной информации.

Отметка времени:

Больше от Andreessen Horowitz