Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио

Google выпустила Gemini Embedding 2 — новую модель на базе архитектуры Gemini. Это не генеративная нейросеть и не чат-бот. Её задача — переводить данные разных типов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.

Модель работает с текстом, изображениями, видео, аудио и документами. Она переводит весь этот контент в единое embedding-пространство — набор числовых векторов, где близость объектов означает сходство их смысла.

Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI. Подробности — в материале Postium.

Читайте также: Как пользоваться нейросетью Gemini AI

Gemini Embedding 2 — что умеет и как работает

Embedding-модели используют для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сравнивать: если данные близки по смыслу, их embeddings располагаются рядом.

Gemini Embedding 2 делает это сразу для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в единое пространство смыслов.

Gemini Embedding 2 — что умеет и как работает

Это позволяет напрямую сопоставлять разные форматы. Например, искать изображения по текстовому запросу или находить фрагмент видео по его описанию.

Модель поддерживает более 100 языков и может принимать смешанные входные данные. В одном запросе можно передать несколько типов контента — например текст вместе с изображением.

Технические ограничения модели:

  • текст — до 8192 входных токенов
  • изображения — до 6 файлов PNG или JPEG в одном запросе
  • видео — до 120 секунд в формате MP4 или MOV
  • аудио — принимается напрямую, без обязательной транскрибации
  • документы — PDF до 6 страниц

Модель использует технику Matryoshka Representation Learning. Она позволяет уменьшать размер embedding-вектора без полного пересчёта представления. Базовый размер — 3072 измерения, но его можно уменьшать. Google рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и объёму хранения.

Как пользоваться

Gemini Embedding 2 доступна через модель gemini-embedding-2-preview в Gemini API и Vertex AI.

Разработчик отправляет в API данные — например текст, изображение или аудио. Модель возвращает embedding-вектор. Эти векторы обычно сохраняют в векторных базах данных и используют для поиска, кластеризации или систем Retrieval-Augmented Generation (RAG).

Модель уже поддерживается рядом инструментов для AI-разработки, включая LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Vector Search.

Почему это важно? Во многих системах данные хранятся в разных форматах — текст, изображения, видео или аудио. Для их обработки часто используют разные модели и сложные пайплайны: изображения индексируются отдельно, аудио сначала переводится в текст, а затем анализируется.

Gemini Embedding 2 объединяет эти задачи в одной модели. Она может индексировать и сопоставлять данные разных типов напрямую, что упрощает архитектуру систем поиска и анализа.

Компания Sparkonomy использует модель для индексации видеоконтента и заявляет о снижении задержки до 70% за счёт отказа от отдельных этапов обработки.

Embedding-модели применяют в семантическом поиске, рекомендациях, анализе данных и системах RAG. Они позволяют сравнивать информацию по смыслу, а не по точному совпадению слов.

Ранее Google предлагала embedding-модели в основном для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может работать одновременно с визуальными, аудио- и текстовыми данными.

Итог: Gemini Embedding 2 — модель, которая переводит текст, изображения, видео, аудио и документы в единое пространство смыслов, чтобы системы могли искать и сопоставлять разные типы данных.

Запись Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио впервые появилась Postium.


Опубликовано

в

, , , ,

от

Метки: