BytePlus представила Seed Speech 2.0 — ИИ-платформу для генерации и распознавания речи

BytePlus (подразделение ByteDance) анонсировала Seed Speech 2.0 — голосовую AI-платформу, объединяющую синтез речи (TTS) и распознавание речи (ASR) в одном продукте. Компания делает ставку на единый стек для голосовых интерфейсов — от генерации озвучки до понимания живой речи.

Анонс продукта состоялся 16 марта. Платформа уже доступна разработчикам и корпоративным клиентам через API для интеграции в приложения, умные устройства и автоматизированные системы. Точные условия и тарифы пока не раскрываются. Подробности в материале Postium.

Читайте также: Нейросети для озвучки текста голосом

Seed Speech 2.0 — что это и что умеет делать

Seed Speech 2.0 — объединённая система из двух нейросетей: TTS 2.0 и ASR 2.0.

TTS 2.0 отвечает за генерацию речи. Модель учитывает не только текст, но и контекст, подбирая интонацию, паузы и ритм под сценарий. Голосом можно управлять через текстовые параметры: задавать эмоцию, стиль, темп, высоту и тембр.

ASR 2.0 отвечает за распознавание речи. Поддерживаются два режима: потоковое распознавание в реальном времени и обработка аудиофайлов. Система работает с 51 языком, умеет определять эмоцию говорящего и лучше учитывает контекст в диалоге.

Также заявлена мультимодальность: модель может учитывать не только аудио, но и визуальный контекст — изображения и видео — чтобы точнее интерпретировать речь.

Как пользоваться

Seed Speech 2.0 доступен через платформу BytePlus. Пользователь регистрируется в консоли, получает доступ к документации и подключается к API.

В документации описаны отдельные интерфейсы для TTS и ASR, включая streaming-режимы по WebSocket и обработку файлов. Сервис ориентирован на встраивание в продукты — ассистентов, медиасервисы, колл-центры и другие голосовые сценарии.

Почему это важно? BytePlus предлагает не набор разрозненных инструментов, а единую платформу для работы с голосом. Это упрощает разработку: вместо интеграции нескольких сервисов можно использовать один стек для генерации, распознавания и обработки речи.

Компания заявляет следующие показатели: около 90% точности при чтении сложных формул и символов, примерно +20% к распознаванию контекстных слов и до −50% ошибок в сценариях распознавания на расстоянии (far-field).

BytePlus продолжает расширять линейку моделей Seed. Компания продвигает Seedream 5.0 Lite для генерации изображений и ранее выпускала Seedance 2.0 для генерации видео. На этом фоне Seed Speech 2.0 выглядит как ещё один шаг к формированию набора прикладных AI-инструментов для бизнеса под брендом Seed.

Итог: BytePlus объединяет голосовой AI в единый продукт с API, однако заявленные преимущества пока подтверждаются только самой компанией.

Запись BytePlus представила Seed Speech 2.0 — ИИ-платформу для генерации и распознавания речи впервые появилась Postium.


Опубликовано

в

, , ,

от

Метки: