BytePlus (подразделение ByteDance) анонсировала Seed Speech 2.0 — голосовую AI-платформу, объединяющую синтез речи (TTS) и распознавание речи (ASR) в одном продукте. Компания делает ставку на единый стек для голосовых интерфейсов — от генерации озвучки до понимания живой речи.
Анонс продукта состоялся 16 марта. Платформа уже доступна разработчикам и корпоративным клиентам через API для интеграции в приложения, умные устройства и автоматизированные системы. Точные условия и тарифы пока не раскрываются. Подробности в материале Postium.
Читайте также: Нейросети для озвучки текста голосом
Seed Speech 2.0 — что это и что умеет делать
Seed Speech 2.0 — объединённая система из двух нейросетей: TTS 2.0 и ASR 2.0.
TTS 2.0 отвечает за генерацию речи. Модель учитывает не только текст, но и контекст, подбирая интонацию, паузы и ритм под сценарий. Голосом можно управлять через текстовые параметры: задавать эмоцию, стиль, темп, высоту и тембр.
ASR 2.0 отвечает за распознавание речи. Поддерживаются два режима: потоковое распознавание в реальном времени и обработка аудиофайлов. Система работает с 51 языком, умеет определять эмоцию говорящего и лучше учитывает контекст в диалоге.
Также заявлена мультимодальность: модель может учитывать не только аудио, но и визуальный контекст — изображения и видео — чтобы точнее интерпретировать речь.
Как пользоваться
Seed Speech 2.0 доступен через платформу BytePlus. Пользователь регистрируется в консоли, получает доступ к документации и подключается к API.
В документации описаны отдельные интерфейсы для TTS и ASR, включая streaming-режимы по WebSocket и обработку файлов. Сервис ориентирован на встраивание в продукты — ассистентов, медиасервисы, колл-центры и другие голосовые сценарии.
Почему это важно? BytePlus предлагает не набор разрозненных инструментов, а единую платформу для работы с голосом. Это упрощает разработку: вместо интеграции нескольких сервисов можно использовать один стек для генерации, распознавания и обработки речи.
Компания заявляет следующие показатели: около 90% точности при чтении сложных формул и символов, примерно +20% к распознаванию контекстных слов и до −50% ошибок в сценариях распознавания на расстоянии (far-field).
BytePlus продолжает расширять линейку моделей Seed. Компания продвигает Seedream 5.0 Lite для генерации изображений и ранее выпускала Seedance 2.0 для генерации видео. На этом фоне Seed Speech 2.0 выглядит как ещё один шаг к формированию набора прикладных AI-инструментов для бизнеса под брендом Seed.
Итог: BytePlus объединяет голосовой AI в единый продукт с API, однако заявленные преимущества пока подтверждаются только самой компанией.
Запись BytePlus представила Seed Speech 2.0 — ИИ-платформу для генерации и распознавания речи впервые появилась Postium.