Sesame vs Voxabot

Comparing the features of Sesame to Voxabot

Feature

Sesame

Voxabot

Capability Features

Automatic Engine Updates

Consistent Personality

Context Awareness

Conversational Dynamics

Conversational Speech Generation

Dataset Size

1 million hours

Emotional Intelligence

Evaluation Suite

Export SSML

Model Sizes

Tiny: 1B backbone, 100M decoderSmall: 3B backbone, 250M decoderMedium: 8B backbone, 300M decoder

Multiple Speaker Handling

Objective Metrics

Word Error RateSpeaker SimilarityHomograph DisambiguationPronunciation Consistency

Partial Multilingual Support Planned

Planned for 20+ languages

Pronunciation Correction

Sequence Length

2048

Single-Stage Model

SSML Editor

SSML Support

Subjective Metrics

Comparative Mean Opinion Score

Supported Language List

150

Supported Voices

820

Text and Audio Input

TextAudio

Training Epochs

Unified API Login

User Data Privacy

Visual Edit Preview

Waveform Visualization

Integration Features

GitHub Release

LLama Architecture Backbone

Mimi Split-RVQ Tokenizer

SSML Download Format

text file

Text to Speech

GoogleAzureAWS

Limitation Features

Cannot Model Conversation Structure

English Language Dominance

Memory Bottleneck in Training

No Microsoft Azure Subscription Required

No Pre-trained Language Model Use

Real-Time Generation Delay

RVQ time-to-first-audio scales poorly

Pricing Features

Free Preview

Free Tier

Neural TTS Pricing Parity

No Royalties

Open Source

Apache 2.0

Pricing Plan Details