Sesame vs SonicCloud

Comparing the features of Sesame to SonicCloud

Feature

Sesame

SonicCloud

Capability Features

Address Hearing Challenges

Difficulty following conversationsFatigue in calls or video meetingsDifficulty hearing music and videos

Audiologist-Developed Solution

Consistent Personality

Context Awareness

Conversational Dynamics

Conversational Speech Generation

Dataset Size

1 million hours

Digital Solution

Emotional Intelligence

Enhances Streaming

Enhances Video Calls

Evaluation Suite

Hearing Test Feature

Model Sizes

Tiny: 1B backbone, 100M decoderSmall: 3B backbone, 250M decoderMedium: 8B backbone, 300M decoder

Multiple Speaker Handling

Objective Metrics

Word Error RateSpeaker SimilarityHomograph DisambiguationPronunciation Consistency

Partial Multilingual Support Planned

Planned for 20+ languages

Personalized Hearing Adjustment

Pronunciation Correction

Sequence Length

2048

Single-Stage Model

Subjective Metrics

Comparative Mean Opinion Score

Text and Audio Input

TextAudio

Training Epochs

Integration Features

GitHub Release

LLama Architecture Backbone

Mimi Split-RVQ Tokenizer

Limitation Features

Cannot Model Conversation Structure

English Language Dominance

Memory Bottleneck in Training

No Integration Details

No Mention of File Format Support

No Pre-trained Language Model Use

No Pricing Plans Listed

Real-Time Generation Delay

RVQ time-to-first-audio scales poorly

Other Features

Recognition: Amazon Alexa Voice First Winner

Recognition: Apple Editorial Board App of the Day

Recognition: World Changing Idea Finalist

Trusted by Audiologists

Used in Organizations

Pricing Features

Free Preview

Free Trial

30-days

Open Source

Apache 2.0