OpenAI Whisper Transcription vs Sesame

Comparing the features of OpenAI Whisper Transcription to Sesame

Feature

OpenAI Whisper Transcription

Sesame

Capability Features

Audio Transcription

Audio Upload

Browser-Based Partitioning

Consistent Personality

Context Awareness

Conversational Dynamics

Conversational Speech Generation

Dataset Size

1 million hours

Demo Mode

Emotional Intelligence

Evaluation Suite

Model Sizes

Tiny: 1B backbone, 100M decoderSmall: 3B backbone, 250M decoderMedium: 8B backbone, 300M decoder

Multiple Speaker Handling

Objective Metrics

Word Error RateSpeaker SimilarityHomograph DisambiguationPronunciation Consistency

One-Click Transcription

Partial Multilingual Support Planned

Planned for 20+ languages

Pronunciation Correction

Sequence Length

2048

Single-Stage Model

Subjective Metrics

Comparative Mean Opinion Score

Text and Audio Input

TextAudio

Training Epochs

Integration Features

GitHub Release

LLama Architecture Backbone

Mimi Split-RVQ Tokenizer

OpenAI Whisper Integration

Supported Audio Types

mp3mp4mpegmpgam4awavwebm

Limitation Features

Cannot Model Conversation Structure

English Language Dominance

Memory Bottleneck in Training

No Built-in Whisper

No Mention of Price Plans

No Pre-trained Language Model Use

Real-Time Generation Delay

RVQ time-to-first-audio scales poorly

Requires OpenAI API Key

Pricing Features

Free Preview

Free Trial/Demo

Open Source

Apache 2.0