Cartesia
Cartesia
상태공간 모델 기반의 실시간 음성 에이전트 TTS로, Sonic 3가 약 40~90ms의 첫 음성 지연과 3초 보이스 클로닝을 제공합니다.
아래 공개 출처를 근거로 한 2026. 6. 4. 기준 편집부 평가입니다.
음성 / TTS 부문 순위
#2
등급
A
점수
84.0
내부 사용 모델
—
강점
- 40~90ms 수준의 업계 최저 수준 첫 음성 지연으로 라이브 음성 에이전트에 적합합니다
- 무료 플랜과 $4/월(연 결제) 수준의 Pro로 개발자가 가볍게 시작할 수 있습니다
- 3초 정도의 참조 음성만으로 즉시 보이스 클로닝이 가능합니다
유의점
- 주요 상용 언어 외 다국어 커버리지는 경쟁사보다 좁은 편입니다
- 즉시 쓸 수 있는 에이전트 페르소나·기성 보이스 폭은 ElevenLabs보다 좁습니다
- Startup($39/월)·Scale($239/월) 등 상위 요금제는 비용 상승이 빠른 편입니다
가격
무료 플랜 제공, Pro $4/월(연 결제), Startup $39/월, Scale $239/월
점수 구성
성능
92.0
평판
80.0
가격
80.0
최신성
95.0
재검증 현황
각 항목은 고유한 재검증 날짜를 가집니다. 호박색은 90일 초과 — 재확인 전까지는 오래된 데이터로 취급하세요.
출처
- Cekura — 7 Best TTS APIs for AI Voice Agents 2026확인일: 2026-06-04
- Deepgram Learn — 10 Best Text-to-Speech APIs in 2025/2026확인일: 2026-06-04