AI Rankings
태스크로 돌아가기

Cartesia

Cartesia

상태공간 모델 기반의 실시간 음성 에이전트 TTS로, Sonic 3가 약 40~90ms의 첫 음성 지연과 3초 보이스 클로닝을 제공합니다.

아래 공개 출처를 근거로 한 2026. 6. 4. 기준 편집부 평가입니다.

음성 / TTS 부문 순위
#2
등급
A
점수
84.0
내부 사용 모델

강점

  • 40~90ms 수준의 업계 최저 수준 첫 음성 지연으로 라이브 음성 에이전트에 적합합니다
  • 무료 플랜과 $4/월(연 결제) 수준의 Pro로 개발자가 가볍게 시작할 수 있습니다
  • 3초 정도의 참조 음성만으로 즉시 보이스 클로닝이 가능합니다

유의점

  • 주요 상용 언어 외 다국어 커버리지는 경쟁사보다 좁은 편입니다
  • 즉시 쓸 수 있는 에이전트 페르소나·기성 보이스 폭은 ElevenLabs보다 좁습니다
  • Startup($39/월)·Scale($239/월) 등 상위 요금제는 비용 상승이 빠른 편입니다

가격

무료 플랜 제공, Pro $4/월(연 결제), Startup $39/월, Scale $239/월

점수 구성

성능
92.0
평판
80.0
가격
80.0
최신성
95.0

재검증 현황

각 항목은 고유한 재검증 날짜를 가집니다. 호박색은 90일 초과 — 재확인 전까지는 오래된 데이터로 취급하세요.

가격
2026-06-04
출처 ↗
벤치마크
2026-06-04
출처 ↗
평판
2026-06-04
출처 ↗
기능 목록
2026-06-04
출처 ↗

출처