[TFE 리뷰] 2025년 2월 AI 기반 음성 서비스 업데이트 요약 🔊

AI 음성으로 듣기 - ElevenLabs


AI 기반 음성 기술의 발전이 눈부시다. 음성 인식, TTS(text-to-speech), STT(speech-to-text), 음성 대화 등 음성 기술의 다양한 측면이 고르게 발전하고 있다. 2025년 2월 한 달 사이에 나온 주요 서비스의 업데이트 소식과 실제로 사용해 본 경험을 요약했다.

  • 마이크로소프트 코파일럿: 2월 25일부터 음성 대화 중 실시간 정보 검색이 가능해졌고 반응 속도도 매우 빨라졌다. 마이크로소프트는 2024년 3월에 감성 인공지능으로 유명했던 Inflection AI를 사실상 인수했다. 이후 PI AI의 뛰어난 음성이 탑재되었지만, 한동안 실시간 정보 검색이 되지 않아 활용도가 낮았다. 요 며칠 사용해 보니 정확도도 높고 답변의 속도와 길이도 적절했다. 4개의 음성 중 선택할 수 있고, 다중 언어 지원이 되며, 한 세션 안에서 언어를 바꿔가며 대화할 수 있다. 무엇보다도 무료 사용자도 무제한으로 사용할 수 있다는 게 가장 큰 장점이다.
  • 펄플렉시티 AI: 2월 26일, iOS 앱에 새로운 음성 모드가 추가되었다. 6개의 음성 중 하나를 고를 수 있고, 한국어와 영어 모두 테스트해 봤는데 매우 자연스럽다. 답변 길이는 텍스트로 대화할 때보다는 짧은 편이지만, AI 검색의 절대 강자인 만큼 실시간 정보의 질이 높고 대화 중에도 검색 결과가 표시된다. 음성 모드 인터페이스가 매우 깔끔하고 기존 음성 모드에서 거슬렸던 튀는 소리가 완전히 사라졌다. 다중 언어 지원이 되지만, 한 세션 안에서 언어를 바꿀 수 없고 앱 언어 설정을 무조건 따라간다는 건 조금 아쉽다. 안드로이드와 macOS에도 곧 업데이트될 예정이라고 한다.
  • 구글 제미나이: 음성 대화 중 실시간 정보 검색이 가능하고, 한 세션 안에서 언어를 바꾸어 가며 대화할 수 있다. 영어와 한국어 모두 자연스러운 음성이고 영어는 선택할 수 있는 음성이 10가지이다. 2월 12일, 방언과 억양, 번역 기능 등이 향상되었다는 뉴스가 있지만 한국에도 적용되었는지는 확인되지 않는다. 다른 AI에 비해 답변의 질은 조금 떨어지는데 이는 음성보단 AI 자체의 문제로 보인다. 조만간 챗GPT와 마찬가지로 실시간 영상 스트리밍이 가능해질 예정이어서 기대가 크다.
  • ElevenLabs: 2월 27일, Scribe라는 STT 모델을 출시했다. 네이버의 클로바노트나 다글로와 같이 음성을 텍스트로 변환해 주는 서비스이다. 글로벌 시장에서는 오픈AI의 Whisper, Deepgram의 Nova-3, Assembly AI 같은 제품들이 정확도가 높다고 평이 좋은데 대부분은 개발자가 API로 이용할 수 있는 서비스여서 일반 사용자들에겐 접근성이 떨어진다. 그런데 이번에 ElevenLabs가 출시한 Scribe는 API와 웹 인터페이스 모두에서 지원된다. 사용해 보진 않아서 실제 성능은 확인하지 못했다.
  • Hume AI, HeyGen: 2월 26일에는 Hume AI가, 2월 27일에는 HeyGen이 각각 텍스트 프롬프트로 음성의 특징을 미세 조정할 수 있는 기능을 발표했다. Hume AI는 Octave라는 별도의 플랫폼을 출시했는데 '첫 번째 스피치-언어 모델'이라고 홍보하고 있다. Hume AI는 감정이 풍부한 AI 음성 대화로 유명한 회사인데 Octave는 복잡한 음성 세팅 대신 우리에게 익숙한 챗봇 스타일의 텍스트 프롬프트만으로 감정, 성격 등 각종 음성의 특징들을 조정할 수 있게 했다. 다만 한국어 지원이 안 되고 ElevenLabs가 선점하고 있는 시장이라서 어느 정도로 성장할지는 미지수이다. HeyGen은 대표적인 AI 영상 생성 플랫폼으로 이미 텍스트 프롬프트로 다양한 영상 콘텐츠를 만들 수 있는 고급 기능을 지원한다. 이번 2월 업데이트에는 음성의 특징까지 미세 조정할 수 있게 했다는 것이 가장 큰 업데이트이다.

나는 AI 기반 TTS 서비스인 Speechify의 충성도 높은 사용자이다. 그리고 챗GPT에 고급 음성 모드와 실시간 비디오 스트리밍 기능이 추가된 후에는 챗GPT를 일상적인 시각 보조 앱으로 활용하고 있다. 이러한 AI 음성 기술의 발전은 Be My Eyes나 Seeing AI와 같은 기존 시각 보조 앱들의 성능 향상에도 긍정적 영향을 미치고 있다. 앞으로 음성 기술이 더욱 고도화되고 보편화되어 장애인의 정보접근권과 삶의 질 향상에 실질적으로 기여하길 기대한다. 🌟

※ 관련 글: [TFE 리뷰] 귀가 즐거워지는 AI 음성 서비스 Top 10 🎧