음성 인식 AI 정확도 비교 (클로바노트 vs 다글로 vs 티로)

받아쓰기 프로그램, 목소리를 텍스트로 변환시키는 앱 Top 3의 정확도를 비교 분석해보았습니다. 같은 인터뷰 영상을 3개의 솔루션은 어떻게 듣고 요약했을까요?
Miguel's avatar
Oct 10, 2024
 음성 인식 AI 정확도 비교 (클로바노트 vs 다글로 vs 티로)
 
AI 속기&요약 서비스의 등장으로 강의 내내 정신없이 키보드를 두드리는 것도 이제는 과거의 일이 되었습니다. 네이버의 ‘클로바노트’, 1세대 AI 녹음 어플 ‘다글로’, 실시간 속기&요약 서비스 ‘티로’ 등 각자의 독특한 기능과 강점을 지닌 다양한 STT(스피치-투-텍스트) 서비스가 등장하고 있습니다.
그렇다면 서비스별 차이점은 무엇이고, 어떤 서비스가 여러분의 학습 상황에 가장 적합할까요? 이번 포스팅에서는 ‘클로바노트’, ‘다글로’, ‘티로’의 정확도 및 장단점을 살펴보고, 여러분의 학습 환경에 가장 잘 맞는 선택을 할 수 있도록 안내하고자 합니다.
 
*모든 서비스에서 같은 영상의 음성 추출본(하단 링크)을 이용했고, PC 브라우저를 통해 서비스를 이용했습니다.
 

1. 클로바노트 https://clovanote.naver.com/

음성 업로드 방식

클로바노트는 1) 현장 녹음 혹은 2) 음성 파일 업로드 2가지 방식 중 하나를 선택해 텍스트 변환이 이루어집니다. 이번에는 영상의 음성을 추출해서 파일을 업로드하는 방식으로 진행했습니다.
업로드 이후 몇 분 안에 텍스트 변환이 완료되며, 요약은 자동으로 되지 않아 파일 업로드 이후 직접 요약 버튼을 눌러야 합니다. 요약 자체는 몇 분 안에 이루어집니다.

음성인식 정확도

notion image
먼저 STT 속기부터 살펴보겠습니다. 인터뷰 내용 중 웃음소리가 섞이거나 빠르게 넘어가는 부분에서 놓치는 부분이 있었으나, 전체적인 내용 이해에는 큰 지장이 없었습니다. 그러나 고유명사, 혹은 외국어 이름을 정확히 인식하는 데에는 한계가 있었습니다. 전체적으로 봤을 때 STT 정확도는 상당히 준수합니다.

요약 기능

notion image
요약 측면에서는 아쉬운 부분이 있습니다. 약 2분에 걸친 내용을 요약하다 보니 생략되는 내용이 많아 요약본만 보고는 내용 이해가 어렵습니다. 강연의 순서나 개요 정도만 추출해야 할 때 사용하기 적합합니다. 클로바노트는 현재 월 15회로 AI 요약을 제한하고 있는데, 제한에 비해 성능은 아쉬운 편입니다.

정리

속기: 매우 사소한 오류 있음, 고유명사 인식이 어려움
요약: 요약의 단위가 커 생략되는 내용이 많음, 내용의 순서를 파악할 때 참고하기 좋음
 

2. 다글로 https://daglo.ai/

음성 업로드 방식

다글로는 1) 현장 녹음 2) 음성 파일 업로드 3) URL 입력 3가지 방식 중 하나를 선택해 텍스트 변환이 이루어집니다. URL을 통한 텍스트 변환이 가능한 것이 다글로의 장점인만큼, 유튜브 영상 링크를 업로드하는 방식으로 진행했습니다.
업로드 이후 몇 분 안에 텍스트 변환이 완료되며, 요약 또한 자동으로 이루어집니다.

음성인식 정확도

notion image
다글로의 STT는 매우 준수합니다. 고유명사 이외에는 오류가 없으며, 외부 소음이 있거나 말이 빨라지는 부분에도 음성을 정확히 잡아내고 있습니다.

요약 기능

notion image
그러나 다글로의 요약 기능은 클로바노트와 마찬가지로 아쉬운 편입니다. 3분 30초에 걸친 내용을 5줄로 요약하다 보니 생략되는 내용이 많고, 속기의 핵심과 관련없는 부분이 있습니다. 클로바노트에 비해 내용의 구조화는 잘 되어 있는 편이나, 내용 이해를 위해 참고하기에는 한계가 있습니다.

정리

속기: 거의 정확, 고유명사 인식이 어려움
요약: 요약의 단위가 커 생략되는 내용이 많음, 구조화가 잘 되어 있어 개요를 참고하기에 좋음
 

3. 티로(Tiro) https://tiro.ooo/ko

음성 업로드 방식

티로는 위 두 서비스와 차이점이 있습니다. 음성 업로드 대신 실시간 녹음으로만 텍스트 변환이 진행되는데, 이는 강의를 들으면서 동시에 텍스트로 내용을 재확인할 수 있도록 하는 ‘실시간성’이 서비스의 핵심이기 때문입니다. 따라서 텍스트 변환과 요약이 녹음과 동시에 이루어지는 것이 큰 특징입니다. 다음 영상을 참고하면 이해가 쉬울 듯합니다.

음성인식 정확도

notion image
티로의 STT 또한 훌륭한 편이나, 고유명사 및 음성이 겹치는 부분에서 작은 오류가 나오고 있습니다. 그러나 전체적인 내용 이해에는 전혀 지장이 없는 정도이며, 클로바노트와 비슷한 수준의 정확도를 가지고 있습니다.

요약

notion image
티로의 요약 기능은 매우 우수합니다. 약 1분 단위로 한 번씩 요약이 이루어지므로 변환된 텍스트의 내용을 그대로 반영하며, 인터뷰 특성상 다소 두서없는 내용도 깔끔히 정리해 요약합니다. 특히 요약 과정에서 고유명사(외국어 이름) 오류를 보정하고, 외국어 원문까지 기록한 것이 인상적입니다. 내용 생략 없이 자세하게 정리된 요약이 필요할 때 사용하기 좋습니다.

정리

속기: 매우 사소한 오류 있음, 고유명사 인식이 어려움
요약: 매우 정확한 수준, 속기와 대응이 잘 되며 생략되는 내용 없이 잘 정리됨
 

4. 총평

클로바노트
다글로
티로
STT 정확도
정확한 편 조사, 고유명사 오류
매우 정확 고유명사 오류
정확한 편 조사, 고유명사 오류
요약 기능
생략 많음 내용 순서를 파악하는 정도
생략 많음 구조화는 잘 되는 편
매우 정확 오류 보정 기능 있음
추천 용도
전체 속기록이 필요할 때
전체 속기록이 필요할 때, 온라인 영상을 변환할 때
강의 도중 사용할 때, 정확한 요약본이 필요할 때
 
Share article
Subscribe to our newsletter.

티로 블로그