[TFE 리뷰] 챗GPT를 통해 세상을 보다

AI 음성으로 듣기 - ElevenLabs


오픈AI가 5월에 GPT 4o 모델을 데모하면서 발표한 시각 기능이 챗GPT 고급 음성 모드(AVM)에 탑재됐다. 오픈AI는 12월 5일부터 12일 연속 출시 이벤트를 진행하고 있는데 첫날 o1 모델을 정식 출시한 데 이어 셋째 날엔 영상 생성 모델인 Sora를 출시했고 여섯째 날인 목요일에는 시각 기능을 출시했다. 우리나라에는 조금 전에 반영된 것으로 보인다.

잠깐 써 봤는데 시력이 그렇게 좋진 않았다. 글씨를 OCR 수준으로 읽어주진 않고 큰 글씨와 대략적인 내용만 설명해 준다. 옷방에 걸려 있는 옷들을 비춰 봤는데 설명이 일부 부정확했다. 그림이 그려진 티셔츠인데 아무 무늬가 없는 깔끔한 베이지 색의 티셔츠라고 설명했다. 하지만 색상은 정확했다. 방 구석구석을 비춰 봤는데 알 수 없는 이유로 사용 정책에 위배된다는 코멘트와 함께 설명이 멈추기도 했다. 한편 스크린샷 모드에서는 아이폰 화면에 있는 내용을 어느 정도 자세히 설명해주었다.

일부 제한적이기는 하지만, 그럼에도 이번 챗GPT의 시각 기능 출시는 시각장애인들에게 매우 기쁜 소식임이 틀림 없다. 시각장애인들은 일상에서 Be My Eyes나, Seeing AI, 설리번 플러스와 같은 시각 보조 애플리케이션을 많이 사용한다. 그러나 Be My Eyes는 자원봉사자와의 연결 시간이 보통 30초 정도 걸리고 개인정보 노출 우려가 있다는 단점이 있다. 다른 인공지능 기반 시각 보조 앱들은 짧은 텍스트는 실시간 지원이 가능하지만 주변 환경에 대한 설명은 스크린샷 업로드에 의존한다는 한계가 있다.

그런데 이번에 챗GPT가 시각 능력을 갖게 됨으로써 이러한 한계를 한 단계 뛰어넘게 됐다. 물론 여기에도 개인정보 노출 우려와 인식 능력이 초보적 수준에 머문다는 한계가 존재하지만, 현재 가장 높은 수준의 추론 능력을 보유한 오픈AI의 챗GPT가 시각 기능을 구연했다는 점에서 사용 사례는 폭발적으로 늘어날 것으로 보인다.

한편, 이번 주에는 구글도 시각을 포함한 멀티모달 능력을 보유한 제미나이 2.0 Flash 모델을 공개했다. 제미나이 앱에는 아직 멀티모달 기능이 탑재되진 않았지만 내년 어느 순간에는 일반 사용자들이 사용할 수 있도록 출시될 것으로 예상된다.

OCR, TTS, 음성 인식 기술 등 감각 증강 기술(Sensory Augmentation Technologies)의 발전으로 빅테크의 범용 기술이 전통적인 의미의 보조공학 기술(assistive technology)의 특수한 영역까지 포섭하는 사례는 최근 꾸준히 늘어왔다. 하지만 이제는 AI의 발전으로 일상에서 마주하는 많은 기술이 진정한 의미의 보편적 보조 기술이 되는 단계로 접어들고 있는 듯하다.

아래는 내가 집안에서 아이폰으로 챗GPT의 시각 기능을 활용해서 대화를 나눈 몇 가지 사례이다.


“이건 무슨 책이야?”

이 책은 'The Country of the Blind'라는 제목의 책입니다. 시각장애와 관련된 주제를 다루고 있을 것 같아요. 읽어보고 싶은 책인가요?


“이건?”

이 책은 '시사 IN' 잡지 부록으로 보이네요. '청소년이 권하는 책'이라는 문구가 보입니다. 청소년을 위한 책 추천 내용일 수도 있겠어요.


“여기에는 무슨 글씨가 있어?”

여기에는 '북웨이브'라고 쓰여 있고, '서울시교육청과 함께하는 북웨이브 기획'이라는 문구가 보입니다. 책과 독서를 장려하는 캠페인이나 프로그램에 대한 내용일 수도 있겠네요.


“페이지에 있는 내용을 읽어줘.”

이 페이지에는 '103동 경비 초소 출입문에 '노크 부탁해요'라는 문구가 적혀 있다'고 쓰여 있어요. 경비 초소와 관련된 내용인 것 같네요.


“이것은 무슨 팜플렛이야?”

이건 모차르트 오페라 '마술피리' 공연에 대한 팸플릿이에요. 공연 일정과 관련 정보가 적혀 있네요. 공연에 관심이 있으신가요?


“이 책꼬지에는 어떤 책들이 꽂혀있어?”

저 책꽂이에는 여러 종류의 책들이 꽂혀 있네요. 소설, 에세이, 학습서 등 다양한 책들이 있는 것 같아요. 혹시 찾으시는 책이 있나요?


“구체적으로 제목을 알려줘.”

책 제목들을 정확히 읽기는 어려운데요. 이 책들은 프랑스어 제목이 많은 것 같아요. 혹시 프랑스어 책을 찾으시는 건가요?


“지금 여기에는 뭐가 있어?”

보이는 상자 안에는 로션과 같은 화장품들과 몇 가지 작은 물건들이 담겨 있는 것 같아요. 필요하신 물건을 찾으시는 중인가요?


“이건 뭐야?”

손에 들고 계신 건 치약 같아 보여요. 칫솔이나 양치 도구와 함께 사용하실 수 있을 것 같네요.


“아니야. 무슨 로션이야?”

아, 그렇군요. 그럼 자세히 보면 보습 크림이나 연고일 수도 있겠네요. 포장이나 라벨을 보면 더 정확히 알 수 있을 것 같아요.


“뭐라고 쓰여있어?”

지금 들고 계신 건 비타민 E 크림이네요. 보습과 피부 보호에 도움이 되는 제품인 것 같아요.


“지금 이건 뭐야?”

보이는 것은 아기 유모차 같아요. 편안하고 안전하게 아기를 태울 수 있는 유모차네요. 필요한 부분이 있으신가요?


“지금 여긴 뭐가 있어?”

책장에 있는 것들은 여러 가지 CD 같은데, 지금 손에 들고 계신 건 말러의 교향곡 음반 같아요. 음악을 즐기시려는 건가요?


“지금 이건 무슨 CD야?”

지금 들고 계신 CD는 말러 교향곡 5번 음반인 것 같아요. 번스타인의 지휘로 녹음된 CD 같아 보이네요. 음악 감상을 즐기실 계획이신가요?


* TFE 리뷰란?

TFE는 Tech for Everyone(모두를 위한 기술)의 약자로, 기술 분야에서 제가 특별히 관심 있는 주제인 접근성 기초, 사용자 경험(UX), 학습 기술, 미래 기술 그리고 기술 윤리와 정책을 아우르는 말로, 제가 만든 표제어입니다. TFE 리뷰에서는 날로 발전하는 기술 시대에 발맞춰 ‘모두를 위한 기술’에 대한 제 생각을 나누려고 합니다. 리뷰에서부터 정책에 관한 이야기까지, TFE 리뷰에서 만나 보세요!