인터뷰
다중 화자 인식을 포함한 수어 자막 자동 생성 서비스 Sign In
Question01
안녕하세요, Sign In 소개 부탁드립니다.
안녕하세요. 저희는 [SL CC(Sign Language Closed Caption) : 다중 화자 인식을 포함한 수어 자막 자동 생성 서비스]를 개발한 Sign In입니다.
Sign In은 KAIST 뇌인지과학과(전산학부 복수전공) 3학년 재학 중인 허제현과 서울대학교 컴퓨터공학부 3학년 재학 중인 이한상으로 구성되어 있습니다.
2023 문화데이터 활용 경진대회 제품/서비스 부문에서 대상을 수상했습니다.
Sign In은 공학이 사회에 미치는 긍정적인 영향인 소셜 임팩트를 실현하기 위해, 농인 대상 서비스를 제공해왔습니다.
컴퓨터 비전을 활용해 각 나라의 수어와 음성언어 사이의 쌍방향 번역을 구현한 [수어를 포함한 다국어 번역기]부터, 한글의 음소를 조합해 단어를 출력하는 키패드에서 아이디어를 얻어 수어 입력 인터페이스를 구축한 [수화소 키패드]를 개발해 나가며 농인의 불편함에 공감해왔습니다.
이처럼 농인 대상 서비스를 공모전의 형태로 세상과 공유해오다가 2023 문화데이터 활용 경진대회라는 좋은 기회를 만나 SL CC를 만들게 되었습니다.
Sign In은 “수어는 서비스가 아닌 언어다”라는 입장으로 농인이 겪는 문제점을 해결하고자 합니다.
수어 역시 고유한 언어이기에, 영상 플랫폼에서의 한글 자막, 영어 자막처럼 수어 자막 역시 자유롭게 제작되고 공유되어야 합니다. 농인의 눈앞에 있지만 볼 수 없었던 영상들을, 이제 볼 수 있게 만드는 것이 Sign In의 궁극적인 목표입니다.
[첫 수어 프로젝트의 시작]
Question02
Sign In은 평소 문화 데이터 활용을 위해 어떠한 노력을 하셨나요?
SL CC는 수어 동작 영상과 수어 문법 구조를 학습한 AI를 사용해 수어 자막을 생성하는 프로그램입니다.
이 중 수어 동작을 학습하기 위해 수어 단어에 대한 데이터와 각 단어별 영상 데이터를 확보해야 합니다. 문화공공데이터광장에서 한국수어사전에 등재된 수어 단어들에 대한 데이터를 제공받을 수 있었는데요, 이 중 일상생활수어와 전문용어수어 API를 사용해 수어 단어 DB와, 각 단어에 대한 수어 영상 DB를 구축하고 연결했습니다.
DB 구축에 사용한 문화공공데이터광장의 수어 데이터셋 API 한국수어사전의 데이터를 정리해 제공해주고 있습니다. 따라서 향후 한국수어사전이 업데이트될 때마다 이에 맞춰 SL CC의 수어 DB를 확장하고 개선해나갈 수 있습니다.
Question03
Sign In에서 추진한 ‘수상작 관련 우수사례’가 있다면 어떤 내용인지 설명 부탁드립니다.
Sign In이 개발한 SL CC는 2023년 제 11회 문화데이터 활용 경진대회 제품 및 서비스 개발 부문에서 대상을 수상했습니다.
SL CC는 ‘다중 화자 인식을 포함한 수어 자막 자동 생성 서비스’입니다. Speech to Text 인공지능을 활용해 외부 음성을 인식하거나, 영상의 음성 파일을 인식해 텍스트로 먼저 전환해줍니다.
이후 자체 개발한 수어 어순 번역 모델을 통해 한국 수어 어순에 맞게, 음성출력 타이밍에 수어 자막의 형태로 출력해줍니다.
농인이 사용하기에 불편함이 큰 한글 자막이 아닌, 수어 자막을 제공하기에 농인의 편의에 맞춘 자막 서비스를 제공합니다.
또한 화자별 목소리 특징을 구분해 자막 테두리에 화자별 색깔 차이를 두어 대화 상황 속 다중 화자를 구분해 주었습니다.
나아가 AI 기반 자동 생성 서비스이기 때문에 기존의 수어 자막 제작 과정을 단축할 수 있습니다.
이를 통해 보다 빠르게, 보다 많고 다양한 분야의 영상 속에서 수어 자막을 경험할 수 있습니다.
Sign In은 모든 영상에 제공되는 자막을, 화자를 구분하는 자막을, 농인과 청인이 공존할 수 있는 자막 서비스를 꿈꿉니다. 꿈의 실현을 위해서는 상용화가 필수적입니다.
이에 따라 2023년 하반기에 창업 지원 프로그램 E*5 KAIST에 지원해 비즈니스 모델 수립과 고객 조사를 진행했고, 현재 농인의 수요가 높은 분야인 OTT 시장으로 SL CC의 진출을 계획하고 있습니다.
Question04
Sign In의 향후 추진계획은 어떻게 되나요?
앞으로의 계획 역시 ‘수어는 서비스가 아닌 언어다’라는 스탠스로부터 세워졌습니다.
AI는 수어도 이해할 수 있어야 합니다. SL CC는 AI 기반의 수어 자막 생성 프로그램이기 때문에, AI가 수어를 얼마나 잘 이해하느냐에 따라 SL CC가 만드는 수어 자막의 퀄리티가 달라집니다.
AI가 수많은 텍스트 언어를 이해할 수 있음에도 수어는 잘 이해하지 못하는 이유는 수어를 데이터화 하는 것이 어렵기 때문입니다.
수어 영상을 그대로 학습시키는 것보다는 수어에서 유용한 정보를 압축해 핵심 데이터로 만들고, 각 데이터 간의 관계를 벡터화하는 것이 중요합니다.
이를 위해 현재 AI 연구실에서 수어와 같은 동작 언어를 효율적으로 토큰화하는 연구를 진행하고 있습니다.
쉽게 말해 각 수어 단어별 영상들을 한글의 한 글자처럼 간단한 정보로 바꾸는 작업입니다.
이러한 시스템을 개발하면 ChatGPT와 같은 대형 언어 모델(LLM)에 한국수어를 입력시킬 수 있게 됩니다.
저희의 목표는 수어 토큰화 시스템을 개발하고, 이를 기반으로 수어를 이해할 수 있는 LLM을 구축하는 것이며, 이 모델을 SL CC에 적용해 보다 정확하고 자연스러운 자막을 생성해 농인이 겪는 언어 장벽의 문제를 해결할 것입니다