자동자막.png

나날이 기술의 속도가 발전하는 지금, 이전과는 다른 양상을 보이는 명백한 지점이 있습니다. 바로 ‘프로덕트화’인데요, 이전에는 만들고자 하는 프로덕트가 있어도 이를 받쳐줄 수 있는 기술의 발전 속도가 따라오지 못한 나머지 프로덕트의 완성도가 기대치에 못 미치는 경우가 많았습니다. 하지만 딥러닝, 생성형 AI 등 강력한 퍼포먼스를 보이는 기술이 발전해감에 따라 이제는 ‘어떤 프로덕트를 만들 것인가’가 결국 기업과 개인이 테크씬에서 살아남는 데 주요 포인트가 되고 있습니다.

딥러닝 모델의 상품 가능성을 발견하고, 발전시켜나가는 것은 비즈니스 확장에 무엇보다 중요한 요소가 되었습니다. 하지만 딥러닝 모델의 상품 가능성, 구체적으로 떠오르는 새로운 아이디어를 찾기는 쉬운 일이 아닙니다. 그렇다면 우리가 실생활에서 사용할 수 있는 가장 가까운 곳부터 살펴보는 것은 어떨까요?

Cochl의 Research 팀에서 인턴으로 함께하는 재영님의 취미는 재미있는 영상을 보는 것입니다. 각종 OTT 서비스 구독에 매달 많은 지출을 하고 계신다고 밝혀주셨는데요, 재영님의 취미와 기술이 결합했을 때 어떤 일이 발생할 수 있을까요? 이번 아티클에서 Cochl의 Sound AI인 Cochl.Sense와 ASR 모델을 활용한 자동 트랜스크립터 (Closed Caption) 제작기를 선보입니다! 재영님의 시도를 기반으로 머신러닝 모델을 어떻게 상품화할 수 있을지 가볍게 만나보세요 😉


01. 갑자기 떠오른 Closed Caption

따사로운 가을 햇살을 느끼며 넷플릭스에서 오리지널 콘텐츠를 보려던 재영님! 평소와 같으면 바로 콘텐츠를 즐겼겠지만, 오늘은 왠지 영어 공부를 하고 싶다는 생각이 들었습니다. 하지만 자막 없이 보기에는 아직 두려운 나머지 재생바 우측에 있는 ‘음성 및 자막’ 버튼을 클릭해 영어 자막으로 설정해 영화를 감상하기로 했습니다.

이전에는 주인공의 대사만 영어 자막으로 나왔는데, 이제는 중간중간에 들어가는 배경 음악이라든지 혹은 상황을 나타내는 모든 소리 또한 자막에서 확인할 수 있었습니다. 이때, 한 가지 아이디어가 재영님의 머릿속에서 번뜩! 하고 떠올랐습니다.

“Cochl.Sens를 이용해서 직접 자동으로 자막을 생성할 수 있을까?”

한 번 마음 먹은 건 해내는 재영님, 그의 험난한 삽질 연대기가 시작되었습니다.

02. Closed Caption에 필요한 것은?