상상을 넘어 현실이 되는 멀티모달 AI (Multi-modal AI)

Group 1284.png

요즈음, 제가 가장 많이 하는 고민이 있는데요, 바로 ‘AI는 과연 언제쯤 나를 대체할 수 있을까?’ 입니다. 이 고민을 갑자기 하게 된 것은 아니지만, 최근 발표된 Google의 Gemini를 보면서 생각이 한층 더 강해졌습니다. 이전에는 AI가 아무리 발전해도 한계가 있지 않을까 했는데 (비록 일정 부분 편집되긴 하였지만) Gemini 영상을 보면서 기계가 인간처럼 여러 감각을 동시에 받아들이고, 이해하고, 활용할 수 있게 되었다고 느꼈기 때문입니다.

Hands-on with Gemini: Interacting with multimodal AI

Gemini로 간단하게 포문을 열어봤는데, 최근 AI Scene 내 화제의 키워드는 단연코 멀티모달(Multi-modal) AI입니다. 기존 AI 모델은 text-to-image, speech-to-text 등 input과 output의 형태가 정해져 있습니다. 반면 멀티모달 AI는 더 복잡하고, 다양한 관점을 요구하는 정보도 이해하고 처리할 수 있는 AI로, 말 그대로 anything-to-anything에 가깝습니다. 텍스트, 음성, 이미지, 영상 등 여러 종류의 데이터를 동시에 처리할 수 있거든요. 이전에는 단일 채널로만 정보를 수용할 수 있었다면, 멀티모달 AI는 사람이 오감을 사용하여 정보를 수용하는 것처럼 다양한 채널의 모달리티를 동시에 이해하고 사용할 수 있습니다. 그렇기에 훨씬 더 인간과 가깝게 사고하고 결과를 만들어 내는 수준에 이르게 된 거죠. AI가 드디어 더 자연스러운, 인간과 유사한 소통을 할 수 있게 되었습니다.

<이미지 1> 인간이 갖고 있는 오감을 AI도?

멀티모달 이전의 AI 모델은 어떤 정보가 들어왔을 때 이를 복합적으로 해석하는 능력이 부족했습니다. 왜냐하면 시각이면 시각, 청각이면 청각 등 한 가지 정보만 해석하는 유니모달이었기 때문입니다. 이와 반대로 멀티모달 AI는 음성에서 오는 정보와 내용 측면에서 오는 정보를 분리해 복합적으로 사고할 수 있기 때문에 내용을 유추하고 그에 걸맞은 반응을 보일 수도 있습니다.

아주 100% 유사하진 않지만, 예를 들자면 강아지들이 사람의 말을 이해하는 것에 유니모달을 비유해볼게요. 강아지들은 주인이 어떤 말을 했을 때, 주인의 언어를 실제로 이해한다기보다는 말의 속도, 음의 높이 등을 통해서 의미를 파악합니다. 주인이 기분 좋은 목소리로 ‘어느 못된 강아지가 똥을 침대에 쌌어! 혼나볼래?’라고 말하면, 강아지들은 말의 의미를 알아 듣기 보다는 주인이 기분 좋은 상태구나 하는 정도로만 받아들입니다. 반대로 화난 목소리로 ‘산책하러 갈 강아지’라고 하면 주인이 화가 난 줄 알고 눈치를 보게 되죠.

https://youtube.com/shorts/I6yME7SWnVs?si=GorwzMYXCTINc20D

멀티모달 AI가 등장하면서 사람들의 삶은 한층 더 풍요로운 정보의 바다에서 헤엄칠 수 있게 되었습니다. 예를 들어, 기존에는 존재하는 LLM에 ‘해외여행에서 사용할 수 있는 실전 표현을 알려줘’라고 하면 텍스트로만 알려주거나, 혹은 해당 내용이 포함된 링크를 전달하는 방식으로 질문에 대한 답을 했습니다. 기본적으로 text가 메인인 형태의 답을 얻을 수가 있었던 거죠. 하지만 멀티모달 AI가 등장하면서, 같은 질문에 대해 즉석에서 관련 영상을 불러와 유용한 표현이 나오는 장면을 포인트하고, 발음을 알려주고, 어떤 내용이 들어가 있는지를 요약하는 등 여러 형태로 답안을 얻을 수 있습니다.

멀티모달 AI가 발달하게 되면 우리 일상 속의 인공지능은 한층 더 자연스러운 현상이 될 것으로 생각합니다. 가령 ChatGPT를 생각해보면, 우리가 어떤 질문을 ChatGPT에게 하기 위해서는 타자를 쳐야합니다. 그리고 ChatGPT는 우리가 요청한 질문(프롬프트)에 대한 답안을 제공하는 것을 우선으로 하며, 그 이상으로 나아가 우리에게 어떤 결과를 돌려주는 데는 한계를 보입니다. 아직 스스로가 질문에 대한 ‘맥락’을 정확하게 파악하고, 우리가 원하는 것 이상으로 ‘제안’하는 것은 되지 않죠.