텍스트·이미지·오디오 자유롭게 변환, 파나소닉, 차세대 AI ‘OmniFlow’ 공개

 

 파나소닉홀딩스(Panasonic Holdings Co., Ltd.)와 파나소닉 R&D 아메리카(Panasonic R&D Company of America, PRDCA)가 미국 UCLA(캘리포니아대학교 로스앤젤레스 캠퍼스)와 공동으로 차세대 멀티모달 생성형 인공지능(AI) 기술 ‘옴니플로우(OmniFlow)’를 개발했다고 4일 밝혔다.

OmniFlow는 텍스트, 이미지, 오디오 등 서로 다른 데이터 형식을 자유롭게 상호 변환(Any-to-Any)할 수 있는 고정밀 멀티모달 생성 AI로, 기존 대비 최대 1/60 수준의 학습 데이터만으로도 우수한 성능을 구현할 수 있는 것이 특징이다.

기존의 멀티모달 생성 AI는 다양한 조합의 데이터 쌍(text ↔ image, image ↔ audio 등)을 모두 갖춘 학습 데이터를 필요로 해, 처리 가능한 모달 수가 증가할수록 학습 비용도 기하급수적으로 증가하는 한계가 있었다.

OmniFlow는 이러한 구조적 비효율을 극복하기 위해, 각 데이터 형식에 특화된 생성 AI(text→image, text→audio 등)를 유연하게 결합해 최소한의 데이터로도 복잡한 데이터 관계를 학습할 수 있도록 설계되었다.

기술적 핵심은 ‘플로우 매칭(Flow Matching)’ 기반의 프레임워크를 발전시킨 점이다. OmniFlow는 기존의 평균화 방식이 아닌, 세 가지 모달리티의 특성을 연결·통합 처리함으로써 보다 정밀하고 표현력 높은 결과를 생성할 수 있다.

실제 OmniFlow의 학습 과정에서는 사전 학습된 텍스트-이미지 및 텍스트-오디오 모델을 결합해 재학습함으로써, 복잡한 데이터 쌍이 부족한 환경에서도 효율적인 성능 확보가 가능하다.

평가 실험 결과, OmniFlow는 기존 Any-to-Any 범용 AI는 물론, 개별 작업 특화 모델보다도 더 높은 성능을 기록했다. 이미지 생성 품질 지표(Gen) 및 오디오 품질 지표(FAD, CLAP) 모두에서 우수한 수치를 기록했으며, 전체 학습 데이터량은 기존 대비 크게 줄었다는 점도 주목받았다.

이번 기술은 CVPR 2025(컴퓨터 비전 및 패턴 인식 분야 세계 최고 권위의 학회)에 채택되어, 오는 6월 11일부터 15일까지 미국 내슈빌에서 열리는 본 학회에서 공식 발표될 예정이다.

파나소닉 측은 “OmniFlow는 데이터 형식에 특화된 AI의 장점을 결합함으로써, 고정밀 Any-to-Any 모델을 소량의 데이터로 구현할 수 있는 혁신적인 솔루션”이라며 “향후에는 공장, 주거공간 등 다양한 산업 및 생활 분야에서 멀티모달 AI의 활용 범위를 획기적으로 넓힐 수 있을 것”이라고 밝혔다.

다음 이전

POST ADS1

POST ADS 2