텍스트·이미지·오디오 자유롭게 변환, 파나소닉, 차세대 AI ‘OmniFlow’ 공개

파나소닉홀딩스(Panasonic Holdings Co., Ltd.)와 파나소닉 R&D 아메리카(Panasonic R&D Company of America, PRDCA)가 미국 UCLA(캘리포니아대학교 로스앤젤레스 캠퍼스)와 공동으로 차세대 멀티모달 생성형 인공지능(AI) 기술 ‘옴니플로우(OmniFlow)’를 개발했다고 4일 밝혔다.

OmniFlow는 텍스트, 이미지, 오디오 등 서로 다른 데이터 형식을 자유롭게 상호 변환(Any-to-Any)할 수 있는 고정밀 멀티모달 생성 AI로, 기존 대비 최대 1/60 수준의 학습 데이터만으로도 우수한 성능을 구현할 수 있는 것이 특징이다.

기존의 멀티모달 생성 AI는 다양한 조합의 데이터 쌍(text ↔ image, image ↔ audio 등)을 모두 갖춘 학습 데이터를 필요로 해, 처리 가능한 모달 수가 증가할수록 학습 비용도 기하급수적으로 증가하는 한계가 있었다.

OmniFlow는 이러한 구조적 비효율을 극복하기 위해, 각 데이터 형식에 특화된 생성 AI(text→image, text→audio 등)를 유연하게 결합해 최소한의 데이터로도 복잡한 데이터 관계를 학습할 수 있도록 설계되었다.

기술적 핵심은 ‘플로우 매칭(Flow Matching)’ 기반의 프레임워크를 발전시킨 점이다. OmniFlow는 기존의 평균화 방식이 아닌, 세 가지 모달리티의 특성을 연결·통합 처리함으로써 보다 정밀하고 표현력 높은 결과를 생성할 수 있다.

실제 OmniFlow의 학습 과정에서는 사전 학습된 텍스트-이미지 및 텍스트-오디오 모델을 결합해 재학습함으로써, 복잡한 데이터 쌍이 부족한 환경에서도 효율적인 성능 확보가 가능하다.

평가 실험 결과, OmniFlow는 기존 Any-to-Any 범용 AI는 물론, 개별 작업 특화 모델보다도 더 높은 성능을 기록했다. 이미지 생성 품질 지표(Gen) 및 오디오 품질 지표(FAD, CLAP) 모두에서 우수한 수치를 기록했으며, 전체 학습 데이터량은 기존 대비 크게 줄었다는 점도 주목받았다.

이번 기술은 CVPR 2025(컴퓨터 비전 및 패턴 인식 분야 세계 최고 권위의 학회)에 채택되어, 오는 6월 11일부터 15일까지 미국 내슈빌에서 열리는 본 학회에서 공식 발표될 예정이다.

파나소닉 측은 “OmniFlow는 데이터 형식에 특화된 AI의 장점을 결합함으로써, 고정밀 Any-to-Any 모델을 소량의 데이터로 구현할 수 있는 혁신적인 솔루션”이라며 “향후에는 공장, 주거공간 등 다양한 산업 및 생활 분야에서 멀티모달 AI의 활용 범위를 획기적으로 넓힐 수 있을 것”이라고 밝혔다.

Breaking News

sponsor

Advertisement

텍스트·이미지·오디오 자유롭게 변환, 파나소닉, 차세대 AI ‘OmniFlow’ 공개

댓글 없음

#Post ADS3

Popular Posts

Recent Posts

Comments

Facebook

Trending this month

2026 기아 카니발 풀체인지, 어떤 모습일까? 예상도 공개!

퍼플 인테리어에 4인 개별 시트…제네시스 GV90 실내 유출

K팝 데몬 헌터스 OST, 빌보드 200 8위! 넷플릭스 애니의 반란