LG, 첫 생성형AI 상용화 서비스 공개…이미지 설명하는 ‘캡셔닝 AI’
LG AI연구원의 첫 번째 ‘생성형 AI’ 상용화 서비스
주요 계열사 5곳, 세계 최대 컴퓨터 비전 학회 CVPR 참가
LG의 첫 번째 생성형 AI 상용화 서비스가 나왔다. 인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 ‘캡셔닝 AI’다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 생성한다. 쉽게 말해 AI가 그림을 보고 스스로 그림 설명을 작성한다는 이야기다.
LG AI연구원은 18일(현지시간) 캐나다 밴쿠버에서 진행 중인 세계 최대 컴퓨터 비전 학회 ‘CVPR(컴퓨터 비전 및 패턴 인식) 2023’에서 이미지 검색 시장에 변화를 가져올 캡셔닝 AI를 처음 공개했다. AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다. AI가 기존에 학습한 대량의 이미지와 텍스트를 기반으로 배경, 인물, 행동 등 이미지의 다양한 요소와 특징을 인식하고 그 관계를 설명할 수 있게 하는 기술이다.
캡셔닝 AI는 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다. 평균적으로 5개 문장과 10개의 키워드를 10초 내에 생성한다. 이미지 범위를 1만장으로 확장하면 이틀 이내에 작업을 끝낼 수 있어 빠른 시간 내에 맞춤형 이미지 검색·관리 시스템 구축이 가능하다.
캡셔닝 AI는 LG AI연구원과 셔터스톡의 긴밀한 협력이 있어 가능했다. 셔터스톡은 이미지와 영상 등 시각 콘텐츠가 매일 수십만 개 이상 새롭게 추가되는 세계 최대 플랫폼 기업으로 콘텐츠를 분석하고 처리하는 경험이 풍부한 전문가들이 포진해 있다. LG AI연구원은 이미지 분류와 검색에 활용하기 적합한 문장의 길이나 표현 방법 등 이미지 캡셔닝에 관한 방대한 노하우를 가지고 있는 셔터스톡과 데이터 학습부터 서비스 개발까지 함께해 완성도를 높였다.
LG AI연구원은 이날 캡셔닝 AI의 기반 기술인 ‘제로샷 이미지 캡셔닝’을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍도 진행했다. 이경무 서울대 석좌교수의 개회사로 시작한 워크숍에는 LG AI연구원의 최고 AI 사이언티스트(CSAI)인 이홍락 미시간대 교수를 비롯해 코르델리아 슈미드 프랑스 국립 컴퓨터과학연구소 연구책임자 겸 구글 리서치 연구원, 잭 헤셀 앨런AI연구소 연구원, 하미드 팔랑기 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수, 애나 로르바흐 UC버클리 연구원 등 이미지 캡셔닝 분야의 세계적인 전문가들이 참여했다.
한편, 이번 워크숍에서는 상반기에 진행한 ‘LG 글로벌 AI 챌린지’ 시상식도 열렸다. 자체 개발한 AI 모델의 이미지 이해 능력을 평가하는 대회인 ‘LG 글로벌 AI 챌린지’에는 총 142개 연구팀이 참여했다. 챌린지 1, 2위를 차지한 난징과기대, 카이스트 참가자들은 워크숍에서 연구 성과를 발표하기도 했다.
꼭 봐야 할 주요 뉴스
"검은 월요일에 줍줍 하세요"…59만전자·400만닉...
LG AI연구원은 오는 22일까지 진행하는 CVPR 2023 기간 중 LG전자, LG이노텍, LG에너지솔루션, LG유플러스 등 주요 계열사와 함께 글로벌 AI 우수 인재 확보에도 나선다. 20일부터 사흘간 LG 각 계열사의 AI 연구 인력과 채용 담당자들이 LG 통합 부스에서 각 사의 최신 AI 기술 시연과 채용 상담을 진행한다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>