핵심 요약
- GenAI 투자 대비 ROI가 3.7배이며, 74%의 임원이 1년 내 ROI를 달성했습니다 (McKinsey, 2025)
- 에듀테크: Harvard RCT에서 AI 튜터링이 능동학습 대비 0.63-1.3 SD 높은 학습 효과를 보였습니다
- 패션: 가상 피팅 사용자의 전환율이 2.3배, 반품률은 38% 감소합니다 (Accenture, 2025)
- 인테리어: 오늘의집 AI 광고가 1년간 1000억+ KRW 전환 매출을 기록했습니다
- Vision API 가격은 Gemini Flash $0.30부터 Claude Opus $5.00/M tokens까지 16배 차이가 납니다
Intro
GenAI 투자 대비 ROI가 3.7배에 달한다는 McKinsey의 2025년 조사 결과가 있습니다(McKinsey, 2025). 그리고 Gartner는 2030년까지 엔터프라이즈 소프트웨어의 80%가 멀티모달을 탑재할 것으로 예측하는데, 2024년에는 이 비율이 10% 미만이었습니다(Gartner, 2025).
이전 글에서 InternVL3.5, Qwen3-VL, Kimi K2.5 같은 최신 Vision LLM의 아키텍처와 벤치마크를 비교했습니다. MoE가 표준이 되고, Native Multimodal로 전환이 진행되고, 오픈소스가 클로즈드 모델을 추월한 이야기였습니다. 그런데 한 가지 질문이 남습니다. 그래서 이 기술로 돈을 어떻게 버는 걸까요?
이 글에서는 시각 데이터가 핵심인 세 도메인 — 에듀테크, 패션, 인테리어 — 에서 Vision LLM이 만들어내고 있는 구체적인 비즈니스 성과를 정리합니다. 콴다의 75M 학생, 에이블리의 30배 유저 증가, 오늘의집의 1000억 전환 같은 한국 기업 사례부터, Harvard RCT와 Google LearnLM 같은 글로벌 연구까지. 그리고 마지막에는 "API를 쓸 것인가, 직접 운영할 것인가"라는 도입 의사결정을 위한 비용 비교도 다뤄보겠습니다.
에듀테크에서 Vision LLM은 어떤 가치를 만들고 있는가?
교육기관의 86%가 이미 GenAI를 활용하고 있으며, 이는 전 산업 중 가장 높은 비율입니다(Microsoft AI in Education Report, 2025). AI 교육 시장 규모는 2025년 $7.05B에서 2035년 $136.79B로 성장이 전망됩니다(CAGR 34.52%)(Precedence Research, 2026). 특히 Vision LLM은 수식, 다이어그램, 차트 같은 시각 정보를 이해할 수 있어서 STEM 교육에서 빠르게 확산되고 있습니다.
사진 한 장으로 문제를 푸는 시대 — 콴다, Khanmigo, ChatGPT STEM
한국의 매스프레소가 만든 콴다(QANDA)는 이 분야의 선구자입니다. 수학 문제를 사진으로 찍으면 5초 만에 풀이를 보여주는 서비스인데요, 누적 75M+ 학생이 사용했고 월간 활성 사용자가 1000만 명을 넘습니다(QANDA, 2025). 매스프레소는 Upstage, KT와 함께 MathGPT 13B를 공동 개발해서 수학 벤치마크 세계 기록을 세우기도 했습니다(PR Newswire, 2024).

Khan Academy의 Khanmigo도 빠르게 성장하고 있습니다. GPT-4o 기반으로 이미지 업로드를 지원하는데요, 파일럿 기간의 6.8만 명에서 1년 만에 70만+ 사용자로 10배 성장했습니다(Reruption, 2025). Microsoft 파트너십으로 교사에게 무료 제공되며, 34개 이상 언어를 지원합니다.
OpenAI는 2026년 3월에 ChatGPT에 인터랙티브 STEM 시각 모듈을 추가했습니다. 변수를 조작하면 실시간으로 그래프가 바뀌는 방식인데요, 70+ 핵심 수학/과학 개념을 다룹니다. 주간 1.4억 명이 ChatGPT로 수학과 과학을 학습하고 있습니다(OpenAI, 2026).
한국에서는 카카오의 Kanana-o도 주목할 만합니다. 한국어에 최적화된 멀티모달 LLM으로, 한국교육과정평가원(KoNET) 벤치마크에서 92.8점을 기록하며 글로벌 모델들을 한국 수능 문제에서 앞섰습니다(카카오, 2025).
| 서비스 | 제공사 | VLM 기술 | 규모 | 핵심 지표 |
|---|---|---|---|---|
| 콴다 | 매스프레소 | OCR + MathGPT 13B | 75M+ 학생, 10M MAU | 사진→풀이 5초 |
| Khanmigo | Khan Academy | GPT-4o (이미지 업로드) | 70만+ 사용자 | 1년간 10배 성장 |
| ChatGPT STEM | OpenAI | GPT-4o 인터랙티브 | 1.4억 주간 학습자 | 70+ 개념 시각화 |
| Kanana-o | 카카오 | 멀티모달 하이브리드 | 오픈소스 | KoNET 92.8 |
AI 튜터링은 정말 효과가 있는가? — Harvard RCT와 Google LearnLM
"AI 튜터가 진짜 학습 효과가 있는가?"라는 질문에 대한 가장 강력한 답변이 2025년에 나왔습니다.
Harvard 대학의 무작위 대조 실험(RCT, N=194)에서 AI 튜터링 그룹의 사후 테스트 중앙값이 4.5로, 능동학습 그룹의 3.5를 크게 앞섰습니다. 효과크기는 0.63-1.3 SD로, 교육 연구에서 이 정도 차이는 상당히 큰 수치입니다. 더 놀라운 건 학습 시간인데요, AI 그룹이 49분으로 능동학습 그룹의 약 60분보다 짧았습니다(Nature Scientific Reports, 2025). 더 적은 시간에 더 많이 배운 겁니다.
Google의 LearnLM도 비슷한 결과를 보여줬습니다. 15-18세 학생 60명을 대상으로 한 RCT에서, AI로 증강된 교재를 사용한 그룹의 기억 유지율이 78%로 일반 디지털 교재 그룹(67%)보다 11%p 높았습니다. 93%가 기존 교재보다 AI 교재를 선호한다고 응답했습니다(Google Research, 2025).
학생 AI 사용률은 2024년 66%에서 2025년 92%로 급증했습니다(DemandSage, 2025). 수요는 이미 폭발적인데, 학습 효과에 대한 과학적 근거까지 쌓이고 있는 상황입니다.
보이지 않는 곳의 혁신 — 자동 채점과 접근성
학생이 직접 사용하는 AI만 있는 게 아닙니다. 교수와 교직원을 위한 도구도 빠르게 발전하고 있습니다.

Pensieve Grader는 스캔된 과제물을 자동으로 채점하는 시스템인데요, 채점 시간을 65% 절감하면서 교수와의 일치율 95.4%를 기록했습니다. 20개+ 교육기관에서 30만+ 응답을 처리했습니다(arXiv:2507.01431, 2025). CS, 수학, 물리, 화학 과목의 손글씨 과제까지 처리합니다.
시각 장애 학생을 위한 접근성 도구도 나오고 있습니다. NVDA 스크린 리더와 Gemini Vision API를 결합해서 이미지를 풍부한 텍스트 설명으로 변환하거나, LLaMA 3.2 Vision으로 다국어 이미지 캡션을 생성하는 방식입니다.
다만 리스크도 있습니다. UNESCO 조사에 따르면 교육기관의 10%만이 AI 사용 가이드라인을 갖추고 있고(UNESCO, 2023), 학생 이미지 데이터의 FERPA/GDPR 준수 문제도 아직 해결해야 할 과제입니다.
패션 이커머스에서 비주얼 서치와 가상 피팅은 얼마나 효과적인가?
가상 피팅(virtual try-on) 사용자의 전환율이 비사용자 대비 2.3배 높고, 반품률은 38% 낮습니다(Rewarx/Accenture, 2025). 78%의 사용자가 구매 확신이 높아졌다고 응답했고, 중대형 리테일러 기준 ROI 회수 기간은 9-12개월입니다(Gartner, 2025). AI 패션 시장 규모는 2025년 $1.75B에서 CAGR 40.8%로 성장 중입니다(Research and Markets, 2026).
에이블리, 지그재그, 무신사 — 한국 패션 플랫폼의 AI 실험
한국 패션 플랫폼들이 Vision AI를 가장 적극적으로 실험하고 있습니다.
에이블리는 "AI 옷입기"(가상 피팅)와 "AI 스타일"(컨셉 이미지 생성)을 도입했는데요, AI 스타일 기능의 사용자 수가 2개월 만에 30배(2,995%) 증가했습니다(이투데이, 2026). 에이블리는 2019년부터 AI 개인화를 적용해왔고, 2025년 8월 기준 MAU 1위 패션 앱입니다.

지그재그의 "직잭렌즈"는 사진 기반 상품 매칭 서비스입니다. 마음에 드는 옷 사진을 올리면 카테고리, 색상, 패턴, 네크라인, 핏, 소매, 소재 등의 속성을 자동 분석해서 유사 상품을 찾아줍니다. 유저 수가 YoY 140% 증가했고, 추천 상품 클릭률은 72% 높아졌습니다. 특히 20-23세 연령대에서 클릭률이 88% 증가해서, 젊은 층의 비주얼 서치 수요가 뚜렷합니다(Digital Daily, 2024).

무신사는 조금 다른 접근을 합니다. YOLOS-Fashionpedia 모델로 이미지에서 패션 아이템을 탐지하고, OpenSearch의 k-NN 검색으로 시각적 유사 상품을 매칭합니다(AWS Tech Blog, 2024). 퍼스널 컬러 분석과 트렌드 기반 추천도 제공합니다.
| 플랫폼 | AI 기능 | 기술 | 핵심 지표 |
|---|---|---|---|
| 에이블리 | AI 옷입기 + AI 스타일 | 생성형 AI 가상 피팅 | AI 스타일 유저 2개월 30배 증가 |
| 지그재그 | 직잭렌즈 (사진 검색) | 자체 속성 추출 모델 | 유저 +140% YoY, 클릭 +72% |
| 무신사 | 시각 유사 검색 + 개인화 | YOLOS + OpenSearch k-NN | 1500만+ 회원 |
이 세 플랫폼의 접근은 기술적으로 다릅니다. 에이블리는 생성형 AI(이미지를 만드는 쪽), 지그재그는 시각 검색(이미지를 이해하는 쪽), 무신사는 객체 탐지 + 유사 검색(이미지를 분석하는 쪽)입니다. 조합 이미지 검색(CIR)처럼 "이 옷과 비슷하지만 색만 다르게"라는 복합 쿼리를 처리하는 방향으로 수렴할 가능성이 높습니다.
Google Lens 200억, Pinterest 6억 — 글로벌 비주얼 서치 현황
글로벌 비주얼 서치의 규모는 이미 거대합니다.
Google Lens는 월 200억 건의 시각 검색을 처리하고, 이 중 20%(월 40억 건)가 쇼핑 의도를 담고 있습니다(Google Blog, 2025). Pinterest Lens는 월 6억+ 시각 검색을 처리합니다(SQ Magazine, 2026). Amazon의 시각 검색은 YoY 70% 성장했고, 사진 기반 검색은 2배로 늘었습니다.
비주얼 서치의 86%가 패션 분야에서 발생한다는 데이터도 있습니다(Imagga, 2026). 패션이야말로 텍스트보다 이미지가 훨씬 효과적인 도메인이거든요. "약간 더 어두운 빈티지 느낌의 가죽 자켓"이라는 텍스트 검색보다, 마음에 드는 자켓 사진을 올리는 게 훨씬 정확합니다.
비즈니스 임팩트도 명확합니다. Zalando는 비주얼 서치 도입 후 고객 참여가 18% 증가했고, Shopify 가맹점은 평균 15% 매출 증가를 보고했습니다. H&M은 Google Cloud AI로 재고를 9% 줄이면서 영업이익을 40% 끌어올렸습니다(fashn.ai, 2026).
시각 검색 시장 전체로 보면, 2024년 $40B에서 2032년 $150B+로 성장이 전망됩니다(CAGR 17-18%)(Imagga, 2026).
인테리어 AI는 공간을 어떻게 재설계하고 있는가?
AI 인테리어 디자인 시장은 2025년 $1.39B에서 2032년 $6.96B으로 성장이 전망되며, CAGR은 21.51%입니다(SNS Insider, 2025). 방 사진 한 장으로 스타일을 바꾸고, 가구를 배치하고, 쇼핑까지 연결하는 서비스가 빠르게 늘어나고 있습니다.
오늘의집 — AI 광고로 1000억 전환을 만들다
한국 인테리어 플랫폼 오늘의집은 AI를 광고와 커머스의 연결점으로 활용하고 있습니다. AI 광고 프로그램이 1년간 30억+ 노출과 1000억+ KRW 전환 매출을 기록했습니다(TechM, 2025). 주간 구매자도 37% 증가했습니다.
오늘의집의 접근이 흥미로운 건, 단순한 시각 검색이 아니라 3D 인테리어 시뮬레이션, AI 평면도 인식, 행동 분석 기반 개인화 추천을 결합했다는 점입니다. 사용자가 올린 인테리어 사진에서 가구를 인식하고, 유사 상품을 추천하고, 광고로 연결하는 파이프라인이 구축되어 있습니다.
이 사례에서 주목할 건 "VLM이 직접 매출을 만든다"기보다 "VLM이 광고-커머스 연결을 더 정밀하게 만들어서 전환율을 높인다"는 점입니다. 시각적 맥락을 이해하는 AI가 "이 거실에 어울리는 조명"을 추천할 수 있으니, 텍스트 키워드 기반 광고보다 전환율이 높아지는 건 당연한 결과입니다.
RoomGPT, Collov AI, Havenly — 사진 한 장으로 방을 바꾸다
글로벌 시장에서는 "사진 한 장으로 방을 리디자인하는" 서비스가 대중화되고 있습니다.
RoomGPT는 400만+ 룸을 처리한 AI 인테리어 리디자인 서비스입니다(RoomGPT, 2025). 방 사진을 업로드하고 원하는 스타일을 선택하면, AI가 해당 스타일로 변환된 이미지를 생성합니다. 실제 공사 없이 리모델링 결과를 미리 볼 수 있는 거죠.
Collov AI는 한 단계 더 나아갑니다. 100만+ 유저가 60+ 국가에서 2000만+ 디자인을 생성했는데요, 채팅 기반으로 "소파를 제거해줘", "벽을 빨간색으로"라는 자연어 명령이 가능합니다(Collov, 2025). 문서를 이미지로 검색하는 기술이 텍스트 파이프라인을 제거한 것처럼, Collov는 인테리어 디자인에서 전문가 의존성을 줄이고 있습니다.
Havenly AI는 2025년 10월에 출시되었는데, 240만 독점 렌더링으로 학습된 자체 모델과 50만+ 상품 카탈로그가 연동됩니다(Business of Home, 2025). 디자인을 보고 바로 가구를 구매할 수 있는 "쇼핑 가능한 디자인"이 핵심입니다.
| 플랫폼 | 핵심 기능 | 규모 | 차별점 |
|---|---|---|---|
| 오늘의집 | AI 광고 + 3D 시뮬레이션 | 1000억+ KRW 전환 | 광고-커머스 연결 |
| RoomGPT | 사진→스타일 변환 | 400만+ 룸 처리 | 간편함, 접근성 |
| Collov AI | 채팅 기반 리디자인 | 100만+ 유저, 2000만+ 디자인 | 자연어 인터페이스 |
| Havenly AI | 디자인→쇼핑 연동 | 240만 렌더링 학습 | 50만 상품 카탈로그 |
VLM을 도입하려면 API를 쓸 것인가, 직접 운영할 것인가?
기업의 72%가 AI 투자를 늘릴 계획이고, 40%가 $250K 이상을 책정하고 있습니다(Menlo Ventures, 2025). 그런데 Vision LLM을 어떻게 도입할 것인지는 비용 구조에 따라 크게 달라집니다.
Vision API 가격은 얼마인가?
2026년 초 기준 주요 Vision API 가격을 정리하면, 최저가와 최고가 사이에 16배 이상 차이가 납니다.
| 제공사 | 모델 | 입력 ($/M tokens) | 출력 ($/M tokens) | 용도 |
|---|---|---|---|---|
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 최저가, 단순 비전 | |
| OpenAI | GPT-4o-mini | $0.15 | $0.60 | 가벼운 비전 태스크 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 가성비 최고 | |
| Gemini 2.5 Pro | $1.25 | $10.00 | 복잡한 멀티모달 추론 | |
| OpenAI | GPT-4.1 | $2.00 | $8.00 | 범용 고성능 |
| OpenAI | GPT-4o | $2.50 | $10.00 | 범용 |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | 프리미엄 |
단순 이미지 분류나 OCR이라면 Gemini Flash-Lite($0.10)로 충분하고, 복잡한 시각 추론이 필요하면 Gemini 2.5 Pro($1.25)가 가격 대비 성능이 좋습니다.
자체 호스팅의 경우, A100 80GB 기준 월 $1,000-1,500, RTX 4090은 월 약 $149(Salad 기준)입니다(Awesome Agents, 2026). 월 200만+ 추론 규모에서 자체 호스팅이 API 대비 유리해지기 시작합니다. 다만 엔지니어링 셋업(20-40시간)과 월 유지보수(5-10시간)라는 숨겨진 비용이 있습니다.
GPU 서버리스 배포를 활용하면 자체 호스팅의 비용 효율과 API의 편의성 사이에서 균형을 찾을 수도 있습니다. 사용량이 예측 불가능한 초기 단계에서 특히 유용합니다.
Gartner는 "Blend" 접근을 권장합니다. API로 빠르게 POC를 만들고, 검증된 유스케이스에서 자체 호스팅으로 전환하는 방식입니다. 이전 글에서 다룬 InternVL3.5의 DvD(4.05x 속도향상)나 Visual Resolution Router(토큰 50% 절감) 같은 기술이 자체 호스팅의 비용을 더 낮춰주고 있습니다.
리스크와 거버넌스는 어떻게 관리하는가?
VLM 도입에서 가장 자주 거론되는 세 가지 리스크가 있습니다.
첫째, 환각(hallucination)입니다. 최고 성능 모델(Gemini 2.0 Flash)의 환각률이 0.7%인 반면, 어려운 벤치마크에서는 Claude Sonnet 4.6이 10.6%, GPT-5.2가 10.8%까지 올라갑니다(Suprmind, 2026). 도메인별로는 법률 69-88%, 의료 43-64%입니다. 교육이나 의료 도메인에서는 환각 한 건이 직접적인 피해로 이어질 수 있어서, RAG 시스템과 인간 검증 루프가 필수입니다.
둘째, 개인정보입니다. 사진에 얼굴, 위치 정보, 개인 식별 가능 정보가 포함될 수 있습니다. GDPR 누적 벌금이 58.8억 유로에 달하고, 교육 도메인에서는 FERPA 준수도 필요합니다. 기업의 20%만이 성숙한 AI 거버넌스 모델을 갖추고 있습니다(Deloitte, 2026).
셋째, 벤더 락인입니다. 62%의 기업이 오픈소스를 벤더 락인 회피 수단으로 활용하고, 25%가 이미 API 가격 인상을 경험했습니다. LLM 서빙 최적화와 어텐션 연산 최적화 기술의 발전이 자체 호스팅의 진입 장벽을 낮추고 있어서, 오픈소스 VLM으로의 전환이 점점 현실적인 옵션이 되고 있습니다.
References
- McKinsey State of AI 2025 — mckinsey.com
- Gartner: 80% Multimodal by 2030 — gartner.com, Jul 2025
- Harvard AI Tutoring RCT — Nature Scientific Reports, Jun 2025
- Google LearnLM RCT — Google Research, Sep 2025
- Microsoft AI in Education Report — microsoft.com, 2025
- QANDA Official — qanda.ai, 2025
- Khanmigo Case Study — Reruption, 2025
- ChatGPT STEM Visuals — OpenAI, Mar 2026
- Kakao Kanana-o — kakaocorp.com, Dec 2025
- Pensieve Grader — arXiv:2507.01431, Jul 2025
- AI in Education Market — Precedence Research, 2026
- Virtual Try-On ROI — Rewarx/Accenture, 2025
- 에이블리 AI 스타일 — 이투데이, Jan 2026
- 지그재그 직잭렌즈 — Digital Daily, Sep 2024
- 무신사 AI 추천 — AWS Tech Blog, 2024
- Google Lens Statistics — Google Blog, Sep 2025
- H&M + Google Cloud — fashn.ai, 2026
- 오늘의집 AI 광고 — TechM, 2025
- AI Interior Design Market — SNS Insider, 2025
- Collov AI — collov.ai, 2025
- Havenly AI — Business of Home, Oct 2025
- Menlo Ventures State of GenAI — menlovc.com, 2025
- Hosting Costs — Awesome Agents, 2026
- Hallucination Benchmarks — Suprmind, Mar 2026
- Deloitte State of AI 2026 — deloitte.com, 2026
- UNESCO AI Guidelines — UNESCO, 2023
- Visual Search Market — Imagga, 2026
- AI Fashion Market — Research and Markets, 2026
- DemandSage AI Education Statistics — demandsage.com, 2025