개발자의 성장 로그

2026년 AI 영상 생성 도구 비교 완벽 가이드 — Sora·Runway·Kling 총정리

growup_lee — Tue, 14 Apr 2026 22:18:57 +0900

2026년 현재 AI 영상 생성 도구 비교 시장은 폭발적으로 성장 중입니다. Sora, Runway Gen-3, Kling AI 중 어떤 도구가 내 용도에 맞는지, 가격과 기능을 꼼꼼하게 비교해 초보자도 바로 선택할 수 있도록 정리했습니다.

AI 영상 생성 도구, 지금 왜 주목받는가?
AI 영상 생성 도구 비교 한눈에 보기
Sora — OpenAI의 야심작, 실제로 어떤가?
Runway Gen-3 — 크리에이터의 현실적 선택
Kling AI — 한국어 지원까지 되는 중국발 강자
AI 영상 도구 가격 비교 총정리
초보자 추천 AI 영상 생성기 선택 가이드
자주 묻는 질문 (FAQ)

AI 영상 생성 도구, 지금 왜 주목받는가?

텍스트 한 줄로 영화 같은 영상이 뚝딱 만들어지는 시대가 왔습니다. AI 영상 생성 도구 비교가 뜨거운 이유는 단순한 트렌드가 아닙니다. 유튜버, 마케터, 스타트업 모두가 영상 제작 비용을 수십 배 줄이면서도 퀄리티를 높이고 있기 때문입니다.

2026년 기준으로 시장에서 가장 많이 언급되는 AI 영상 생성 도구는 크게 세 가지입니다. OpenAI의 Sora, 크리에이터에게 친숙한 Runway Gen-3, 그리고 놀라운 속도로 치고 올라온 Kling AI입니다. 이 세 도구를 직접 써보고 비교해봤습니다.

어떤 도구를 선택하느냐에 따라 결과물의 분위기, 사용 편의성, 월 지출 비용이 크게 달라집니다. 지금부터 핵심만 짚어드릴게요.

AI 영상 생성 도구 비교 한눈에 보기

세 도구의 핵심 스펙을 표로 정리했습니다. AI 영상 생성 도구 비교에서 가장 먼저 확인해야 할 항목들입니다.

항목	Sora (OpenAI)	Runway Gen-3	Kling AI
최대 영상 길이	최대 20초	최대 16초	최대 3분
최대 해상도	1080p	1080p	1080p (4K 베타)
한국어 프롬프트	⚠️ 영어 권장	⚠️ 영어 권장	✅ 한국어 지원
무료 플랜	제한적 (월 50크레딧)	✅ 125크레딧/월	✅ 일일 무료 쿼터
월 유료 최저가	$20 (Plus 포함)	$15	약 $8 (66위안)
영상 사실감	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
편집 기능	기본	✅ 풍부한 편집툴	중간
초보자 친화도	중간	✅ 높음	✅ 높음

Sora — OpenAI의 야심작, 실제로 어떤가?

Sora는 ChatGPT를 만든 OpenAI가 선보인 AI 영상 생성 도구입니다. 2024년 말 공개 이후 사실감 넘치는 영상 품질로 업계를 충격에 빠뜨렸습니다. 텍스트 프롬프트만으로 물리 법칙을 이해하는 듯한 자연스러운 움직임을 만들어냅니다.

✅ Sora 장점
• 현존 최고 수준의 영상 사실감 — 빛, 그림자, 물리 표현이 압도적
• ChatGPT Plus 구독자는 별도 요금 없이 접근 가능
• 스토리보드 기능으로 씬 단위 편집 가능
• OpenAI 생태계(ChatGPT, DALL-E)와 자연스러운 연동

⚠️ Sora 단점
• 한국어 프롬프트 인식이 불안정 — 영어로 작성해야 최고 결과
• 최대 영상 길이 20초 제한으로 긴 콘텐츠 제작 어려움
• 크레딧 소진이 빠르고 유료 전환 부담
• 생성 속도가 Rush 옵션 없이는 느린 편

Sora 사용법은 간단합니다. sora.com에 접속 후 ChatGPT Plus 계정으로 로그인 → 텍스트 프롬프트 입력 → 해상도·길이 설정 → 생성 버튼 클릭. 프롬프트는 구체적일수록 결과가 좋습니다. "cinematic, golden hour, slow motion" 같은 영화 촬영 용어를 추가하면 품질이 확연히 달라집니다.

️ Runway Gen-3 비교 — 크리에이터의 현실적 선택

Runway Gen-3는 단순한 AI 영상 생성 도구가 아닙니다. 영상 편집, 배경 제거, 인페인팅 등 크리에이터가 실제로 필요한 기능이 올인원으로 묶여 있습니다. 유튜버와 마케터 사이에서 가장 실용적인 선택으로 꼽히는 이유입니다.

✅ Runway Gen-3 장점
• Gen-3 Alpha 모델 기준 캐릭터 일관성 크게 향상
• Motion Brush, 카메라 컨트롤 등 영상 편집 기능 풍부
• 이미지→영상(img2video) 변환 품질 우수
• 월 $15부터 시작하는 합리적 가격

⚠️ Runway Gen-3 단점
• 최대 16초 길이 제한 (긴 영상은 여러 클립 이어붙이기 필요)
• 사실감은 Sora 대비 한 단계 낮음
• 무료 플랜 125크레딧 소진 후 품질 저하 없이 계속하려면 유료 필수
• 한국어 프롬프트보다 영어 사용 시 결과 품질이 안정적

Runway Gen-3 비교 시 가장 돋보이는 점은 편집 생태계입니다. 영상 생성 후 같은 플랫폼 안에서 바로 자막, 배경 교체, 색보정까지 처리할 수 있어 외부 편집 툴 의존도가 줄어듭니다. 영상 콘텐츠를 꾸준히 만들 계획이라면 Runway가 가장 효율적입니다.

Kling AI — 한국어 지원까지 되는 중국발 강자

Kling AI는 중국 쾌수(快手) 테크가 개발한 AI 영상 생성 도구로, 2024년 하반기부터 글로벌 시장에서 빠르게 존재감을 키웠습니다. 가장 큰 차별점은 한국어 지원과 압도적으로 긴 최대 영상 길이(최대 3분)입니다.

✅ Kling AI 장점
• 한국어 프롬프트 입력 가능 — 한국 사용자에게 가장 진입장벽이 낮음
• 최대 3분 영상 생성 (경쟁 도구 대비 압도적 길이)
• 4K 해상도 베타 지원
• 일일 무료 크레딧으로 부담 없이 테스트 가능
• 가장 저렴한 유료 플랜 (약 $8/월)

⚠️ Kling AI 단점
• 사실감은 Sora보다 낮고, 복잡한 물리 표현에서 어색함 발생
• 중국 서비스라 간혹 접속 속도 이슈
• 영문 콘텐츠보다 한국어·중국어 콘텐츠 최적화 편향
• 고급 편집 기능은 Runway 대비 부족

Kling AI 한국어 지원은 특히 영어에 부담을 느끼는 초보 사용자에게 게임 체인저입니다. "봄날 공원에서 아이가 뛰어노는 장면, 따뜻한 햇살, 슬로우모션"처럼 자연스러운 한국어로 프롬프트를 입력해도 높은 품질의 영상이 나옵니다.

AI 영상 도구 가격 비교 총정리

AI 영상 도구 가격 비교는 장기 사용 시 꼭 따져봐야 합니다. 크레딧 기반 과금은 사용량이 늘수록 비용이 폭발적으로 증가할 수 있습니다.

플랜	Sora	Runway	Kling AI
무료	월 50크레딧 (워터마크)	월 125크레딧	일 66크레딧
기본 유료	$20/월 (Plus 구독 포함)	$15/월 (625크레딧)	약 $8/월 (66위안)
프로	별도 크레딧 구매	$35/월 (2,250크레딧)	약 $22/월 (프로)
10초 영상 생성 비용	약 5~10크레딧	약 10크레딧	약 10크레딧

가성비 결론: 가볍게 시작하고 싶다면 Kling AI가 가장 저렴합니다. 영상 편집까지 원스톱으로 해결하고 싶다면 Runway $15 플랜이 합리적입니다. 최고 품질의 영상이 목적이라면 Sora를 선택하되, ChatGPT Plus 구독과 묶어 활용하면 비용 효율이 올라갑니다.

초보자 추천 AI 영상 생성기 선택 가이드

세 도구의 AI 영상 생성 도구 비교를 마쳤으니 이제 내 상황에 맞는 선택을 해봅시다. 초보자 추천 AI 영상 생성기는 사용 목적에 따라 달라집니다.

✅ Kling AI 추천 대상

영어 프롬프트 작성이 부담스러운 분
긴 영상(1분 이상)을 만들고 싶은 분
최소 비용으로 AI 영상 생성을 시작하고 싶은 분
SNS용 짧은 영상을 대량으로 제작하는 크리에이터

✅ Runway Gen-3 추천 대상

영상 편집까지 한 플랫폼에서 처리하고 싶은 분
이미지→영상 변환(img2video)을 자주 쓰는 분
유튜브·광고 영상을 정기적으로 제작하는 마케터
안정적인 품질과 다양한 편집 기능이 필요한 분

✅ Sora 추천 대상

최고 수준의 영상 사실감이 필요한 분
ChatGPT Plus를 이미 구독 중인 분
광고·브랜드 영상처럼 퀄리티가 중요한 프로젝트
영어 프롬프트 작성에 익숙한 분

처음 AI 영상 생성을 시작하는 분이라면 Kling AI 무료 플랜으로 부담 없이 시작해보세요. 기능에 익숙해진 뒤 목적에 맞는 도구로 넘어가는 것이 가장 스마트한 방법입니다.

❓ 자주 묻는 질문 (FAQ)

Q. AI 영상 생성 도구 비교 시 가장 먼저 봐야 할 기준은 무엇인가요?

사용 목적과 예산이 가장 중요합니다. 짧은 SNS 영상이 목적이라면 Kling AI처럼 무료 쿼터가 넉넉한 도구가 유리하고, 광고나 유튜브용 고품질 영상이 필요하다면 Sora나 Runway를 고려하세요. 한국어 지원 여부도 프롬프트 작성 편의성에 큰 영향을 미칩니다.

Q. Kling AI 한국어 지원이 실제로 잘 되나요?

네, 실제로 테스트해봤을 때 한국어 프롬프트로도 의도를 잘 파악하는 편입니다. 다만 영화적 표현(cinematic, golden hour 등)을 영어 단어로 섞어 쓰면 완성도가 더 올라갑니다. 완전한 한국어 프롬프트만으로도 기본 이상의 결과는 나옵니다.

Q. 무료 플랜만으로도 실용적으로 쓸 수 있나요?

Runway의 월 125크레딧은 5초 영상 기준 약 12~~15개, Kling AI의 일 66크레딧은 하루 3~~5개 정도의 영상을 생성할 수 있는 수준입니다. 개인 SNS용이나 테스트 목적이라면 무료로도 충분합니다. 다만 상업용 혹은 정기적인 콘텐츠 생산에는 유료 전환이 필요합니다.

Q. AI 영상 생성 도구로 만든 영상을 유튜브에 올려도 되나요?

대부분의 AI 영상 생성 도구는 유료 플랜 기준으로 상업적 사용을 허용합니다. 단, 무료 플랜에서는 워터마크가 붙거나 상업적 사용이 제한될 수 있습니다. 유튜브 수익화 목적이라면 반드시 각 도구의 이용약관을 확인하고 유료 플랜에서 생성한 영상을 사용하세요.

✍️ 마치며 — AI 영상 생성 도구 비교, 이렇게 선택하세요

2026년 현재 AI 영상 생성 도구 비교의 결론은 명확합니다. 최고 품질 → Sora, 올인원 편집 → Runway Gen-3, 가성비 + 한국어 → Kling AI. 세 도구 모두 무료 플랜이 있으니 직접 써보고 자신의 작업 스타일에 맞는 것을 선택하는 것이 가장 좋습니다.

AI 영상 생성 기술은 매달 눈에 띄게 발전하고 있습니다. 지금 시작하지 않으면 뒤처질 수밖에 없는 흐름입니다. 오늘 Kling AI 무료 플랜에 가입해서 첫 번째 AI 영상을 만들어보세요. 생각보다 훨씬 쉽고 재미있습니다.

이 글이 도움이 됐다면 공유해 주세요!

AI 도구 최신 비교 정보는 블로그 구독으로 놓치지 마세요. 매주 실용적인 AI 활용 가이드를 올려드립니다.

2026년 무료 AI 도구 모음 총정리 — 지금 바로 쓸 수 있는 베스트 15

growup_lee — Tue, 14 Apr 2026 22:06:42 +0900

2026년 최신 무료 AI 도구 모음을 한눈에 정리했습니다. 무료 AI 글쓰기, 이미지 생성, 챗봇, 번역기, 생산성 도구까지 — 비용 없이 바로 시작할 수 있는 베스트 15선을 소개합니다.

무료 AI 도구, 왜 지금 써야 할까?
무료 AI 글쓰기 도구 TOP 3
무료 AI 이미지 생성 도구 TOP 3
무료 AI 챗봇 추천 TOP 3
무료 AI 번역기 비교
무료 AI 생산성 도구 추천
무료 AI 도구 한눈에 비교
자주 묻는 질문 (FAQ)
마무리

무료 AI 도구, 왜 지금 써야 할까?

"AI 도구는 비싸다"는 생각, 이제 버려도 됩니다. 2026년 현재 무료 AI 도구 모음은 그 수와 질이 폭발적으로 늘어났습니다. 글쓰기, 이미지 생성, 번역, 업무 자동화까지 — 유료 서비스 부럽지 않은 성능을 무료로 경험할 수 있습니다.

실제로 많은 프리랜서와 소상공인들이 무료 AI 도구 모음만으로 콘텐츠 제작 시간을 절반 이하로 줄이고 있습니다. 처음엔 "이게 공짜라고?" 싶을 정도로 성능이 뛰어난 도구들도 있으니, 지금 바로 확인해 보세요.

✍️ 무료 AI 글쓰기 도구 TOP 3

무료 AI 글쓰기 도구는 블로그 초안, SNS 문구, 이메일 작성까지 폭넓게 활용할 수 있습니다. 아래 3가지를 먼저 써보세요.

1. ChatGPT Free (OpenAI)

GPT-4o 기반 무료 플랜을 제공합니다. 하루 사용 횟수 제한이 있지만, 블로그 초안 작성이나 아이디어 브레인스토밍에는 충분합니다. 한국어 품질이 뛰어나서 국내 사용자에게 특히 추천합니다.

✅ 추천 대상: 블로그 글쓰기 입문자, SNS 콘텐츠 제작자

2. 뤼튼 (Wrtn)

국내 서비스 중 가장 활발한 무료 AI 글쓰기 도구입니다. GPT-4와 Claude를 무료로 사용할 수 있으며, 한국어 특화 템플릿이 풍부합니다. 마케팅 문구, 상품 설명 등 실무형 콘텐츠에 강합니다.

✅ 추천 대상: 국내 마케터, 쇼핑몰 운영자

3. Notion AI (무료 체험)

Notion 내에서 바로 글을 다듬거나 요약할 수 있습니다. 무료 체험 기간이 제한적이지만, 문서 정리와 글쓰기를 동시에 해결할 수 있는 통합 환경이 매력적입니다.

✅ 추천 대상: Notion 기존 사용자, 문서 정리가 필요한 직장인

무료 AI 이미지 생성 도구 TOP 3

무료 AI 이미지 생성 도구의 품질은 2026년 들어 유료 수준에 근접했습니다. 블로그 썸네일, SNS 포스팅, 상품 목업까지 활용 범위가 넓습니다.

1. Microsoft Designer (DALL-E 3 기반)

Microsoft 계정만 있으면 하루 일정 횟수의 무료 AI 이미지 생성이 가능합니다. DALL-E 3 엔진을 사용하기 때문에 텍스트 이해도와 사실적인 표현이 뛰어납니다. 한국어 프롬프트도 잘 인식합니다.

2. Adobe Firefly (무료 플랜)

상업적 사용이 가능한 무료 AI 이미지 생성 도구입니다. 저작권 문제 없이 안심하고 쓸 수 있다는 것이 가장 큰 장점입니다. 월 25크레딧 무료 제공.

3. Canva AI (무료 플랜)

디자인 편집과 AI 이미지 생성을 한 곳에서 해결합니다. 템플릿이 풍부해 초보자도 빠르게 결과물을 만들 수 있습니다. SNS 콘텐츠 제작에 최적화돼 있습니다.

무료 AI 챗봇 추천 TOP 3

무료 AI 챗봇 추천 목록에서 빠질 수 없는 세 가지입니다. 질문 답변, 코드 작성, 정보 검색 등 일상 업무에 바로 투입할 수 있습니다.

1. Claude (Anthropic) — 무료 플랜

긴 문서 분석과 정교한 글쓰기에 강합니다. 한국어 이해도도 높고, 논리적인 답변 구조가 인상적입니다. 무료 AI 챗봇 추천 중 창의적 작업에는 단연 1위입니다.

2. Gemini (Google) — 무료 플랜

Google 검색과 연동되어 최신 정보를 실시간으로 반영합니다. 이미지 분석 기능도 무료로 제공되며, Gmail·Docs 등 Google Workspace와 통합이 쉽습니다.

3. Perplexity AI — 무료 플랜

인터넷 검색 기반 AI 챗봇으로, 출처를 함께 제공해 신뢰도가 높습니다. 최신 정보가 중요한 리서치 작업에 특히 유용합니다. 무료 AI 챗봇 추천 중 정보 수집용 1순위입니다.

무료 AI 번역기 비교

무료 AI 번역기는 이제 단순 번역을 넘어 문맥과 뉘앙스까지 살려냅니다. 대표적인 세 가지를 비교해 보세요.

DeepL 무료 — 자연스러운 문체, 한-영-일 번역 품질 최상. 월 50만 자 무료 제공.
Papago (네이버) — 한국어 특화, 구어체와 문어체 구분이 정확. 이미지 번역 지원.
Google 번역 — 100개 이상 언어 지원, 웹페이지 통째로 번역 가능. 범용성 1위.

⚠️ 중요 문서나 계약서 번역은 AI 번역 후 반드시 사람이 검토하세요. 전문 용어나 법률 표현은 오역 가능성이 있습니다.

⚡ 무료 AI 생산성 도구 추천

무료 AI 생산성 도구는 반복 업무를 자동화하고 집중력을 높여줍니다. 다음 도구들을 지금 당장 도입해 보세요.

Otter.ai (무료 플랜) — 회의 내용을 자동으로 텍스트로 변환. 월 600분 무료 제공.
Gamma (무료 플랜) — 텍스트 입력만으로 프레젠테이션 자동 생성. 10슬라이드 무료.
Zapier AI (무료 플랜) — 앱 간 자동화 워크플로우를 AI가 설계. 월 100회 무료 실행.

무료 AI 도구 모음 한눈에 비교

도구	카테고리	무료 한도	한국어 지원	추천 용도
ChatGPT Free	글쓰기/챗봇	일일 제한	⭐⭐⭐⭐⭐	블로그 초안, 아이디어
뤼튼	글쓰기	무제한(일부)	⭐⭐⭐⭐⭐	마케팅 문구, 상품 설명
Microsoft Designer	이미지 생성	일 15회	⭐⭐⭐⭐	블로그 썸네일
Adobe Firefly	이미지 생성	월 25크레딧	⭐⭐⭐	상업용 이미지
Claude	챗봇	일일 제한	⭐⭐⭐⭐⭐	문서 분석, 창작
DeepL 무료	번역기	월 50만 자	⭐⭐⭐⭐⭐	영문 번역
Perplexity AI	챗봇/검색	일일 제한	⭐⭐⭐⭐	리서치, 최신 정보
Otter.ai	생산성	월 600분	⭐⭐⭐	회의록 자동화

❓ 자주 묻는 질문 (FAQ)

무료 AI 도구는 유료 버전과 품질 차이가 많이 나나요?

기본 사용에는 충분한 경우가 많습니다. 다만 무료 플랜은 사용 횟수 제한, 느린 속도, 최신 모델 미지원 등의 제약이 있습니다. 업무에 본격 활용한다면 유료 플랜을 고려해 보세요. 우선 무료로 충분히 테스트한 후 결정하는 것을 추천합니다.

무료 AI 이미지 생성 도구로 만든 이미지를 상업적으로 사용해도 되나요?

도구마다 다릅니다. Adobe Firefly는 상업적 사용이 허용되지만, 일부 도구는 개인 사용만 허용합니다. 반드시 각 서비스의 이용약관을 확인하세요. 상업용 이미지가 필요하다면 Adobe Firefly 또는 Canva Pro(유료)를 추천합니다.

무료 AI 챗봇에 개인정보나 회사 기밀을 입력해도 안전한가요?

⚠️ 주의가 필요합니다. 대부분의 무료 AI 챗봇은 입력 데이터를 서비스 개선에 활용할 수 있습니다. 개인정보(주민번호, 연락처), 회사 기밀, 고객 정보는 절대 입력하지 마세요. 기업 환경에서는 보안 정책이 강화된 엔터프라이즈 플랜을 사용하세요.

무료 AI 번역기 중 한국어가 가장 자연스러운 것은?

영→한 번역은 DeepL이, 한→영 번역과 일상 구어체는 Papago가 강합니다. 여러 언어가 필요하다면 Google 번역이 범용성 면에서 유리합니다. 중요한 번역은 두 가지 도구를 비교해 보는 것을 권장합니다.

✅ 마무리 — 오늘부터 무료 AI 도구 모음 활용 시작!

지금까지 2026년 최고의 무료 AI 도구 모음을 카테고리별로 정리했습니다. 글쓰기엔 뤼튼과 ChatGPT, 이미지 생성엔 Microsoft Designer, 챗봇은 Claude와 Perplexity, 번역은 DeepL, 생산성은 Gamma와 Otter.ai를 우선 시도해 보세요.

모든 도구를 한 번에 도입할 필요는 없습니다. 지금 가장 시간이 많이 걸리는 작업 하나를 골라 무료 AI 도구로 대체해 보세요. 작은 변화가 업무 생산성을 크게 바꿔줄 것입니다.

이 글이 도움이 됐다면 공유해 주세요!

더 많은 AI 도구 리뷰와 활용법을 구독하고 가장 먼저 받아보세요.

EXAONE 4.5: LG의 첫 오픈웨이트 비전-언어 모델 완전 분석 (2026)

growup_lee — Thu, 9 Apr 2026 21:41:10 +0900

산업 현장에서 계약서, 기술 도면, 재무제표를 AI로 분석하고 싶었지만, 기존 텍스트 중심 LLM으로는 한계가 명확했어요. 2026년 4월 9일, LG AI연구원이 공개한 **EXAONE 4.5**는 바로 이 문제를 정면으로 겨냥한 비전-언어 모델(VLM)이에요. 자체 개발한 비전 인코더(Vision Encoder)와 EXAONE 4.0 LLM을 하나의 구조로 통합해, 텍스트와 이미지를 동시에 이해하고 추론하는 능력을 갖췄어요. 특히 330억(33B) 파라미터라는 비교적 컴팩트한 크기로 글로벌 톱티어 모델들을 벤치마크에서 앞서는 점이 인상적이에요. 이 글에서는 아키텍처, 벤치마크 성능, 그리고 실제 배포 방법까지 개발자 관점에서 핵심을 짚어볼게요.

## 아키텍처: 네이티브 멀티모달과 하이브리드 어텐션

**EXAONE 4.5**의 가장 큰 기술적 차별점은 네이티브 멀티모달 사전학습(Native Multimodal Pretraining) 방식을 채택했다는 점이에요. 기존의 많은 VLM이 텍스트 모델과 비전 모델을 각각 학습한 뒤 후처리로 결합하는 반면, EXAONE 4.5는 처음부터 텍스트와 시각 정보를 함께 학습해요. 이 접근 방식 덕분에 두 모달리티 간의 자연스러운 융합이 이뤄지고, 복합 문서를 다룰 때 맥락 파악 능력이 크게 향상돼요.

### Visual Encoder 설계

비전 인코더에는 Grouped Query Attention(GQA) 메커니즘이 적용됐어요. 쿼리를 여러 그룹으로 묶고, 각 그룹이 동일한 Key-Value 헤드를 공유하는 구조예요. 이를 통해 시각 정보 처리에 따른 연산량 증가를 최소화하면서도 성능을 유지해요. 비전 인코더의 파라미터는 약 12억(1.2B)으로, 전체 33B 중 상대적으로 가벼운 비중을 차지해요.

실용적인 관점에서 GQA는 vLLM, TensorRT-LLM, SGLang 등 주요 추론 프레임워크가 이미 기본 최적화를 지원하는 방식이에요. 별도의 커스텀 커널 없이도 추론 속도와 메모리 효율을 바로 확보할 수 있다는 뜻이에요.

### 효율성 극대화

EXAONE 4.5는 K-EXAONE(236B) 대비 약 7분의 1 크기이지만, 하이브리드 어텐션 구조와 멀티 토큰 예측(Multi-Token Prediction) 기반의 고속 추론 기술을 적용해 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다고 LG AI연구원은 설명해요. 단일 H200 GPU에서 256K 컨텍스트 길이로 서빙할 수 있고, 4x A100-40GB에서도 텐서 병렬 처리로 운영이 가능해요.

## 벤치마크 성능: 글로벌 경쟁 모델과의 비교

LG AI연구원이 공개한 벤치마크 결과에 따르면, **EXAONE 4.5**는 STEM(과학·기술·공학·수학) 5개 지표 평균 77.3점을 기록했어요. 주요 비교 대상 모델의 점수와 비교하면 다음과 같아요:

- OpenAI GPT-5 mini: 73.5점
- Anthropic Claude Sonnet 4.5: 74.6점
- Alibaba Qwen3 235B: 77.0점
- **EXAONE 4.5 33B: 77.3점**

코딩 벤치마크인 LiveCodeBench v6에서는 81.4점을 기록하며 Google Gemma 4(80.0점)를 앞섰어요. 복합 차트 분석을 평가하는 ChartQA Pro에서는 62.2점을 달성했고, MMMU-Pro에서도 GPT-5 mini와 Claude Sonnet 4.5를 상회하는 성적을 보였어요. 13개 시각 평가 지표 평균에서도 주요 경쟁 모델을 앞서는 종합적인 결과를 보여줬어요.

특히 주목할 점은 33B라는 파라미터 규모예요. Qwen3 235B처럼 훨씬 큰 모델과 대등하거나 앞서는 성능을 보인다는 건, 추론 비용 대비 성능 효율이 상당히 높다는 의미예요.

## 실전 배포: vLLM과 SGLang으로 서빙하기

개발자 입장에서 가장 중요한 건 실제로 어떻게 서빙하느냐예요. 현재 **EXAONE 4.5**는 공식 vLLM과 Transformers의 포크(fork) 버전을 설치해야 해요. 설치는 다음과 같아요:

```bash
uv pip install git+https://github.com/lkm2835/vllm.git@add-exaone4_5
uv pip install git+https://github.com/nuxlear/transformers.git@add-exaone4_5
```

vLLM으로 서버를 띄우는 커맨드는 아래와 같아요:

```bash
vllm serve LGAI-EXAONE/EXAONE-4.5-33B \
  --served-model-name EXAONE-4.5-33B \
  --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser hermes
```

SGLang을 선호한다면 EAGLE 기반 Speculative Decoding까지 활용할 수 있어요:

```bash
python -m sglang.launch_server \
  --model-path LGAI-EXAONE/EXAONE-4.5-33B \
  --served-model-name EXAONE-4.5-33B \
  --port 8000 \
  --tp-size 2 \
  --reasoning-parser qwen3 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4
```

서버가 올라가면 OpenAI 호환 API(`http://localhost:8000/v1`)로 바로 연결할 수 있어요. 이미지와 텍스트를 함께 보내는 멀티모달 요청도 OpenAI SDK로 처리할 수 있어요:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="EXAONE-4.5-33B",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}},
            {"type": "text", "text": "이 차트의 핵심 트렌드를 분석해줘"}
        ]
    }],
    max_tokens=32768,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
```

한 가지 주의할 점은 EXAONE 4.5의 기본값이 `enable_thinking=True`라는 것이에요. 지연 시간이 중요한 태스크에서는 `enable_thinking=False`로 비추론(non-reasoning) 모드를 사용하는 게 좋아요. 범용 목적에는 `temperature=1.0`, `top_p=0.95`, `presence_penalty=1.5`가 권장 설정이에요.

## 라이선스와 지원 언어

EXAONE 4.5는 EXAONE AI Model License Agreement 1.2 - NC 라이선스로 허깅페이스(Hugging Face)에 공개돼 있어요. 연구, 학술, 교육 목적으로 자유롭게 활용할 수 있지만, 상업적 사용에는 제한이 있다는 점은 유의해야 해요. 지원 언어는 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 총 6개 언어로 확장됐어요.

LG AI연구원은 한국의 역사와 문화적 맥락을 깊이 이해하는 AI를 목표로 동북아역사재단 등과 협업도 이어가고 있어요. 궁극적으로는 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스(Physical Intelligence)까지 발전시키겠다는 로드맵을 제시했어요.

## 마무리

**EXAONE 4.5**는 33B라는 효율적인 크기로 글로벌 톱티어 모델들을 상회하는 멀티모달 성능을 보여주며, 한국어 맥락 추론에서 특히 강점을 가진 모델이에요. vLLM과 SGLang 등 주요 추론 프레임워크를 지원하므로 기존 인프라에 비교적 수월하게 통합할 수 있어요. NC 라이선스 제한과 포크 버전 의존성은 주의해야 하지만, 산업 현장의 문서 이해와 시각 추론이 필요한 프로젝트라면 반드시 검토해볼 가치가 있는 모델이에요.

Managed Agents 아키텍처: 브레인과 핸즈를 분리하는 확장 전략

growup_lee — Thu, 9 Apr 2026 21:25:39 +0900

에이전트(Agent) 시스템을 프로덕션에 올려본 개발자라면 누구나 한 번쯤 이런 문제를 겪어요. 컨테이너가 죽으면 세션이 날아가고, 디버깅하려면 유저 데이터가 있는 컨테이너에 직접 셸을 열어야 하고, 샌드박스에서 실행되는 코드가 크리덴셜에 접근할 수 있는 보안 구멍이 생기죠. Anthropic 엔지니어링 팀이 Managed Agents를 구축하면서 마주한 문제가 정확히 이것이었고, 그들이 찾은 해법은 "브레인(brain)과 핸즈(hands)의 분리"라는 아키텍처 원칙이에요. 이 글에서는 그 설계 결정의 배경과 구현 디테일, 그리고 우리가 에이전트 시스템을 설계할 때 가져갈 수 있는 인사이트를 정리해 볼게요.

왜 모놀리식 에이전트 컨테이너는 한계에 부딪히는가

초기 Managed Agents 설계에서는 세션(session), 하네스(harness), 샌드박스(sandbox)를 하나의 컨테이너에 모두 넣었어요. 파일 편집이 직접 syscall로 이루어지니 빠르고, 서비스 경계를 설계할 필요가 없다는 장점이 있었죠.

하지만 이 구조는 전형적인 Pets vs Cattle 문제를 만들어요. 인프라 세계에서 "Pet"은 이름이 붙은, 잃어버리면 안 되는 개별 서버이고 "Cattle"은 언제든 교체 가능한 서버를 의미해요. 모든 것이 한 컨테이너에 들어가면 그 컨테이너가 Pet이 되어버려요.

디버깅의 악몽

컨테이너가 응답하지 않으면 유일한 관찰 창구는 WebSocket 이벤트 스트림뿐이에요. 그런데 이 스트림만으로는 장애의 원인이 하네스 버그인지, 패킷 드롭인지, 컨테이너 자체 장애인지 구분할 수 없어요. 결국 엔지니어가 컨테이너 안에 셸을 열어야 하는데, 유저 데이터가 같은 환경에 있으니 사실상 자유로운 디버깅이 불가능했어요.

인프라 연결의 경직성

하네스가 작업 대상이 같은 컨테이너 안에 있다고 가정했기 때문에, 고객의 VPC(Virtual Private Cloud)에 연결하려면 네트워크 피어링을 하거나 고객 환경에서 하네스를 직접 실행해야 했어요. 하네스에 박혀 있는 가정이 다른 인프라 연결을 가로막은 거예요.

브레인과 핸즈 분리: 핵심 아키텍처 패턴

Anthropic이 도달한 해법은 운영체제의 설계 철학에서 영감을 받았어요. OS가 하드웨어를 파일, 프로세스, 소켓 같은 추상화로 가상화해서 아직 존재하지 않는 프로그램도 실행할 수 있게 만든 것처럼, Managed Agents는 에이전트의 구성 요소를 가상화했어요.

핵심 분리 구조는 다음과 같아요:

세션(Session): 발생한 모든 이벤트의 append-only 로그. 하네스 외부에 독립적으로 존재해요.
하네스(Harness): Claude를 호출하고 도구 호출(tool call)을 라우팅하는 에이전트 루프. 상태를 보존할 필요가 없어요.
샌드박스(Sandbox): Claude가 코드를 실행하고 파일을 편집하는 실행 환경. 컨테이너로 구현돼요.

각 컴포넌트가 인터페이스로 정의되어 있기 때문에 구현체를 독립적으로 교체할 수 있어요. 이건 마이크로서비스 아키텍처의 핵심 원리와 정확히 일치해요.

샌드박스를 Cattle로 만들기

분리 후 하네스는 컨테이너를 다른 도구와 동일한 방식으로 호출해요:

execute(name, input) → string

컨테이너가 죽으면 하네스는 이를 tool-call 에러로 처리하고 Claude에게 전달해요. Claude가 재시도를 결정하면 새 컨테이너를 표준 레시피로 초기화하면 돼요:

provision({resources})

더 이상 죽은 컨테이너를 되살릴 필요가 없어요.

하네스 장애 복구

세션 로그가 하네스 밖에 있으므로 하네스 안에 생존해야 할 상태가 없어요. 하네스가 크래시하면 새 인스턴스를 띄우고 replay(session_id)로 이벤트 로그를 가져와 마지막 이벤트부터 재개하면 돼요. 에이전트 루프 중에는 append(session_id, event)로 내구성 있는 이벤트 기록을 유지해요.

이 패턴은 이벤트 소싱(Event Sourcing) 패턴과 본질적으로 같아요. 현재 상태를 이벤트 시퀀스에서 재구성할 수 있기 때문에 어떤 컴포넌트든 stateless하게 운영할 수 있어요.

보안 경계: 크리덴셜 격리 전략

모놀리식 구조에서 가장 위험한 부분은 보안이에요. Claude가 생성한 비신뢰 코드가 크리덴셜과 같은 컨테이너에서 실행되면, 프롬프트 인젝션(Prompt Injection) 한 번으로 환경 변수를 읽어 토큰을 탈취할 수 있어요. 토큰 스코프를 좁히는 것은 완화책이지만, "제한된 토큰으로 Claude가 무엇을 할 수 없는지"에 대한 가정을 인코딩하는 것이고, 모델은 점점 더 똑똑해지고 있어요.

Managed Agents의 구조적 해결책은 토큰이 샌드박스에서 절대 도달할 수 없도록 만드는 거예요. 두 가지 패턴을 사용해요:

리소스 번들링(Git 방식): 리포지토리 접근 토큰으로 샌드박스 초기화 시 clone을 수행하고 로컬 git remote에 연결해요. git push/pull은 샌드박스 안에서 작동하지만 에이전트가 토큰 자체를 다루지 않아요.
보안 볼트(MCP 방식): OAuth 토큰을 샌드박스 외부의 보안 볼트에 저장하고, Claude는 전용 프록시를 통해 MCP 도구를 호출해요. 프록시가 세션에 연결된 토큰으로 볼트에서 크리덴셜을 가져와 외부 서비스를 호출하는 구조예요.

이 설계에서 핵심 인사이트는 "가정을 코드에 박지 말고 구조로 강제하라"는 거예요. 토큰 스코프를 좁히는 건 소프트한 방어이고, 물리적으로 접근 불가능하게 만드는 건 하드한 방어예요.

에이전트 시스템 설계에 적용할 수 있는 원칙

Anthropic의 Managed Agents 아키텍처에서 우리가 가져갈 수 있는 설계 원칙을 정리하면:

인터페이스로 가상화하라: 구체적 구현이 아니라 execute, provision, replay, append 같은 인터페이스를 기준으로 컴포넌트를 나눠요. 구현은 바뀌어도 인터페이스는 유지돼요.
상태를 외부화하라: 이벤트 소싱 패턴으로 세션 상태를 외부에 두면 모든 컴포넌트를 stateless로 운영할 수 있고, 장애 복구가 단순해져요.
보안은 가정이 아닌 구조로: 토큰 스코프 제한 같은 소프트 방어보다, 크리덴셜이 실행 환경에 물리적으로 없는 하드 방어를 선택해야 해요.
Cattle, not Pets: 모든 런타임 컴포넌트를 교체 가능하게 만들면 장애 대응이 "복구"에서 "교체"로 바뀌어요.

에이전트 하네스는 모델의 능력이 발전하면서 계속 변할 수밖에 없어요. Claude Sonnet 4.5에서 필요했던 컨텍스트 리셋이 Claude Opus 4.5에서는 불필요해진 것처럼, 하네스에 박힌 가정은 빠르게 낡아져요. 그래서 "특정 구현보다 오래 살아남을 인터페이스"를 설계하는 것이 중요해요.

마무리

Anthropic의 Managed Agents 아키텍처는 결국 오래된 컴퓨팅 원칙—추상화와 가상화—를 에이전트 시스템에 적용한 사례예요. 브레인과 핸즈를 분리하고, 상태를 외부화하고, 보안 경계를 구조적으로 강제하는 이 패턴은 어떤 에이전트 프레임워크를 쓰든 적용할 수 있는 보편적 설계 원칙이에요. 직접 에이전트 시스템을 구축하고 있다면, 지금 만들고 있는 하네스가 내년에도 유효할지 자문해 보세요—인터페이스가 구현보다 오래 살아남도록 설계하는 것이 핵심이에요.

AI 생성 코드 보안: PR의 87%에서 취약점이 발견되는 이유와 대응법

growup_lee — Wed, 8 Apr 2026 22:25:05 +0900

AI 코딩 어시스턴트의 생산성은 이미 검증됐지만, 보안 측면에서는 심각한 문제가 드러나고 있어요. Stanford 대학의 2023년 연구에 따르면 AI 생성 코드를 사용한 개발자들이 수동으로 작성한 개발자보다 더 취약한 코드를 만들면서도, 본인의 코드가 안전하다고 더 확신했다고 해요. Snyk의 조사에서도 AI가 제안하는 코드의 약 80% 이상에서 입력값 검증 누락, 하드코딩된 인증정보, 인증 체크 부재 같은 교과서적인 취약점이 발견됐어요. 이 글에서는 AI 생성 코드가 왜 취약한지, 어떤 패턴이 반복되는지, 그리고 개발자로서 어떻게 대응해야 하는지를 구체적으로 다뤄볼게요.

AI가 취약한 코드를 만드는 구조적 원인

AI 코딩 모델은 GitHub의 공개 저장소를 학습 데이터로 사용해요. 문제는 공개 코드의 대부분이 튜토리얼, 데모, 프로토타입용이라는 점이에요. 프로덕션 수준의 보안 처리가 되어 있지 않은 코드가 "가장 흔한 패턴"으로 학습되는 거예요.

학습 데이터 편향: 튜토리얼 코드는 예제를 간결하게 유지하기 위해 인증, 에러 처리, 입력 검증을 생략해요. 모델은 이 패턴을 그대로 재현해요.
컨텍스트 맹점: 모델은 여러분의 애플리케이션 위협 모델(Threat Model)을 이해하지 못해요. 동작하는 코드를 만들 뿐, 안전한 코드를 만들지는 않아요.
해피 패스 최적화: AI 제안은 기능 구현에 최적화되어 있어요. 엣지 케이스, 에러 경로, 악의적 입력은 후순위예요.
속도 우선 수용: 개발자들은 AI 제안을 빠르게 수락하는 경향이 있어서, 모든 라인을 꼼꼼히 읽지 않는 경우가 많아요.

이런 구조적 원인 때문에 AI 생성 코드는 기본적으로 "취약한 상태"에서 시작한다고 봐야 해요.

반복되는 주요 취약점 패턴

실제 AI가 생성한 코드베이스에서 가장 빈번하게 발견되는 취약점 패턴을 살펴볼게요.

CSRF 보호 누락

AI 도구는 폼 핸들러와 API 엔드포인트를 생성할 때 CSRF 토큰을 거의 포함하지 않아요. 어떤 출처에서든 POST 요청을 수락하는 코드를 만들어요.

# AI가 생성한 Flask 라우트 — CSRF 보호 없음
@app.route('/transfer', methods=['POST'])
def transfer():
    amount = request.form['amount']
    to_account = request.form['to']
    process_transfer(current_user, to_account, amount)
    return redirect('/dashboard')

공격자는 피해자의 브라우저가 세션 쿠키를 자동으로 포함하는 점을 이용해, 외부 페이지에서 해당 엔드포인트로 폼을 전송할 수 있어요.

위험한 CORS 설정

CORS 에러를 해결해달라고 요청하면, AI가 가장 흔하게 제안하는 답은 Access-Control-Allow-Origin: *예요.

// AI가 생성한 Express CORS 설정 — 위험한 와일드카드
app.use(cors({ origin: '*', credentials: true }));

와일드카드와 credentials를 함께 사용하면 인터넷의 어떤 웹사이트든 인증된 요청을 보낼 수 있게 돼요. 안전한 버전은 허용 도메인을 명시적으로 지정해야 해요.

하드코딩된 시크릿과 입력 검증 부재

AI 모델은 플레이스홀더 API 키와 비밀번호가 포함된 코드를 자주 생성하고, 개발자가 이를 교체하지 않은 채 배포하는 경우가 많아요. 또한 AI 제안은 들어오는 모든 데이터를 신뢰하는 경향이 있어서, 타입 체크, 길이 제한, 새니타이제이션(Sanitization) 없이 폼 입력이나 쿼리 파라미터를 직접 사용해요. 이는 인젝션(Injection) 공격의 문을 열어줘요.

AI 코딩 도구를 안전하게 사용하는 전략

AI 코딩 도구를 아예 안 쓰는 건 현실적이지 않아요. 핵심은 모든 AI 제안을 "보안 요구사항을 모르는 주니어 개발자의 코드"로 취급하는 거예요.

라인 단위 리뷰: 멀티라인 자동완성을 읽지 않고 수락하지 마세요. 코드 생성으로 절약한 시간이 취약점 하나로 날아갈 수 있어요.
보안 린터 도입: Semgrep, Bandit 같은 도구가 AI가 만드는 일반적인 취약 패턴을 잡아줘요.
프롬프트에 보안 컨텍스트 추가: "CSRF 보호 포함", "파라미터화된 쿼리 사용", "시크릿은 환경변수에서 로드" 같은 지시를 명시적으로 포함하세요.
프리커밋 훅 활용: detect-secrets 같은 도구로 하드코딩된 시크릿, console.log, TODO 플레이스홀더가 포함된 커밋을 차단하세요.
CI/CD에 보안 스캐닝 통합: 코드 리뷰가 놓치는 부분을 자동화된 스캐너가 잡아줘요. 배포된 애플리케이션에 대한 정기적인 스캐닝도 필수예요.

가장 큰 리스크는 AI 도구 자체가 아니라 리뷰 프로세스에 있어요. 직접 작성한 코드는 한 줄 한 줄 고민하지만, AI 생성 코드는 빠르게 훑고 넘어가는 경향이 있거든요. 프로세스를 만드는 게 핵심이에요.

마무리

AI 생성 코드의 보안 문제는 도구를 안 쓴다고 해결되는 게 아니라, 보안 중심의 리뷰 프로세스를 구축해야 해결돼요. 자동화된 보안 스캐닝, 보안 체크리스트 기반 코드 리뷰, 프롬프트 단계에서의 보안 요구사항 명시를 습관화하세요. AI 도구의 생산성을 누리면서도 안전한 코드를 유지하는 건, 결국 개발자의 프로세스에 달려 있어요.

AI 생성 코드 탐지: 개발자가 알아야 할 164가지 시그널과 도구

growup_lee — Wed, 8 Apr 2026 22:05:36 +0900

프로덕션에 배포된 코드에서 console.log가 발견되거나, 페이지 타이틀이 여전히 "Create Next App"이라면 어떨까요? 이런 흔적은 단순한 실수가 아니라 AI 생성 코드 탐지의 핵심 시그널이에요. AI 코딩 도구가 보편화되면서, 사람의 리뷰 없이 그대로 배포되는 코드가 늘어나고 있어요. 문제는 이런 코드가 보안 취약점과 직결된다는 점이에요. 이 글에서는 AI가 만든 코드와 콘텐츠를 식별하는 164가지 시그널을 카테고리별로 분석하고, 실무에서 바로 활용할 수 있는 탐지 전략을 공유할게요.

AI 생성 코드가 위험한 이유

AI 생성 코드 탐지가 중요한 이유는 단순히 "AI를 썼느냐"를 판단하려는 게 아니에요. 핵심은 충분한 리뷰 없이 배포된 코드를 찾아내는 거예요. AI 도구가 생성한 코드는 기본 설정(default configuration)을 그대로 유지하는 경향이 강해요. 보안 헤더가 빠져 있거나, 디버그 엔드포인트가 노출되거나, 기술 스택 정보가 담긴 플레이스홀더 콘텐츠가 남아 있는 경우가 많죠.

실제 프로덕션에서 Lorem Ipsum이 보인다면, 그 사이트에는 기본 관리자 비밀번호도 그대로일 가능성이 높아요. 이건 과장이 아니라 패턴이에요.

코드 레벨 시그널

코드 자체에서 드러나는 대표적인 시그널을 정리하면 다음과 같아요:

프레임워크 보일러플레이트 — Next.js 기본 웰컴 페이지, Create React App 랜딩 콘텐츠, Vue CLI 스캐폴딩 텍스트가 프로덕션에 그대로 남아 있는 경우
console.log 잔존 — 프로덕션 JavaScript 번들에 디버그 로깅이 포함된 경우
TODO/FIXME 주석 — 페이지 소스에서 확인 가능한 미완성 구현 흔적
과도한 인라인 스타일 — AI 도구는 디자인 시스템 대신 인라인 CSS를 생성하는 경향이 있어요. 한 페이지에 인라인 style 속성이 50개 이상이면 강력한 AI 지표예요
localhost 참조 — http://localhost:3000이나 127.0.0.1 URL이 프로덕션 코드에 남아 있는 경우
기본 에러 메시지 — "Something went wrong" 같은 프레임워크 기본 에러 페이지가 커스터마이징 없이 노출되는 경우
기본 메타 태그 — 페이지 타이틀이 "Create Next App"이나 "Vite App"인 경우

간단한 체크 스크립트로도 이런 시그널을 탐지할 수 있어요:

const AI_CODE_SIGNALS = [
  /console\.log\(/g,
  /TODO:|FIXME:/g,
  /localhost:\d+/g,
  /Lorem ipsum/gi,
  /example\.com/g,
  /Create Next App|Vite App/g
];

function detectSignals(source) {
  return AI_CODE_SIGNALS
    .map(regex => ({ pattern: regex.source, matches: (source.match(regex) || []).length }))
    .filter(r => r.matches > 0);
}

콘텐츠 및 시각적 핑거프린트

코드 외에도 AI 생성 코드 탐지에 활용할 수 있는 콘텐츠 수준의 시그널이 있어요.

텍스트 핑거프린트

AI가 생성한 텍스트는 특정 패턴을 반복적으로 사용해요:

문구 패턴 — "seamlessly integrate", "cutting-edge solution", "empowering users", "at the forefront" 같은 표현이 반복되는 경우. 일반적으로 14개 이상의 공통 문구 패턴을 기준으로 탐지해요
버즈워드 밀도 — "revolutionize", "transform", "game-changing" 같은 마케팅 용어가 한 페이지에 비정상적으로 집중되는 경우
문단 균일성 — 사람이 쓴 글은 문단 길이와 문장 구조가 자연스럽게 변해요. AI 텍스트는 의심스러울 정도로 균일한 블록을 생성하죠
플레이스홀더 콘텐츠 — Lorem Ipsum, example.com, John Doe, 123 Main Street, (555) 123-4567 같은 더미 데이터

시각적 핑거프린트와 신뢰 시그널

AI 생성 이미지(Midjourney, DALL-E, Stable Diffusion)는 일관성 없는 조명, 왜곡된 텍스트, 비대칭적 얼굴 특징 같은 아티팩트가 있어요. 파비콘이 없는 것도 AI 빌드 사이트의 흔한 특징이에요.

Google의 E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness) 품질 가이드라인 관점에서 AI 생성 사이트에 보통 빠져 있는 요소도 중요한 탐지 기준이에요:

실제 인물과 자격을 보여주는 소개(About) 페이지
실제 연락 수단이 있는 연락처(Contact) 페이지
개인정보 처리방침(Privacy Policy)
콘텐츠의 저자 표시(Author attribution)

이 요소들이 개별적으로 빠진다고 AI 생성을 증명하진 않지만, 다른 핑거프린트와 결합되면 강력한 지표가 돼요.

실무 적용: 자동화된 탐지 파이프라인 구축

AI 생성 코드 탐지를 실무에 적용하려면 CI/CD 파이프라인에 자동화된 체크를 통합하는 것이 효과적이에요. 단순히 수동 리뷰에 의존하면 휴먼 에러가 발생할 수밖에 없거든요.

핵심 전략은 다음과 같아요:

프리커밋 훅(pre-commit hook) 단계에서 console.log, TODO, localhost 참조 같은 기초 시그널을 차단해요
린터 커스텀 룰을 추가해서 인라인 스타일 과다 사용, 기본 메타 태그 등을 경고로 잡아요
콘텐츠 스캐닝 스테이지를 CI에 넣어서 버즈워드 밀도, 문단 균일성, 플레이스홀더 데이터를 점수화해요
배포 전 체크리스트로 E-E-A-T 관련 페이지(About, Contact, Privacy Policy) 존재 여부를 자동 확인해요

ismycodesafe.com 같은 도구는 17가지 AI 콘텐츠 탐지 체크를 자동으로 실행하고, 각 항목에 심각도를 부여한 뒤 A(정상)부터 F(AI 생성 가능성 높음)까지 등급을 매겨요. 이런 외부 도구와 내부 파이프라인을 조합하면 탐지 커버리지를 크게 높일 수 있어요.

중요한 건, AI 생성 코드 탐지의 목적이 AI 사용 자체를 벌하는 게 아니라는 점이에요. AI 콘텐츠 탐지에서 낮은 점수를 받은 사이트는 거의 확실하게 보안 이슈도 함께 가지고 있어요. 탐지는 곧 보안 리뷰의 첫 번째 단계예요.

마무리

AI 코딩 도구의 활용은 이제 거스를 수 없는 흐름이에요. 중요한 건 AI가 만든 코드를 배포 전에 제대로 리뷰하고 있느냐의 문제예요. 164가지 시그널을 기반으로 자동화된 탐지 체계를 구축하면, 보안 취약점을 사전에 차단하고 코드 품질을 한 단계 끌어올릴 수 있어요. 지금 여러분의 프로젝트에도 이 시그널들이 숨어 있지 않은지 점검해 보세요.

gemma4 vllm 실행 방법: 최신 설치부터 서버 구성까지

growup_lee — Mon, 6 Apr 2026 22:15:41 +0900

LLM 서빙 환경을 직접 구축하려고 하면 가장 먼저 부딪히는 문제는 “최신 모델을 안정적으로 어떻게 띄우는가”예요. 특히 Google의 최신 오픈 모델인 gemma4 vllm 실행 방법은 출시 직후 빠르게 변하는 생태계 때문에 정보가 분산되어 있어요. 최근 vLLM에서 Gemma 4를 Day-0 지원하면서 상황이 크게 개선됐고, 이제는 비교적 간단한 명령어로 고성능 추론 서버를 구축할 수 있어요. 이 글에서는 설치부터 실행, 그리고 실제 운영 환경에서 필요한 최적화까지 한 번에 정리해볼게요.

gemma4 vllm 실행을 위한 환경 준비

Gemma 4는 텍스트뿐 아니라 이미지, 오디오까지 처리하는 멀티모달 모델이에요. vLLM은 이러한 구조를 그대로 활용할 수 있도록 OpenAI-compatible API 형태로 제공해요. (docs.vllm.ai)

필수 요구사항

GPU (최소 24GB VRAM 권장)
CUDA 12.9 이상
Python 3.10+
최신 transformers 라이브러리

특히 모델이 매우 최신이기 때문에 라이브러리 버전 mismatch가 가장 흔한 에러 원인이에요.

vLLM 설치

uv venv
source .venv/bin/activate

uv pip install -U vllm --pre \
  --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
  --extra-index-url https://download.pytorch.org/whl/cu129

또는 Docker 기반으로 빠르게 시작할 수도 있어요:

docker pull vllm/vllm-openai:gemma4

이 단계가 중요한 이유는 Gemma 4는 stable 릴리즈보다 nightly 빌드에서 먼저 지원되는 경우가 많기 때문이에요.

gemma4 vllm 실행 방법 (기본 실행)

이제 실제로 gemma4 vllm 실행 방법의 핵심 단계로 들어가요.

단일 GPU 실행

vllm serve google/gemma-4-E4B-it \
  --max-model-len 131072

이 명령어 하나로 OpenAI API 호환 서버가 localhost:8000에 생성돼요.

멀티 GPU 실행

vllm serve google/gemma-4-31B-it \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90

tensor parallelism으로 모델을 여러 GPU에 분산
대형 모델(26B, 31B)에서 필수 옵션

vLLM은 PagedAttention 기반 메모리 관리로 KV cache를 효율적으로 처리해 throughput을 크게 개선해요. (arxiv.org)

고급 설정: 성능 튜닝과 기능 활성화

단순 실행만으로도 동작하지만, 실제 서비스에서는 튜닝이 핵심이에요. 최신 자료에 따르면 Gemma 4는 reasoning, tool-calling, multimodal 기능이 핵심 강점이에요. (vllm.ai)

필수 플래그 (Gemma4 전용)

--reasoning-parser gemma4
--tool-call-parser gemma4
--enable-auto-tool-choice

이 옵션을 넣어야 다음 기능이 활성화돼요:

Chain-of-thought reasoning
Function calling
Structured JSON output

메모리 최적화

--kv-cache-dtype fp8
--gpu-memory-utilization 0.9
--max-model-len 8192

KV cache FP8 적용 시 메모리 약 50% 절약 (docs.vllm.ai)
context length 줄이면 latency 개선

멀티모달 설정

--limit-mm-per-prompt image=4,audio=1

Gemma 4는 이미지, 오디오 입력을 native로 처리 가능해요.

실제 API 호출 예시

서버가 올라갔다면 OpenAI SDK 그대로 사용 가능해요.

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="google/gemma-4-E2B-it",
    messages=[
        {"role": "user", "content": "Hello, explain KV cache optimization"}
    ]
)

print(response.choices[0].message)

이 구조 덕분에 기존 OpenAI 기반 코드 그대로 교체 없이 사용할 수 있어요.

마무리

gemma4 vllm 실행 방법은 생각보다 단순하지만, 최신 모델 특성상 버전 관리와 옵션 설정이 핵심이에요. 특히 reasoning, tool calling 같은 기능을 제대로 활용하려면 추가 플래그 설정이 필수예요. 앞으로 Gemma 4는 agent 기반 시스템과 멀티모달 애플리케이션에서 더 많이 활용될 가능성이 높아요.

하네스 엔지니어링(Harness Engineering) 완벽 가이드 | 2026 AI 에이전트 개발의 핵심

growup_lee — Sun, 5 Apr 2026 21:53:23 +0900

하네스 엔지니어링(Harness Engineering) 완벽 가이드

프롬프트를 넘어 AI 에이전트의 '환경 전체'를 설계하는 2026년의 핵심 패러다임.
정의부터 핵심 구성요소, 실전 적용 예시까지 한 글로 총정리합니다.

1. 하네스 엔지니어링이란?

"하네스(Harness)"는 원래 말(馬)에 장착하는 마구를 뜻합니다. 말의 힘을 안전하게 제어하고, 원하는 방향으로 이끌기 위한 도구죠. AI 분야에서도 같은 맥락으로 사용됩니다.

하네스 엔지니어링(Harness Engineering)이란, AI 에이전트가 복잡하거나 긴 작업을 안정적으로 수행할 수 있도록 모델 주변의 환경, 구조, 피드백 루프를 설계하는 엔지니어링 방법론입니다.

한 줄 요약: AI에게 "뭘 시키느냐"만큼 "어떤 구조 안에서 시키느냐"가 중요하다는 인식의 전환입니다.

핵심은 AI 모델 자체를 바꾸는 것이 아니라, AI가 작동하는 환경을 설계하는 것입니다.

2. 왜 지금 주목받는가?

2025년은 AI 에이전트가 코드를 작성하고, 문서를 생성하고, 데이터를 분석할 수 있다는 것을 증명한 해였습니다. 하지만 실제 프로덕션 환경에 적용하면 동일한 모델이 프로젝트 A에서는 잘 작동하고, 프로젝트 B에서는 엉뚱한 결과를 내놓는 경우가 빈번했습니다.

2026년 2월, OpenAI가 Codex 에이전트 개발 경험을 바탕으로 "하네스 엔지니어링"이라는 개념을 공식적으로 제시하면서 업계의 본격적인 관심이 시작되었습니다.

OpenAI 내부 실험 결과: 환경(하네스)을 체계적으로 구조화했을 때, AI 에이전트만으로 약 100만 줄 규모의 소프트웨어를 수동 코딩 없이 생성·유지한 사례가 보고되었습니다.

프롬프트를 아무리 정교하게 다듬어도 해결되지 않는 문제들이 있으며, 그 원인은 대부분 에이전트를 둘러싼 환경의 차이에서 비롯됩니다.

3. 프롬프트 → 컨텍스트 → 하네스: 3단계 진화

AI 활용 방법론은 프롬프트 엔지니어링에서 시작해, 컨텍스트 엔지니어링을 거쳐, 하네스 엔지니어링으로 진화해 왔습니다. 이 세 가지는 서로 대체하는 것이 아니라, 점점 더 넓은 범위를 포괄하는 중첩된 레이어입니다.

┌─────────────────────────────────────────────────┐
│  Harness Engineering                            │
│  환경 전체: 도구, 규칙, 피드백 루프, CI/CD       │
│  ┌─────────────────────────────────────────┐    │
│  │  Context Engineering                    │    │
│  │  문맥 설계: RAG, MCP, 메모리, 참조 문서  │    │
│  │  ┌─────────────────────────────────┐    │    │
│  │  │  Prompt Engineering             │    │    │
│  │  │  명령어: 지시문, 역할, 출력 형식  │    │    │
│  │  └─────────────────────────────────┘    │    │
│  └─────────────────────────────────────────┘    │
└─────────────────────────────────────────────────┘

비교표

구분	Prompt Engineering	Context Engineering	Harness Engineering
시기	2023~2024	2025 중반	2026.02~
비유	말에게 "우회전" 명령	지도·표지판·지형 제공	고삐·안장·울타리·도로 설계
설계 대상	입력 텍스트	참조 정보·기억	전체 실행 환경
핵심 목표	정확한 응답 유도	풍부한 맥락 제공	안정적·일관된 자율 수행

4. 핵심 구성요소 3가지

4-1. 가드레일 (Guardrail)

AI의 입출력을 기술적으로 제어하여 목적 범위 밖의 동작을 사전에 차단합니다.

입력 단계: 프롬프트 인젝션(악의적 지시 주입)이나 기밀 정보 혼입 감지·차단
출력 단계: 할루시네이션 감지, 포맷 검증, 민감 정보 필터링

4-2. 지침 파일 (Instruction Files)

에이전트가 작업 시작 시 참조하는 프로젝트 규칙 문서입니다.

CLAUDE.md — 프로젝트 맥락, 코딩 컨벤션, 금지 사항
AGENTS.md — 에이전트 역할과 워크플로우 정의
.cursorrules — 에디터 레벨의 규칙 설정

OpenAI는 이 지침 파일들이 프로젝트의 "기록 시스템(System of Record)"으로서 기능해야 한다고 강조합니다.

4-3. 피드백 루프 (Feedback Loop)

에이전트의 결과물을 자동으로 검증하고 수정 신호를 보내는 순환 구조입니다.

CI/CD 파이프라인 (자동 빌드·테스트)
린터 & 포매터 (코드 품질 자동 검사)
자동화된 코드 리뷰
에이전트의 자체 검증 단계

이 세 가지 요소가 유기적으로 결합될 때, AI 에이전트는 단발성 응답이 아닌 장시간의 복잡한 작업을 안정적으로 수행할 수 있게 됩니다.

5. 실전 적용 예시: 프로젝트 폴더 구조

하네스를 실제 프로젝트에 적용할 때 가장 기본이 되는 것은 폴더 구조와 지침 파일의 설계입니다.

my-project/
├── CLAUDE.md              # 프로젝트 맥락, 규칙, 프레임워크 정보
├── progress.md            # 현재 진행 상황, 다음 TODO 목록
├── architecture.md        # 시스템 구조, 데이터 흐름도
│
├── .claude/
│   ├── rules/             # 전사 공통 보안·코딩 정책
│   │   └── security.md
│   ├── skills/            # 반복되는 단위 작업 정의
│   │   ├── deploy.md
│   │   └── test-e2e.md
│   └── agents/            # 전문 영역별 페르소나 정의
│       ├── backend-eng.md
│       └── code-reviewer.md
│
├── src/
├── tests/
└── .github/workflows/     # CI/CD 파이프라인 (피드백 루프)
    └── ci.yml

CLAUDE.md 작성 예시

# 프로젝트 개요
이 프로젝트는 Next.js 14 + TypeScript 기반의 SaaS 대시보드입니다.

# 코딩 규칙
- 모든 함수에 JSDoc 주석을 작성합니다.
- 컴포넌트는 항상 함수형으로 작성합니다.
- API 응답은 Zod 스키마로 검증합니다.
- **절대로** console.log를 프로덕션 코드에 남기지 않습니다.

# 작업 흐름
1. 작업 시작 전 `progress.md`를 읽고 현재 위치 파악
2. 작업 완료 후 `progress.md` 업데이트
3. 논리적 충돌 발생 시 작업 중단 → 승인 요청

# 금지 사항
- 기존 테스트 코드를 삭제하지 않습니다.
- DB 스키마 변경은 반드시 마이그레이션 파일로 처리합니다.

6. 실제 활용 사례

Stripe — Minions 시스템

Stripe의 개발자가 Slack에 기능 요청을 남기면, AI 에이전트 'Minions'가 자동으로 코드를 작성하고, 테스트를 통과시키며, PR(Pull Request)까지 올리는 시스템을 운영합니다. 매주 1,000건 이상의 작업을 안정적으로 처리할 수 있는 이유는 정교한 하네스 설계 덕분입니다.

OpenAI — Codex 에이전트

OpenAI는 자사의 Codex 에이전트 개발 과정에서 하네스 구조를 핵심 방법론으로 채택했습니다. 리포지토리 구조, CI 설정, 포맷팅 규칙, 프로젝트 지침 파일 등을 하네스의 구성 요소로 제시하며, 에이전트 성능 향상과 안전한 운용을 병행해야 한다고 강조합니다.

일반 개발 프로젝트

꼭 대기업만의 이야기가 아닙니다. 개인 개발자도 CLAUDE.md 파일 하나, progress.md 파일 하나를 프로젝트 루트에 배치하는 것만으로 AI 에이전트의 작업 안정성을 크게 높일 수 있습니다.

7. 지금 바로 시작하기

Step 1. CLAUDE.md 작성 — 프로젝트 루트에 규칙, 구조, 코딩 컨벤션 정리

Step 2. progress.md 관리 — 현재 진행 상황과 다음 할 일 기록

Step 3. 피드백 루프 구축 — 린터, 테스트, CI 설정으로 자동 검증 구조 마련

⚡ 실전 팁: 하네스 규칙을 너무 촘촘하게 만들면 오히려 AI의 창의적 해결력이 제한됩니다. "안전성"과 "유연성" 사이의 균형을 찾는 것이 핵심입니다. 작게 시작해서 점진적으로 규칙을 추가해 나가세요.

8. 자주 묻는 질문(FAQ)

Q. 하네스 엔지니어링과 프롬프트 엔지니어링의 차이는?

프롬프트 엔지니어링이 AI에게 보내는 '명령어'를 최적화하는 것이라면, 하네스 엔지니어링은 AI가 작동하는 '환경 전체'를 설계하는 것입니다. 프롬프트는 하네스의 일부에 해당합니다.

Q. 비개발자도 하네스 엔지니어링을 적용할 수 있나요?

네. AI 도구를 사용할 때 작업 지침 문서를 만들고, 결과를 체크리스트로 검증하고, 작업 이력을 기록하는 것 자체가 하네스의 기본 원리입니다. 코딩 없이도 시작할 수 있습니다.

Q. 어떤 AI 도구에 적용할 수 있나요?

Claude Code, Cursor, Windsurf, GitHub Copilot 등 대부분의 AI 코딩 에이전트에 적용 가능합니다. 개념 자체는 도구에 종속되지 않으므로, 비코딩 AI 워크플로우에도 응용할 수 있습니다.

마무리

에이전트 시대의 경쟁력은 더 똑똑한 모델이 아니라, 더 나은 하네스에서 나옵니다. 오늘 여러분의 프로젝트에 CLAUDE.md 파일 하나를 만드는 것부터 시작해 보세요.

ADK Agent Skills 패턴 가이드: 프로그레시브 디스클로저로 AI 에이전트 확장하기

growup_lee — Sat, 4 Apr 2026 12:09:29 +0900

여러분의 AI 에이전트가 지시를 따르는 건 기본이에요. 그런데 스스로 새로운 지시를 작성할 수 있다면 어떨까요? Google의 Agent Development Kit(ADK)이 제공하는 SkillToolset은 에이전트가 도메인 전문성을 필요할 때만 로드하고, 나아가 런타임에 완전히 새로운 전문성을 생성할 수 있게 해줘요. 보안 리뷰 체크리스트, 컴플라이언스 감사, 데이터 파이프라인 검증 등 어떤 작업이든 "생성 → 로드 → 사용"이라는 단순한 워크플로로 처리할 수 있어요. 이 글에서는 ADK Agent Skills의 핵심 아키텍처인 프로그레시브 디스클로저(Progressive Disclosure)와, 이를 활용한 4가지 실전 패턴을 깊이 있게 다뤄볼게요.

모놀리식 프롬프트의 한계와 프로그레시브 디스클로저

대부분의 AI 에이전트는 도메인 지식을 시스템 프롬프트에 직접 주입하는 방식을 써요. 컴플라이언스 규칙, 스타일 가이드, API 레퍼런스, 트러블슈팅 절차를 하나의 거대한 문자열로 합쳐 넣는 거죠.

에이전트 기능이 2~3개일 때는 이 방식이 잘 동작해요. 하지만 10개 이상의 태스크로 확장하면, 사용자의 쿼리가 실제로 해당 지식을 필요로 하는지 여부와 상관없이 매 LLM 호출마다 수천 토큰이 소비돼요. 이건 비용과 레이턴시 모두에서 심각한 병목이에요.

ADK Agent Skills 스펙은 이 문제를 프로그레시브 디스클로저로 해결해요. 지식 로딩을 세 단계로 분리하는 거예요:

L1 메타데이터(~100 토큰/스킬): 스킬 이름과 설명만 포함해요. 시작 시 모든 스킬에 대해 로드되며, 에이전트가 관련성을 판단하는 메뉴 역할을 해요.
L2 인스트럭션(<5,000 토큰): 스킬의 전체 본문이에요. 에이전트가 특정 스킬을 명시적으로 활성화할 때만 API를 통해 로드돼요.
L3 리소스(필요 시): 스타일 가이드나 API 스펙 같은 외부 참조 파일이에요. 스킬의 인스트럭션이 요구할 때만 로드돼요.

이 아키텍처를 사용하면, 10개의 스킬을 가진 에이전트가 각 호출을 약 1,000 토큰의 L1 메타데이터로 시작해요. 모놀리식 프롬프트의 10,000 토큰 대비 약 90% 베이스라인 컨텍스트 절감 효과가 있어요.

4가지 스킬 패턴 완전 정복

ADK의 SkillToolset은 activate_skill, deactivate_skill, get_skill_resource 세 가지 도구를 자동 생성해요. 이를 기반으로 점진적으로 복잡해지는 4가지 패턴을 살펴볼게요.

패턴 1: 인라인 스킬 — 가장 단순한 시작점

Python 객체로 직접 정의하는 방식이에요. 변경 빈도가 낮은 소규모 규칙에 적합해요.

# ADK Pseudocode: Pattern 1: Inline Skill
seo_skill = models.Skill(
    frontmatter=models.Frontmatter(
        name="seo-checklist",
        description="SEO optimization checklist for blog posts.",
    ),
    instructions=(
        "When optimizing a blog post for SEO, check each item:\n"
        "1. Title: 50-60 chars, primary keyword near the start\n"
        "2. Meta description: 150-160 chars, includes a CTA\n"
        "3. Headings: H2/H3 hierarchy, keywords in 2-3 headings\n"
        "4. First paragraph: Primary keyword in first 100 words\n"
        "5. Images: Alt text with keywords, compressed\n"
    )
)

frontmatter 필드가 L1 메타데이터가 되고, instructions가 L2로 동작해요. "블로그 포스트 SEO 리뷰해 줘"라고 요청하면, 에이전트가 이 스킬을 로드해서 항목별로 체계적으로 적용하는 구조예요.

패턴 2: 파일 기반 스킬 — 참조 문서가 필요할 때

인라인 스킬은 단순 체크리스트에 적합하지만, 스타일 가이드나 API 스펙 같은 참조 문서가 필요하면 디렉터리 기반 구조를 사용해야 해요.

skills/blog-writer/
├── SKILL.md           # L2: 인스트럭션
└── references/
    └── style-guide.md # L3: 필요 시 로드

SKILL.md는 YAML 프론트매터로 시작하고, 마크다운 인스트럭션이 이어져요. get_skill_resource 도구를 통해 L3 리소스를 필요한 시점에만 로드하는 게 핵심이에요.

# ADK Pseudocode: Pattern 2: File-Based Skill
blog_writer_skill = load_skill_from_dir(
    pathlib.Path(__file__).parent / "skills" / "blog-writer"
)

패턴 3: 외부 스킬 — 커뮤니티 리포지토리 활용

외부 스킬은 파일 기반 스킬과 코드가 완전히 동일해요. 차이점은 SKILL.md를 직접 작성하는 대신, awesome-claude-skills 같은 커뮤니티 리포지토리에서 다운로드한다는 것뿐이에요.

npx skills add google/adk-docs -y -g

ADK Skills Spec이 범용 디렉터리 포맷을 정의하기 때문에, load_skill_from_dir는 SKILL.md의 출처를 신경 쓰지 않아요. Google도 공식 ADK 개발 스킬을 동일한 포맷으로 배포하고 있어요.

패턴 4: 스킬 팩토리 — 스스로 확장하는 에이전트

메타 스킬(Meta Skill)은 새로운 SKILL.md 파일 자체를 생성하는 게 목적인 스킬이에요. 메타 스킬을 장착한 에이전트는 자기 확장(self-extending)이 가능해져요. 사람의 개입 없이 런타임에 새로운 스킬 정의를 작성하고 로드할 수 있어요.

이건 단순히 프롬프트 엔지니어링이 아니라, 에이전트가 자신의 역량 범위를 동적으로 넓히는 아키텍처 패턴이에요. 예를 들어 "GraphQL API 보안 감사 체크리스트"가 필요한데 기존 스킬이 없다면, 에이전트가 직접 해당 스킬을 생성하고 즉시 활용할 수 있는 거예요.

실전 적용 시 고려할 점

ADK Agent Skills를 프로덕션에 적용할 때 몇 가지 중요한 포인트가 있어요:

스킬 그래뉼러리티: 스킬을 너무 잘게 쪼개면 L1 메타데이터가 비대해지고, 너무 크게 묶으면 프로그레시브 디스클로저의 이점이 줄어들어요. 하나의 스킬이 하나의 명확한 태스크를 담당하도록 설계하는 게 좋아요.
L3 리소스 크기 관리: 참조 문서가 너무 크면 컨텍스트 윈도를 초과할 수 있어요. 청크 단위로 분할하거나, 요약본을 별도로 준비하는 전략이 필요해요.
메타 스킬 가드레일: 패턴 4를 사용할 때는 에이전트가 생성하는 스킬의 품질을 검증하는 레이어가 필수예요. 생성된 SKILL.md의 구조 검증, 인스트럭션 길이 제한, 테스트 실행 등을 자동화하는 게 안전해요.
버전 관리: 파일 기반 스킬과 외부 스킬은 Git으로 버전 관리하면 변경 추적과 롤백이 용이해요.

마무리

ADK Agent Skills의 프로그레시브 디스클로저 아키텍처는 모놀리식 프롬프트의 토큰 낭비 문제를 구조적으로 해결해요. 인라인 → 파일 기반 → 외부 → 메타 스킬로 이어지는 4가지 패턴을 상황에 맞게 조합하면, 확장 가능하고 비용 효율적인 에이전트 시스템을 구축할 수 있어요. 특히 패턴 4의 자기 확장 에이전트는 앞으로 에이전트 아키텍처의 중요한 방향이 될 거예요.

Gemma 4로 구현하는 온디바이스 에이전트 AI 완전 가이드

growup_lee — Fri, 3 Apr 2026 22:51:24 +0900

Gemma 4, 엣지 AI의 새 기준을 세우다

Gemma 4가 Apache 2.0 라이선스로 공개되면서 온디바이스 인공지능(AI) 개발의 지형이 크게 바뀌었어요. 단순한 챗봇 수준을 넘어 멀티스텝 플래닝(multi-step planning), 자율 행동(autonomous action), 오프라인 코드 생성, 오디오·비주얼 처리까지 별도 파인튜닝 없이 지원해요. 140개 이상의 언어를 지원하며, 구글 AI 엣지(Google AI Edge) 생태계와 긴밀히 연동돼 모바일부터 IoT 디바이스까지 즉시 배포할 수 있어요. 이 글에서는 Gemma 4의 핵심 에이전트 기능, LiteRT-LM 런타임의 성능 특성, 그리고 플랫폼별 배포 전략을 코드 수준까지 살펴볼게요.

Gemma 4 에이전트 스킬(Agent Skills)의 핵심 기능

Google AI Edge Gallery에 탑재된 Agent Skills는 Gemma 4 기반의 멀티스텝 자율 워크플로우를 완전히 온디바이스에서 실행하는 첫 번째 공개 사례예요. 개발자가 직접 구성할 수 있는 스킬의 범위는 생각보다 넓어요.

지식 베이스 확장: Wikipedia 같은 외부 소스를 쿼리하는 스킬을 연결하면 훈련 데이터 너머의 실시간 정보를 에이전트가 참조할 수 있어요.
인터랙티브 콘텐츠 생성: 음성 입력으로 수면 시간·감정 데이터를 받아 자동으로 그래프와 플래시카드를 생성하는 시각화 파이프라인을 빌드할 수 있어요.
외부 모델 통합: 텍스트-음성 변환(TTS), 이미지 생성, 음악 합성 모델과 연동해 멀티모달 파이프라인을 구성할 수 있어요.
엔드-투-엔드 워크플로우: 여러 앱을 오가지 않고 대화만으로 복잡한 작업을 처리하는 앱을 구축할 수 있어요.

Agent Skills 직접 시작하기

Google AI Edge Gallery 앱에서 Gemma 4 E2B·E4B 모델을 즉시 실험할 수 있어요. 앱 내 스킬 편집기로 커스텀 스킬을 작성하고 GitHub 리포지터리에 공유하는 것도 지원해요. CLI 툴 역시 툴 콜링(tool calling)을 지원하기 때문에 터미널 기반 에이전트 파이프라인도 빠르게 프로토타이핑할 수 있어요.

LiteRT-LM으로 디바이스 전반에 Gemma 4 배포하기

LiteRT-LM(라이트RT-LM)은 XNNPack과 ML Drift 위에 GenAI 특화 레이어를 추가한 고성능 런타임이에요. Gemma 4의 128K 컨텍스트 윈도우를 처리하기 위해 최신 GPU 최적화 기법을 내장하고 있으며, 에이전트 유스케이스에서 요구되는 긴 컨텍스트를 안정적으로 다뤄요.

주요 특징을 정리하면 다음과 같아요:

초저 메모리 풋프린트: 2-bit/4-bit 가중치 양자화와 메모리 맵(memory-mapped) 임베딩을 활용해 일부 디바이스에서 Gemma 4 E2B를 1.5GB 미만 메모리로 실행할 수 있어요.
구조화된 출력(Structured Output): 툴 콜링 스크립트와 AI 앱에서 예측 가능한 출력을 보장해 프로덕션 안정성을 높여요.
동적 컨텍스트 길이: CPU·GPU 모두에서 128K 컨텍스트 윈도우를 유연하게 활용할 수 있어요.

Raspberry Pi 5에서의 실측 성능

IoT 및 엣지 환경에서도 Gemma 4는 실용적인 수치를 보여줘요. Raspberry Pi 5에서 Gemma 4 E2B 기준으로 프리필(prefill) 처리량 133 토큰/초, 디코드(decode) 처리량 7.6 토큰/초를 기록했어요. 스마트홈 컨트롤러, 음성 어시스턴트, 로보틱스 애플리케이션을 완전 오프라인으로 구동하기에 충분한 수치예요.

아래는 LiteRT-LM Python 바인딩을 이용해 간단한 추론 파이프라인을 구성하는 예시예요:

from litert_lm import LlmInference

# 모델 경로에서 직접 인스턴스 생성
model = LlmInference.create_from_model_path("gemma4-e2b.task")

# 비동기 스트리밍 응답 처리
def on_result(partial_result: str, done: bool):
    print(partial_result, end="", flush=True)
    if done:
        print()

model.generate_response_async(
    "Raspberry Pi 온도 센서 데이터를 분석하고 이상값을 탐지하는 스크립트를 작성해줘",
    on_result,
)

지원 플랫폼 및 배포 전략

Gemma 4는 다음 환경에서 즉시 배포 가능해요:

모바일: Android(AICore 포함 시스템 전역 접근), iOS에서 CPU/GPU 모두 지원
데스크탑·웹: Windows, Linux, macOS(Metal), WebGPU 기반 브라우저 실행
IoT·엣지: Raspberry Pi 및 Linux 환경용 Python 패키지·CLI 툴 제공

Android AICore를 통해 앱 내에 모델을 번들링하지 않고도 시스템에 내장된 최적화 버전의 Gemma 4를 활용할 수 있어요. 이는 APK 크기를 줄이고 업데이트 주기를 OS와 분리하는 데 유리해요. 웹 환경에서는 WebGPU를 통한 네이티브 브라우저 실행을 지원하기 때문에 서버리스 AI 앱 구성도 가능해졌어요.

마무리

Gemma 4는 단순한 오픈 LLM이 아니라 에이전트 AI를 엣지까지 확장하는 실질적인 인프라예요. LiteRT-LM의 초저 메모리 운용과 멀티플랫폼 지원 덕분에 모바일부터 IoT까지 단일 모델 전략이 현실이 됐어요. 앞으로 더 많은 에이전트 스킬과 외부 모델 통합 사례가 쌓이면서 온디바이스 AI 생태계가 빠르게 성숙할 것으로 기대돼요.

개발자의 성장 로그

2026년 AI 영상 생성 도구 비교 완벽 가이드 — Sora·Runway·Kling 총정리

AI 영상 생성 도구, 지금 왜 주목받는가?

AI 영상 생성 도구 비교 한눈에 보기

Sora — OpenAI의 야심작, 실제로 어떤가?

️ Runway Gen-3 비교 — 크리에이터의 현실적 선택

Kling AI — 한국어 지원까지 되는 중국발 강자

AI 영상 도구 가격 비교 총정리

초보자 추천 AI 영상 생성기 선택 가이드

❓ 자주 묻는 질문 (FAQ)

✍️ 마치며 — AI 영상 생성 도구 비교, 이렇게 선택하세요

2026년 무료 AI 도구 모음 총정리 — 지금 바로 쓸 수 있는 베스트 15

무료 AI 도구, 왜 지금 써야 할까?

✍️ 무료 AI 글쓰기 도구 TOP 3

1. ChatGPT Free (OpenAI)

2. 뤼튼 (Wrtn)

3. Notion AI (무료 체험)

무료 AI 이미지 생성 도구 TOP 3

1. Microsoft Designer (DALL-E 3 기반)

2. Adobe Firefly (무료 플랜)

3. Canva AI (무료 플랜)

무료 AI 챗봇 추천 TOP 3

1. Claude (Anthropic) — 무료 플랜

2. Gemini (Google) — 무료 플랜

3. Perplexity AI — 무료 플랜

무료 AI 번역기 비교

⚡ 무료 AI 생산성 도구 추천

무료 AI 도구 모음 한눈에 비교

❓ 자주 묻는 질문 (FAQ)

✅ 마무리 — 오늘부터 무료 AI 도구 모음 활용 시작!

EXAONE 4.5: LG의 첫 오픈웨이트 비전-언어 모델 완전 분석 (2026)

Managed Agents 아키텍처: 브레인과 핸즈를 분리하는 확장 전략

왜 모놀리식 에이전트 컨테이너는 한계에 부딪히는가

디버깅의 악몽

인프라 연결의 경직성

브레인과 핸즈 분리: 핵심 아키텍처 패턴

샌드박스를 Cattle로 만들기

하네스 장애 복구

보안 경계: 크리덴셜 격리 전략

에이전트 시스템 설계에 적용할 수 있는 원칙

마무리

AI 생성 코드 보안: PR의 87%에서 취약점이 발견되는 이유와 대응법

AI가 취약한 코드를 만드는 구조적 원인

반복되는 주요 취약점 패턴

CSRF 보호 누락

위험한 CORS 설정

하드코딩된 시크릿과 입력 검증 부재

AI 코딩 도구를 안전하게 사용하는 전략

마무리

AI 생성 코드 탐지: 개발자가 알아야 할 164가지 시그널과 도구

AI 생성 코드가 위험한 이유

코드 레벨 시그널

콘텐츠 및 시각적 핑거프린트

텍스트 핑거프린트

시각적 핑거프린트와 신뢰 시그널

실무 적용: 자동화된 탐지 파이프라인 구축

마무리

gemma4 vllm 실행 방법: 최신 설치부터 서버 구성까지

gemma4 vllm 실행을 위한 환경 준비

필수 요구사항

vLLM 설치

gemma4 vllm 실행 방법 (기본 실행)

단일 GPU 실행

멀티 GPU 실행

고급 설정: 성능 튜닝과 기능 활성화

필수 플래그 (Gemma4 전용)

메모리 최적화

멀티모달 설정

실제 API 호출 예시

마무리

하네스 엔지니어링(Harness Engineering) 완벽 가이드 | 2026 AI 에이전트 개발의 핵심

하네스 엔지니어링(Harness Engineering) 완벽 가이드

목차

1. 하네스 엔지니어링이란?

2. 왜 지금 주목받는가?

3. 프롬프트 → 컨텍스트 → 하네스: 3단계 진화

비교표

4. 핵심 구성요소 3가지

4-1. 가드레일 (Guardrail)

4-2. 지침 파일 (Instruction Files)