AI 코딩 도구 3개를 동시에 쓰는 법 — Claude Code, Codex, Gemini CLI 오케스트레이션 완전 가이드
AI 코딩 도구가 하나만 있으면 좋겠지만, 현실에서는 세 가지 도구를 적재적소에 배치해야 최고의 결과를 얻을 수 있습니다. 이 글은 Claude Code, Codex, Gemini CLI를 오케스트라처럼 조율하는 실전 전략을 다룹니다.
TL;DR (한 줄 요약)
- Claude Code = 팀장. 설계하고, 판단하고, 중요한 코드를 직접 쓴다
- Codex = 실행력 좋은 팀원. 여러 작업을 동시에 처리하고, 코드 리뷰도 잘한다
- Gemini CLI = 분석가. 방대한 자료를 읽고 정리해서 보고서를 만든다
- 핵심: "뭐가 더 좋냐"가 아니라 "이 작업에는 뭐가 맞냐"
들어가며: 왜 AI 도구를 여러 개 써야 할까?
프로그래밍을 도와주는 AI 도구가 정말 많아졌습니다. Anthropic의 Claude Code, OpenAI의 Codex, Google의 Gemini CLI... 각각 "최고의 AI 코딩 도구"를 자처합니다.
그런데 한 가지 도구만 쓰면 안 되는 걸까요?
비유로 설명하면 이렇습니다.
축구팀을 생각해보세요. 메시가 아무리 뛰어나 도 혼자서 골키퍼, 수비수, 미드필더, 공격수를 다 할 수는 없습니다. 각 포지션에 맞는 선수가 있어야 팀이 잘 굴러갑니다.
AI 코딩 도구도 마찬가지입니다:
- Claude Code는 메시 같은 존재입니다. 가장 똑똑하고, 복잡한 판단을 잘 합니다. 팀의 핵심이지만, 모든 걸 혼자 하면 비효율적입니다.
- Codex는 체력 좋은 미드필더입니다. 여러 군데를 동시에 뛰어다니며 일을 처리합니다.
- Gemini CLI는 데이터 분석관입니다. 상대팀 경기 영상 100개를 밤새 분석해서 보고서를 만들어줍니다.
이 세 도구를 각각의 강점에 맞게 배치하면, 혼자 쓸 때보다 훨씬 빠르고 정확하게 일할 수 있습니다.
이 글에서는 어떤 상황에서 어떤 도구를 쓸지, 그리고 도구 사이에 어떻게 일을 넘길지를 구체적으로 알려드리겠습니다.
이 글의 약속: 사실과 의견을 구분합니다
이 글에서는 세 가지 태그를 사용합니다:
| 태그 | 무슨 뜻? | 어떻게 받아들이면 되나? |
|---|---|---|
| [FACT] | 공식 문서에 적힌 사실 | "이건 확실해" — 링크도 같이 달아놨어요 |
| [REC] | 써보니까 좋더라, 추천 | "이렇게 하면 효율적 이야" — 팀 사정에 맞게 조정하세요 |
| [VAR] | 버전/설정에 따라 바뀔 수 있음 | "지금은 이런데 나중에 달라질 수도 있어" |
왜 이렇게 구분할까요? AI 도구 세계는 변화가 빠르기 때문입니다. "이 도구가 이걸 할 수 있다"는 말이 다음 달에는 틀릴 수 있습니다. 그래서 확실한 사실과 변할 수 있는 정보를 명확히 나누는 것이 중요합니다.
Part 1: 세 도구 소개 — 각각 뭘 잘하나?
Claude Code (Anthropic) — "가장 똑똑한 팀장"
Claude Code는 Anthropic이 만든 AI 코딩 도구입니다. 생각하는 능력이 가장 뛰어나서, 복잡한 설계 결정이나 보안 관련 코드를 맡기기에 적합합니다.
어디서 쓸 수 있나? (서피스)
[FACT] Claude Code는 정말 다양한 곳에서 쓸 수 있습니다:
- 터미널(CLI): 명령어로 직접 대화
- VS Code / JetBrains: 에디터 안에서 바로 사용
- 데스크톱 앱: 독립 앱으로 실행
- 웹(claude.ai/code): 브라우저에서 사용
- 모바일(iOS): 출퇴근 중에도 확인
- Slack: 팀 채팅에서 @Claude로 호출
- GitHub Actions: CI/CD 파이프라인에서 자동 실행 — Overview
[REC] 이렇게 서피스가 넓다는 건 큰 장점입니다. 예를 들어 "Slack에서 코드 리뷰 요청을 던지고, 출퇴근길에 모바일로 결과를 확인하고, GitHub Actions에서 자동으로 품질 검사를 돌리는" 워크플로우가 가능합니다.
프로젝트 설정: CLAUDE.md
[FACT] 프로젝트 폴더에 CLAUDE.md 파일을 만들어두면, Claude Code가 세션을 시작할 때마다 자동으로 읽습니다. /init 명령어로 자동 생성할 수도 있습니다.
— Overview
쉽게 말해 **"이 프로젝트는 이렇게 생겼고, 이런 규칙을 따라야 해"**라고 적어놓는 설명서입니다. 매번 "우리 프로젝트는 Python으로..."라고 반복할 필요가 없어집니다.
Skills — "전문 기술 카드"
[FACT] .claude/skills/ 폴더에 스킬 파일을 만들어두면, Claude Code가 특정 상황에서 자동으로 또는 수동으로 꺼내 쓸 수 있습니다.
— Skills
RPG 게임에서 캐릭터에게 기술을 장착하는 것과 비슷합니다. "코드 리뷰 스킬", "테스트 생성 스킬", "배포 스킬" 같은 것들을 미리 만들어두고, 필요할 때 호출하는 거죠.
[FACT] 주요 옵션:
context: fork→ 메인 작업을 방해하지 않고 따로 실행 (독립된 작업 공간)agent→ 어떤 종류의 AI 에이전트가 실행할지 지정 (탐색용, 계획용, 범용 등)allowed-tools→ 이 스킬이 사용할 수 있는 도구를 제한 (안전장치) — Skills
Sub-agents — "전문가 팀 구성"
[FACT] .claude/agents/ 폴더에 에이전트를 정의하면, 메인 Claude Code가 전문가를 고용해서 일을 시키는 것처럼 작동합니다.
— Sub-agents
예를 들어:
- 탐색 에이전트 (model: haiku) — 저렴하고 빠른 모델로 코드베이스를 탐색
- 코드 리뷰 에이전트 (model: sonnet) — 중간 성능의 모델로 코드 리뷰
- 메인 세션 (Opus) — 가장 똑똑한 모델로 복잡한 판단
이렇게 하면 비싼 Opus 모델을 아끼면서도 효율적으로 일할 수 있습니다.
[FACT] Sub-agent는 독립된 공간에서 실행되고, 완료되면 요약만 메인에 돌려줍니다. 그래서 메인 대화가 지저분해지지 않습니다. — Sub-agents
Hooks — "자동 품질 검사 장치"
Hooks는 **"어떤 일이 일어나면 자동으로 이것을 실행해라"**라는 규칙입니다.
[FACT] 주요 이벤트:
- 세션 시작/종료 시: 환경 점검, 정리 작업
- 도구 사용 전/후: 코드를 쓰기 전에 린트 검사, 쓴 후에 테스트 실행
- 작업 완료 시: 빌드 결과물 확인 — Hooks reference
[FACT] 가장 강력한 포인트: PreToolUse 훅이 권한 시스템보다 우선합니다. 즉, "이 코드는 절대 쓰지 마"라는 규칙을 걸어놓으면, Claude Code가 아무리 쓰려고 해도 차단됩니다. — Hooks guide
이건 공장의 안전장치와 같습니다. 기계가 아무리 빨리 돌아가도, 위험한 상황에서는 자동으로 멈추는 거죠.
그 밖의 기능들
- [FACT] Plugins: 스킬 + 에이전트 + 훅을 하나로 묶어서
claude plugin install로 설치. 마켓플레이스도 있습니다. — Plugins - [FACT] Agent SDK: 프로그램에서 Claude Code를 호출할 수 있는 도구. CI/CD 파이프라인에 통합 가능. — Agent SDK
- [FACT] 자동 메모리: 작업하면서 배운 것을 자동으로 기록하고, 다음에 다시 떠올립니다. — Changelog
- [VAR] Agent Teams: Lead + Teammates 구조로 여러 에이전트가 협업. 아직 연구 프리뷰 단계라 정식 기능은 아닙니다. — Agent Teams
Codex (OpenAI) — "체력 좋은 만능 실행자"
Codex는 OpenAI가 만든 AI 코딩 도구입니다. 여러 작업을 동시에 처리하는 능력과 end-to-end로 작업을 완수하는 능력이 뛰어납니다.
핵심 모델: GPT-5.3-Codex
[FACT] GPT-5.3-Codex (2026년 2월 5일 출시)는 단순한 "코딩 모델"이 아니라 **"범용 에이전트 모델"**입니다. 코드 작성뿐 아니라 터미널 명령어 실행, 문서 작성, 배포 파이프라인 관리까지 처음부터 끝까지(end-to-end) 혼자 해냅니다. — Introducing GPT-5.3-Codex
이전 버전(5.2)과 비교하면:
| 벤치마크 | GPT-5.2-Codex | GPT-5.3-Codex | 변화 |
|---|---|---|---|
| SWE-Bench Pro (코딩) | — | 56.8% | — |
| Terminal-Bench 2.0 (터미널 작업) | 64% | 77.3% | 대폭 상승 |
| OSWorld-Verified (OS 작업) | — | 64.7% | — |
| 응답 속도 | 기준 | 25% 빠름 | 개선 |
[FACT] 이 모든 걸 이전보다 더 적은 토큰(= 더 적은 비용)으로 달성합니다. — Introducing GPT-5.3-Codex
핵심 변화: 오케스트레이션에서 Codex의 역할이 "시킨 것만 하는 일꾼"에서 **"독립적으로 판단하고 실행하는 엔지니어"**로 격상되었습니다.
[FACT] 또한 실시간 스티어링 기능이 추가되었습니다. 작업이 끝날 때까지 기다리지 않고, 진행 중인 작업에 실시간으로 질문하거나 방향을 바꿀 수 있습니다. — Introducing GPT-5.3-Codex
이건 마치 택시를 탔을 때 "가던 길 말고 여기서 우회전해주세요"라고 말할 수 있는 것과 같습니다. 예전에는 목적지까지 가서야 "아 여기 말고요..."라고 말할 수 있었는데, 이제는 중간에 경로를 바꿀 수 있는 거죠.
모델 라인업
Codex에는 여러 모델이 있고, 용도에 따라 골라 쓸 수 있습니다:
GPT-5.3-Codex → "메인 엔진". 복잡한 구현, 터미널 작업, 장시간 태스크
GPT-5.3-Codex-Spark → "경량 엔진". 실시간 프로토타이핑, 일상 편집. 1000+ tokens/sec [VAR: 연구 프리뷰]
GPT-5.2-Codex → "리뷰 전문가". 코드 리뷰에 특화된 훈련을 받은 모델
[FACT] GPT-5.3-Codex-Spark는 Cerebras 하드웨어에서 초당 1000개 이상의 토큰을 생성합니다. 정말 빠릅니다. — Introducing GPT-5.3-Codex-Spark
Codex의 킬러 기능: Worktree & Cloud
Worktree는 Codex의 가장 독특한 기능입니다.
[FACT] Git worktree를 기반으로 완전히 독립된 작업 공간을 만듭니다. 한 에이전트가 A 기능을 만드는 동안, 다른 에이전트는 B 기능을 만들 수 있습니다. 서로 간섭하지 않습니다. — Worktrees
이건 마치 평행 우주 같은 겁니다. 같은 코드에서 출발하지만, 각각 다른 세계에서 작업하다가 나중에 합칩니다.
[FACT] Cloud 모드에서는 GitHub 연동 클라우드 환경에서 백그라운드로 작업이 돌아갑니다. --attempts 1-4 옵션을 쓰면 같은 문제를 최대 4가지 방법으로 풀어보고 비교할 수 있습니다(best-of-N).
— Cloud environments, CLI features
코드 리뷰: Codex의 숨은 강점
[FACT] GPT-5.2-Codex는 코드 리뷰에 특화된 훈련을 받았습니다. 일반적인 코딩 모델과는 다르게, "이 코드에서 뭐가 잘못됐는지" 찾는 능력이 특별히 강화되어 있습니다. — Introducing GPT-5.2-Codex
리뷰 방법도 여러 가지입니다:
- [FACT] CLI에서:
/review명령어로 로컬에서 바로 리뷰 (코드를 수정하지 않고 읽기만 함) — CLI features - [FACT] GitHub PR에서:
@codex review를 댓글에 쓰면 PR을 자동 리뷰. P0(심각)/P1(중요) 등급으로 이슈를 분류합니다. — Code Review - [FACT] 포커스 리뷰:
@codex review for security regressions처럼 특정 관점을 지정할 수 있습니다. — Code Review
자동화 기능
- [FACT] Automations: 반복 태스크를 스케줄링해서 백그라운드에서 자동 실행 — App features
- [FACT] Autofix CI: CI가 실패하면 자동으로 수정 시도 — Codex home
- [FACT] @codex 멘션: GitHub 이슈에 @codex를 태그하면 자동으로 Cloud 태스크가 생성됩니다 — Changelog
어디서 쓸 수 있나?
[FACT] Codex App (macOS), CLI, VS Code/Cursor/Windsurf, 웹(Codex Cloud), iOS, Slack, Linear, GitHub. — Codex home
