Claude를 활용해 모바일 앱 QA 자동화하기 (Android + iOS)
Teaching Claude to QA a mobile app
TL;DR Highlight
1인 개발자가 Claude + CDP + adb로 Capacitor 기반 모바일 앱의 자동화 테스트를 구축하여 매일 25개 화면을 자동 순회하며 버그 리포트를 자동 생성한다.
Who Should Read
Capacitor나 React Native처럼 WebView 기반 하이브리드 앱을 혼자 개발·운영 중인데, 모바일 자동화 테스트에 손을 못 대고 있는 1인 개발자 또는 소규모 팀.
Core Mechanics
- Capacitor는 React 웹앱을 Android(WebView)와 iOS(WKWebView)로 감싸는 방식이라 Playwright 같은 웹 테스트 도구도, XCTest·Espresso 같은 네이티브 테스트 도구도 제대로 쓸 수 없는 '테스트 무인지대'가 생긴다. 웹 도구 입장에서는 너무 네이티브고, 네이티브 도구 입장에서는 너무 웹이다.
- Android 해결책의 핵심은 WebView가 Chrome DevTools Protocol(CDP) 소켓을 노출한다는 점을 이용한 것이다. adb로 해당 소켓을 로컬 포트에 포워딩하면 Playwright·Puppeteer가 쓰는 것과 동일한 프로토콜로 앱을 완전히 프로그래밍 방식으로 제어할 수 있게 된다.
- Android에서 localhost 연결 문제는 'adb reverse tcp:3000 tcp:3000' 명령어로 해결했다. 에뮬레이터 내부의 localhost는 호스트 Mac이 아닌 에뮬레이터 자신을 가리키기 때문에, 에뮬레이터 재시작할 때마다 이 명령을 다시 실행해야 한다.
- 이렇게 만든 Python 스크립트가 매일 아침 8시 47분에 앱의 25개 화면(랜딩, 로그인, 4가지 피드, 게시글 상세, 프로필, 배지, 콘텐츠 생성 폼 등)을 약 90초 만에 순회하며 스크린샷을 찍는다. Claude가 각 스크린샷을 분석해 레이아웃 깨짐, 에러 메시지, 이미지 누락, 빈 화면, 상태 바 겹침 등을 체크한다.
- 버그 발견 시 Claude가 직접 zabriskie_bot 계정으로 인증 후 스크린샷을 S3에 업로드하고, '[Android QA] Shows Hub: RSVP button overlaps venue text' 형식으로 프로덕션 포럼에 버그 리포트를 자동 등록한다. 자동화에서 나온 이슈임을 제목에서 바로 알 수 있다.
- Claude에게 '예상된 정상 상태'도 학습시켰다. 비회원에게 크루 상세 페이지가 'Forbidden'을 반환하거나, 아바타 원이 비어 있거나, 프로필 설정의 'Preview' 텍스트는 버그가 아니다. 이런 컨텍스트 없이 스크린샷만 분석하면 오탐(false positive)이 많이 나온다.
- iOS는 Android의 6배 이상인 6시간 이상이 걸렸다. Apple이 보안 정책상 외부에서 WKWebView의 CDP 소켓에 접근하는 것을 막기 때문이다. 2026년 현재 모바일 자동화 툴링 성숙도의 차이를 단적으로 보여주는 수치다.
- Claude가 git worktree를 잘못 인식해 엉뚱한 저장소에 커밋하는 사고가 발생했다. 대화형으로 실행할 때는 바로 잡을 수 있지만, 스케줄로 무인 실행 중에는 다음 날 아침에야 발견하게 된다. AI 에이전트를 자율 실행할 때 격리 경계 강제화가 얼마나 중요한지 보여주는 사례다.
Evidence
- WebdriverIO + Appium으로 이미 해결 가능한 문제 아니냐는 지적이 있었다. Capacitor 공식 개발사인 Ionic에서도 이 조합을 공식 E2E 테스트 방법으로 추천한다는 링크가 함께 제시됐다. 즉, Claude를 도입하기 전에 기존 오픈소스 툴을 먼저 검토했어야 한다는 의미다.
- git worktree 격리 실패 문제가 가장 흥미로운 부분이라는 댓글이 달렸다. 핵심 지적은 'worktree는 에이전트가 cd ../main-repo를 실행하는 것을 물리적으로 막지 않는다'는 것이다. 좁고 명확한 스코프의 작업(25개 화면 스크린샷 순회)은 잘 동작하지만, '실패한 테스트를 고쳐라'처럼 판단이 필요한 작업은 worktree 탈출 사고가 날 수 있다. 이 격리 문제를 해결하기 위한 툴링(openhelm.ai)을 만들고 있다는 개발자도 있었다.
- 스크린샷을 Claude가 분석한다고 해서 실제로 의미 있는 QA가 되는 건 아니라는 회의적 의견도 있었다. 시각적 이상 감지 수준의 분석이 진짜 기능 검증을 대체할 수 없다는 비판으로, 이 접근법의 한계를 직접적으로 짚은 것이다.
- 모바일 앱 역방향 엔지니어링이나 스마트홈 기기 자동화 문제를 풀 때, 실제 기기 메인보드에 외부 컨트롤러를 연결하는 봇 팜 방식을 고려해봤다는 경험담도 있었다. 이는 소프트웨어 레이어 자동화가 막혔을 때 하드웨어 레이어로 내려가는 대안 접근법이다.
How to Apply
- Capacitor 기반 앱을 Android에서 자동화 테스트하고 싶다면, adb로 WebView의 CDP 소켓을 로컬 포트에 포워딩한 뒤 기존 CDP 클라이언트(Puppeteer 라이브러리 등)를 그대로 붙이면 된다. 에뮬레이터 재시작 후에는 'adb reverse tcp:포트 tcp:포트'를 반드시 다시 실행해야 연결이 유지된다.
- Claude(또는 다른 LLM)로 스크린샷 기반 시각적 회귀 테스트를 구성할 때는 '예상된 정상 상태' 목록을 프롬프트에 명시적으로 포함시켜야 오탐을 줄일 수 있다. 예를 들어 비회원 접근 시 Forbidden 화면, 아바타 미설정 시 빈 원 등 정상 케이스를 사전에 정의해두는 것이다.
- Claude 같은 AI 에이전트를 스케줄로 무인 실행할 때는 작업 스코프를 최대한 좁게 잡고, git worktree 격리 같은 소프트 경계가 아닌 파일시스템 권한 제한이나 별도 컨테이너처럼 물리적 강제가 가능한 격리 환경을 사용해야 한다. 에이전트는 명시적으로 금지하지 않으면 경계를 넘을 수 있다.
- Capacitor 앱의 모바일 E2E 자동화를 처음 도입한다면 Claude 커스텀 스크립트보다 Capacitor 공식 권장 스택인 WebdriverIO + Appium을 먼저 검토하는 것이 낫다. 이미 검증된 오픈소스 생태계가 있고, 커뮤니티 지원도 풍부하다.
Code Example
# 1. Android 에뮬레이터 네트워크 포워딩
adb reverse tcp:3000 tcp:3000
adb reverse tcp:8080 tcp:8080
# 2. WebView CDP 소켓 찾기 및 포트 포워딩
WV_SOCKET=$(adb shell "cat /proc/net/unix" | \
grep webview_devtools_remote | \
grep -oE 'webview_devtools_remote_[0-9]+' | head -1)
adb forward tcp:9223 localabstract:$WV_SOCKET
# 3. CDP 엔드포인트 확인
curl http://localhost:9223/json
# 4. 스크린샷 캡처 (adb)
adb shell screencap -p /sdcard/screenshot.png
adb pull /sdcard/screenshot.png ./screenshots/screen.pngTerminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.