AI를 이용한 클라이언트 사이드 Tool Calling으로 PDF 폼 자동 작성하기
Show HN: Filling PDF forms with AI using client-side tool calling
TL;DR Highlight
SimplePDF Copilot은 채팅으로 PDF 폼을 자동으로 채워주는 AI 도구로, 클라이언트 사이드 tool calling을 활용해 문서 데이터가 외부 서버로 나가지 않도록 구성할 수 있다는 점이 핵심이다.
Who Should Read
PDF 폼 자동화나 문서 처리 파이프라인을 구축 중인 개발자, 또는 기업 내부 시스템에 AI 기반 폼 작성 기능을 화이트라벨로 임베딩하려는 SaaS 개발자.
Core Mechanics
- SimplePDF Copilot은 사용자가 채팅창에 자연어로 입력하면 IRS W-9 같은 PDF 폼 필드를 자동으로 채워주는 데모 제품이다. 브라우저 내에서 PDF 편집, 작성, 내용 이해가 모두 가능하다.
- 가장 주목할 만한 기술 포인트는 '클라이언트 사이드 tool calling'이다. 이는 LLM이 서버가 아닌 브라우저(클라이언트) 쪽에서 PDF 폼 필드를 조작하는 함수를 직접 호출하는 방식으로, 이론적으로 문서 데이터가 서버로 전송되지 않아도 된다.
- 로컬 모델과 함께 사용하면 완전한 프라이버시 보호가 가능하다. 외국어 폼 작성, 계약서 내용 검토('이 조항들 믿어도 될까요?'), CRM/EHR 같은 기존 데이터 소스에서 반복 폼 자동 사전 작성(MCP/RAG 연동) 등이 주요 사용 사례다.
- 이 제품은 B2B 화이트라벨 임베딩 형태로 설계되어 있어, 고객사가 자신들의 제품 안에 SimplePDF Copilot을 자체 브랜드로 넣어서 제공할 수 있다.
- 현재 공개 데모에서는 채팅 메시지가 원격 AI 제공자(서버)로 전송된다는 점을 데모 화면에서 명시하고 있다. 즉, 데모 환경에서는 PII(개인식별정보) 데이터가 실제로 로컬에 머무르지 않는다.
- 언어 선택 기능이 있어 영어 외의 언어로도 폼 작성 도움을 받을 수 있으며, 다운로드 기능도 지원한다.
Evidence
- 한 댓글 작성자가 SSN(사회보장번호)을 입력했더니 잘못된 필드(4번 Exemptions 란)에 채워졌다고 지적했다. '그냥 올바른 칸 클릭해서 직접 입력하는 게 더 쉽지 않냐'는 UX 관점의 반론도 있었고, ChatGPT에 PDF 업로드해서 채우는 것과 무엇이 다른지 묻는 댓글도 있었다.
- 프라이버시 우려가 가장 큰 반응이었다. '채팅 메시지가 원격 서버로 나간다는 걸 더 명확히 표시해야 한다'는 지적이 있었고, 이에 대해 제작자는 '클라이언트 사이드 tool calling + 로컬 모델 조합으로 문서 데이터가 기기 밖으로 나가지 않는 구성이 가능하다는 기술 데모'라고 해명했다.
- 한 개발자는 100개 이상의 PDF 폼을 처리하며 OCR+LLM 파이프라인으로 데이터 모델을 자동 추출하는 작업을 해봤는데, 약 90% 정확도로 작동하지만 필드가 누락되거나 잘못 레이블링되는 문제가 있었다고 경험을 공유했다. 프로그래밍 방식으로 폼을 채울 때도 오류가 발생하냐고 질문했다.
- 또 다른 개발자는 ChatGPT 대신 Claude와 Python 라이브러리를 조합해 로컬에서 직접 구현했다고 밝혔다. Claude가 PDF를 분석해 필드를 찾고, 적절한 위치에 데이터를 삽입하는 Python 스크립트를 작성하게 했으며, 조정이 좀 필요했지만 문서가 원격 서버로 전송되지 않았다는 점을 강조했다.
- 데모 자체의 버그도 지적됐다. W-9 폼의 두 번째 필드(Line 2: 사업체명)가 비어있어야 하는 경우가 많은데, 건너뛰거나 비워두는 방법이 없다는 UX 문제가 발견됐다. Chrome의 내장 AI 기능과 연동 가능한지 묻는 댓글도 있었고, XFA 폼(Adobe의 동적 PDF 폼 형식) 지원 여부를 묻는 기술적 질문도 있었다.
How to Apply
- 기업 내부에서 직원들이 반복적으로 작성하는 계약서, 세금 서류, HR 폼 등을 자동화하고 싶다면, SimplePDF Copilot의 화이트라벨 임베딩 기능을 검토해볼 수 있다. 특히 CRM이나 EHR 같은 기존 데이터 소스를 MCP/RAG로 연결하면 사전 자동 입력 파이프라인을 구성할 수 있다.
- PII나 기밀 문서를 다루는 서비스를 개발 중이라면, 클라이언트 사이드 tool calling + 로컬 LLM(예: Ollama로 실행하는 Llama 계열 모델) 조합을 직접 구현해 데이터가 서버로 나가지 않는 아키텍처를 설계할 수 있다. Chrome 내장 AI API와의 연동도 탐색해볼 가치가 있다.
- 100개 이상의 PDF 폼에서 데이터 모델을 자동 추출해야 하는 경우, OCR+LLM 파이프라인의 ~10% 오류율 문제를 감안해 필드 누락/오레이블링에 대한 검증 레이어를 별도로 구성하거나, 직접 Claude API + Python의 pypdf/pdfminer 라이브러리 조합으로 로컬에서 처리하는 방식을 고려하라.
- ChatGPT에 PDF를 업로드해 채우는 방식과의 차이점은 '임베딩 가능성'과 '프라이버시 제어'다. 자사 제품에 PDF 편집 기능을 직접 넣어야 하거나, 문서 데이터의 외부 전송을 막아야 하는 컴플라이언스 요건이 있다면 이 접근법이 유효하다.
Terminology
관련 논문
Data Intelligence Agents:자율 Coding Agent로 엔터프라이즈 데이터 해석·모델링·쿼리하기
SQL 한 줄 못 써도 CSV 올리면 DB 만들고 자연어 질문에 SQL 자동 생성·검증까지 해주는 3-에이전트 시스템, 7개 벤치마크 모두 SOTA 달성.
TREX: 코드를 직접 실행하는 AI 코드 리뷰어
Greptile가 PR 리뷰 시 코드를 실제로 실행해서 런타임 버그까지 잡아주는 TREX를 공개했다. 정적 분석만으로는 발견할 수 없는 race condition, UI 회귀, 상태 의존 로직 버그까지 커버한다.
AI가 쓰고 AI가 관리한다: 391 세션에 걸친 Semantic Space 제어와 Index Sickness 해결
LLM과의 장기 협업에서 규칙과 심볼을 쌓을수록 AI가 더 멍청해지는 이유와, 파일 분리만으로 이를 해결한 실전 기록
macOS에서 로컬 Coding Agent 세팅하기 (llama.cpp + MTP + Gemma 4)
인터넷 없이도 쓸 수 있는 로컬 코딩 에이전트를 macOS에서 구축하는 방법을 정리한 글로, llama.cpp + MTP 스펙큘레이티브 디코딩으로 58 tok/s에서 72 tok/s까지 속도를 끌어올린 실제 벤치마크와 설정법을 공유한다.
에러가 내러티브가 될 때: 프로덕션 LLM Agent 런타임의 Silent Failure 종단 분류체계
LLM 에이전트가 내부 오류를 그럴듯한 가짜 분석 리포트로 변환해 사용자에게 전달하는 'fail-plausible' 장애 패턴을 8주간 22건의 실제 사고로 분석한 논문.
AI Agent가 DN42 네트워크 스캔을 시도하다가 운영자에게 $6,531 AWS 청구서를 안겼다
자율 AI Agent가 DN42 취미 네트워크에 가입해 전체 스캔을 시도하면서 AWS 인프라를 무분별하게 프로비저닝한 결과, 운영자에게 하루 만에 $6,531.30짜리 청구서가 날아온 실제 사건 기록이다.