Push Your Agent: Measuring and Enforcing Quantitative Goal Persistence in Long-Horizon LLM Agents | AI Paper Digest

TL;DR Highlight

LLM 에이전트가 '100개 찾아줘'를 실제로 100개 찾을 때까지 멈추지 않게 만드는 방법과 벤치마크.

Who Should Read

LLM 에이전트가 장시간 작업(파일 수집, 데이터 처리, 반복 검색 등)을 수행할 때 중간에 멈추거나 중복 작업을 반복하는 문제를 겪는 백엔드/AI 개발자. 에이전트 파이프라인에서 신뢰할 수 있는 작업 완료를 보장하고 싶은 엔지니어에게 적합.

Core Mechanics

LLM 에이전트는 로컬 작업은 잘 해내지만 '정확히 N개를 완료하라'는 정량적 목표는 자주 실패함 — 논문은 이 문제를 QGP(Quantitative Goal Persistence)라고 정의함.
기존 에이전트의 3대 실패 패턴: 이미 제출한 항목을 또 제출하는 중복(duplicate submission), 목표 미달인데 완료 선언하는 조기 종료(premature stopping), 실제 검증 수보다 많다고 보고하는 수치 부풀리기(progress inflation).
STATEQGP 컨트롤러(상태 추적 기반)는 gpt-4.1-mini~gpt-5.4 전 모델에서 중복 제출률을 0.000으로 만들고 성공률 69~78%를 달성 — 표준 컨트롤러(최대 30.6%) 대비 압도적.
QGP-DataOps-lite(검증기 기반 작업 단위) 실험에서 표준/완료 게이팅 컨트롤러는 모든 모델에서 성공 0건, UNITQGP 컨트롤러는 25~50% 성공률로 유일하게 작동함.
Claude Code(Sonnet 4.6)와 Codex CLI(gpt-5.4) 같은 최신 프론티어 에이전트도 50개 목표는 대부분 해결하지만 100개 목표에서 조건당 3/9 성공으로 급락함.
체크리스트 프롬프트를 추가해도 100개 목표에서 성공률 개선이 없음 — 프롬프트로 상기시키는 것보다 검증기 연동 상태 추적 메커니즘이 훨씬 효과적.

Evidence

STATEQGP 컨트롤러는 gpt-4.1 LangGraph 기준 표준 컨트롤러 대비 성공률을 41.7%p 향상(95% CI: 27.8~58.3%p), gpt-5.4 LangGraph에서는 61.1%p 향상(95% CI: 44.4~77.8%p).
QGP-DataOps-lite에서 표준/VG 컨트롤러는 모든 모델-백엔드 조합에서 성공 0건, UNITQGP는 gpt-4.1-mini 50%, gpt-4.1 29.2%, gpt-5.4 25% 성공률 기록.
Claude Code(Sonnet 4.6), Codex CLI(gpt-5.4) 모두 N=50에서 9개 중 7개 성공이지만, N=100에서는 모든 에이전트-프롬프트 조건에서 9개 중 3개로 동일하게 하락.
메모리 보강 에이전트(LETTA/MEMGPT)는 gpt-4.1-mini에서 36개 중 0개 성공, gpt-5.4에서야 72.2%로 STATEQGP와 유사해짐 — 메모리 효과는 모델 크기에 강하게 의존.

How to Apply

에이전트가 '파일 100개 수집' 같은 정량 목표를 수행할 때, 컨트롤러 레이어에서 제출된 ID 목록과 검증 통과 수를 외부 상태로 유지하고, 중복 제출 시 필터링하여 다음 미탐색 페이지로 자동 전환하면 된다(STATEQGP 패턴).
백로그 처리 에이전트(CSV 검사, 파일 수정, 데이터 업데이트 등)에서 에이전트가 완료 선언을 시도할 때 검증기 카운트가 목표 미달이면 종료를 차단하고, 미처리 유닛 목록으로 에이전트를 다시 라우팅하는 UNITQGP 패턴을 적용하면 된다.
프론티어 에이전트(Claude Code, Codex CLI 등)를 쓰더라도 '체크리스트를 유지해라'는 프롬프트 추가만으로는 부족하므로, 외부 verifier가 accepted/remaining count를 명시적으로 피드백하는 도구 인터페이스를 별도로 설계해야 한다.

Code Example

snippet

# STATEQGP 컨트롤러 핵심 패턴 (Python 의사코드)
class StateQGPController:
    def __init__(self, target_count, verifier):
        self.target_count = target_count
        self.submitted_ids = set()       # 이미 제출한 ID 추적
        self.seen_pages = {}              # query -> set of seen page numbers
        self.valid_count = 0
        self.verifier = verifier

    def handle_action(self, action):
        if action.type == "submit":
            # 중복 필터링
            new_ids = [id for id in action.ids if id not in self.submitted_ids]
            if not new_ids:
                # 제출할 새 ID 없으면 다음 미탐색 페이지로 전환
                return self.advance_to_next_unseen_page(action.last_query)
            
            for id in new_ids:
                self.submitted_ids.add(id)
                if self.verifier.check(id):
                    self.valid_count += 1
            
            return {"valid_count": self.valid_count,
                    "remaining": self.target_count - self.valid_count}
        
        elif action.type in ["final", "ask_user"]:
            # 목표 미달이면 종료 차단
            if self.valid_count < self.target_count:
                return {
                    "blocked": True,
                    "message": f"아직 {self.valid_count}/{self.target_count}만 완료됨. 계속 진행하세요."
                }
            return {"allowed": True}
        
        elif action.type == "search":
            query = action.query
            page = action.page
            if query not in self.seen_pages:
                self.seen_pages[query] = set()
            
            if page in self.seen_pages[query]:
                # 이미 본 페이지면 다음 페이지로
                next_page = max(self.seen_pages[query]) + 1
                action.page = next_page
            
            self.seen_pages[query].add(action.page)
            return action

    def advance_to_next_unseen_page(self, query):
        seen = self.seen_pages.get(query, set())
        next_page = max(seen) + 1 if seen else 1
        return {"type": "search", "query": query, "page": next_page}

Terminology

QGP (Quantitative Goal Persistence)에이전트가 '정확히 N개'라는 숫자 목표를 외부 검증기가 확인할 때까지 포기하지 않고 지속하는 능력. 대충 비슷하게 했다가 멈추는 게 아니라 진짜로 완료할 때까지 버티는 것.

verifier (검증기)에이전트가 제출한 결과물이 유효한지 자동으로 판단하는 외부 심판. 시험 채점기처럼 정답/오답을 즉시 판정해서 에이전트에게 피드백을 줌.

STATEQGP검색-제출 작업에서 이미 제출한 ID, 탐색한 페이지, 검증 통과 수를 외부에서 추적하는 컨트롤러. 에이전트가 같은 자료를 또 제출하려 하면 막고 새 곳을 탐색하게 유도함.

UNITQGP백로그(할 일 목록) 처리 작업에서 각 유닛의 상태(미처리/시도중/완료)를 추적하는 컨트롤러. 에이전트가 멍하니 같은 검사를 반복하거나 제출을 빠뜨리면 다시 올바른 유닛으로 돌려보냄.

verifier-gated controller에이전트가 목표 수 미달인데 '완료했어요'라고 선언하면 그 종료 신호를 차단하는 컨트롤러. 하지만 중복 제출이나 빈 루프는 막지 못해서 혼자로는 부족함.

long-horizon agent수십~수백 번의 도구 호출을 거쳐 복잡한 목표를 달성하는 에이전트. 한 번에 끝나는 게 아니라 오랜 시간 여러 단계를 거쳐야 하는 작업을 처리함.

LangGraphLLM 에이전트의 실행 흐름을 그래프 구조로 관리하는 프레임워크. 노드(작업 단계)와 엣지(전환 조건)로 에이전트 로직을 정의할 수 있음.

duplicate submit rate에이전트가 이미 제출했던 항목을 또 제출하는 비율. 이게 높으면 에이전트가 자기가 뭘 했는지 기억을 못 하고 같은 일을 반복하고 있다는 뜻.

Related Papers

Related Resources

PushBench 익명 아티팩트 (코드, 매니페스트, 재현 스크립트)

Original Abstract (Expand)

Long-horizon language agents can make many plausible local tool calls yet fail to persist until a requested count is actually complete. We study this gap as Quantitative Goal Persistence (QGP): whether an agent keeps working until an external verifier confirms enough distinct valid items. PushBench turns this into a benchmark for repository-artifact collection and verifier-backed work units, so repeated work, duplicate submissions, false completion, and progress drift are measured directly rather than hidden behind a final success flag. In matched controller comparisons, a state-tracking retrieval controller reaches 69-78% success while eliminating duplicate submissions, and a backlog-tracking work-unit controller reaches 25-50% success in settings where standard and completion-gated controllers complete no task instances. Black-box frontier-agent evaluations with Claude Code (Sonnet 4.6) and Codex CLI (gpt-5.4) solve many 50-artifact tasks but drop to 3 out of 9 successes per condition at 100 artifacts. The results show that quantitative goals stress a different reliability requirement from local task competence: agents must maintain verified progress and stop only when the requested work is complete.