Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents | AI Paper Digest

TL;DR Highlight

SQL 한 줄 못 써도 CSV 올리면 DB 만들고 자연어 질문에 SQL 자동 생성·검증까지 해주는 3-에이전트 시스템, 7개 벤치마크 모두 SOTA 달성.

Who Should Read

자연어로 DB를 쿼리하는 Text-to-SQL 파이프라인을 구축하거나 개선하려는 백엔드/데이터 엔지니어. 엔터프라이즈 데이터 분석 자동화를 고민하는 AI 애플리케이션 개발자.

Core Mechanics

Data Interpreter → Schema Creator → Query Generator 3개 에이전트가 샌드박스 내 ACA(Autonomous Coding Agent, 코드를 직접 실행하는 에이전트)를 공유하며 원시 CSV/JSON/Excel을 DB로 만들고 자연어 질문에 SQL로 답변.
텍스트 대신 '실행 가능한 아티팩트'(스키마, 스크립트, 쿼리 로그)를 워크스페이스 파일로 주고받아서 에이전트 간 handoff 손실을 없앴고, 도메인 전문가가 각 단계를 리뷰할 수 있음.
공유 메모리를 3단계로 운영: 유사 사례 검색(episodic), 현재 DB 규칙(session lesson), 여러 DB에 공통 적용되는 규칙(cross-session lesson). 학습이나 사람 판단 없이 실행 결과만으로 규칙 승격.
Query Generator는 쿼리 실행 전 '예상 결과 형태(shape declaration)'를 먼저 선언하고, 실행 후 결과가 선언과 다르면 자동으로 진단·수정하는 self-verification 루프를 내장.
BIRD-Interact 같은 대화형 쿼리에서는 3번 연속 오답 시 강제로 ASK(명확화 질문)를 하게 해서 '같은 SQL 계속 재시도하다 턴 소진'하는 stuck-loop 실패 패턴을 차단.
파인튜닝 없이 Claude Sonnet 4.5 + OpenHands 하나로 SQLite·PostgreSQL·Snowflake·DuckDB 4개 dialect, 생성·디버깅·대화형·프로젝트 완성 4개 태스크를 커버.

Evidence

BIRD-Interact(대화형 쿼리)에서 최고 기존 시스템 22.7% 대비 55.7%로 +33.0%p 차이. 기존 최강 시스템 MERIT+GPT-5.4를 2배 이상 앞섬.
Spider2-Lite에서 기존 최고 ReFoRCE+o3(55.2%) 대비 71.3%로 +16.1%p, BIRD-Critic 디버깅에서 Gemini 3.1 Pro Preview(48.8%) 대비 64.2%로 +15.4%p.
BIRD-Dev(가장 포화된 벤치마크)에서 RL로 특화 학습한 전문 모델 MARS-SQL(77.8%)과 사실상 동률(77.7%)을 파인튜닝 없이 달성.
7개 벤치마크 전부에서 기존 최고 결과와 동일하거나 초과. 실패 사례 분석에서 SQL 문법 오류(execution failure)는 전체 실패의 3% 미만으로, 남은 오류 대부분은 의미론적 추론 문제.

How to Apply

Text-to-SQL 에이전트를 만들 때, SQL을 바로 생성하지 말고 먼저 'shape declaration(예상 컬럼 목록·행 granularity·정렬·필터)'을 선언하게 하고, 실행 후 결과와 선언을 비교해 불일치 시 자동 재시도하는 루프를 추가하면 output-convention 오류를 크게 줄일 수 있음.
대화형 SQL 에이전트에서 같은 구조의 쿼리를 반복 재시도하는 루프가 생기는 경우, '3번 연속 동일 구조 오답 → 강제 clarification 질문' 정책과 '직전 시도와 동일한 SQL 재전송 금지' 규칙을 추가하면 turn 낭비를 막을 수 있음.
에이전트 메모리를 구성할 때 '이번 DB에서만 유효한 규칙(session lesson)'과 '여러 DB에 공통 적용되는 규칙(cross-session lesson)'을 분리 저장하고, cross-session 승격은 실행 검증이 통과한 경우에만 허용하면 stale 경험이 전파되는 문제를 방지할 수 있음.

Code Example

snippet

## DIA Query Generator 핵심 패턴 — Shape Declaration + Self-Verification

# STEP 1: 질문에서 예상 결과 형태 선언 (SQL 실행 전)
OUTPUT_CONTRACT = """
cols: [account_id, latest_date]
rows: ~one per account (~4500)
order: none specified
filters:
  - transactions whose amount > account-level mean
"""

# STEP 2: Schema probe (컬럼명·값 형식 확인)
probe_result = query_db("SELECT DISTINCT status FROM transactions LIMIT 10")
# -> 'Banned', 'Restricted' (Title Case 확인)

# STEP 3: SQL 생성 및 실행
candidate_sql = """
WITH t_with_avg AS (
  SELECT account_id, date, amount,
         AVG(amount) OVER (PARTITION BY account_id) AS acct_avg
  FROM trans
)
SELECT account_id, MAX(date) AS latest_date
FROM t_with_avg
WHERE amount > acct_avg
GROUP BY account_id;
"""
result = query_db(candidate_sql)

# STEP 4: Self-verification — 선언한 shape과 실제 결과 비교
def verify(result, contract):
    checks = {
        "col_count": len(result.columns) == len(contract["cols"]),
        "row_plausible": abs(len(result) - contract["expected_rows"]) / contract["expected_rows"] < 0.1,
        "no_spurious_null_filter": "IS NOT NULL" not in candidate_sql or explicitly_required,
    }
    if not all(checks.values()):
        # 실패 시 진단 후 재생성
        diagnose_and_retry(result, contract, checks)
    return checks

# STEP 5: Cross-session memory 업데이트
# 실행 관찰이 확인된 경우에만 규칙 기록
if observation_confirmed_on_live_db:
    memory.write({
        "rule": "COUNT(DISTINCT pk) not COUNT(*) when joining one-to-many",
        "evidence": "COUNT(*) returned 9977, COUNT(DISTINCT CDSCode) returned 1",
        "scope": "cross-session"  # 여러 DB에서 재확인된 경우만
    })

Terminology

ACA (Autonomous Coding Agent)단순히 텍스트를 출력하는 게 아니라 코드를 직접 작성·실행·검증·수정할 수 있는 에이전트. 일반 LLM이 '답을 말해주는 것'이라면, ACA는 '코드로 직접 해보고 결과를 확인하는 것'.

Text-to-SQL자연어 질문을 SQL 쿼리로 자동 변환하는 기술. '2023년 매출 상위 10개 제품 알려줘'를 SELECT문으로 바꿔주는 것.

Shape DeclarationSQL을 실행하기 전에 '결과가 어떤 모양이어야 하는지(컬럼 수, 행 수, 정렬, 필터)'를 미리 선언하는 것. 공사 전 설계도를 그리는 것과 같아서, 나중에 결과물과 비교해 틀린 부분을 찾을 수 있음.

Execution Accuracy (EX)에이전트가 생성한 SQL을 실행한 결과가 정답 SQL 실행 결과와 일치하는 비율. SQL 문법이 맞는지가 아니라 '실제로 같은 답이 나오는지'를 측정.

Episodic Memory지금 풀고 있는 문제와 비슷한 과거 사례를 꺼내 참고하는 메모리. 시험 볼 때 비슷한 문제 유형을 떠올리는 것과 같음.

dbt (data build tool)SQL로 데이터 변환 파이프라인을 관리하는 도구. 원본 데이터를 분석용 테이블로 가공하는 과정을 코드로 관리할 수 있게 해줌.

Stuck-loop에이전트가 틀린 답을 받고도 거의 동일한 SQL을 계속 재시도하다 제한 횟수를 소진하는 실패 패턴. 사람으로 치면 틀린 답을 계속 우기는 것.

Snowflake클라우드 기반 데이터 웨어하우스 서비스. 대용량 엔터프라이즈 데이터를 저장·분석하는 플랫폼으로, 자체 SQL 방언(dialect)을 사용함.

Related Papers

Related Resources

Original Abstract (Expand)

Production data integration is bottlenecked by repeated, lossy handoffs between data owners, engineers, and analysts who must collaboratively discover, structure, and query enterprise data. We present Data Intelligence Agents (DIA), a system of three agents (Data Interpreter, Schema Creator, and Query Generator) that compresses this workflow by treating autonomous coding agents (ACAs) as a first-class abstraction: rather than emitting text, the agents generate, execute, validate, and repair concrete artifacts, draw on a shared memory for experience reuse, and surface each for review by domain experts. DIA is deployed in production for enterprise customers. We study the Query Generator in depth and evaluate it in fully autonomous mode across seven SQL benchmarks spanning four task categories and four dialects. It matches or surpasses the best published results on all seven, demonstrating that an architecture grounded in execution, built on ACAs and a shared memory, generalizes across the data intelligence workload with adaptation confined to natural-language instructions.