LLM을 활용한 Single/Multi Truth Data Fusion

TL;DR Highlight

여러 소스의 충돌하는 데이터를 GPT-4o-mini 프롬프트로 병합하면 기존 비지도 방법보다 일관되게 F1 점수가 높다.

Who Should Read

여러 외부 소스에서 데이터를 수집해 하나의 레코드로 합쳐야 하는 데이터 엔지니어나 백엔드 개발자. 특히 상품 정보, 영화 메타데이터, 항공편 정보처럼 소스마다 값이 달라 충돌이 자주 발생하는 파이프라인을 운영하는 팀.

Core Mechanics

Data Fusion(여러 소스의 충돌 값 중 정답을 가려내는 작업)을 LLM 프롬프트만으로 해결하는 접근을 처음으로 체계적으로 벤치마킹했다.
프롬프트를 DD(Domain-Dependent, 도메인 특화 용어 포함)와 DI(Domain-Independent, 추상 용어 사용), 그리고 single-truth / multi-truth 네 가지로 분류해 각각 0-shot / 1-shot 조합으로 실험했다.
도메인 특화 용어를 프롬프트에 넣은 DD 방식이 Book 데이터셋 8/8, Movie 8/8, Flight 6/8 케이스에서 DI보다 높은 F1을 기록했다. 즉 '저자', '감독' 같은 필드명을 명시하는 게 효과적이다.
제약 조건 C1('소스에 있는 값만 써라')과 C2('같은 포맷 변형은 하나로 봐라')는 일관된 성능 향상을 주지 않았다. Book/Movie에서는 C1이 오히려 성능을 떨어뜨리는 경우도 있었다.
Flight ID를 AA-1007-MIA-PHX 대신 FLIGHT-001 형태로 난독화해도 F1이 평균 0.014만 떨어졌다. LLM이 배경지식보다 소스 간 일관성 패턴을 보고 결정한다는 뜻이다.
GPT-4o-mini, GPT-4o, Claude Sonnet 4.6 중 GPT-4o-mini가 Movie·Flight에서 최고 F1을 기록했고, Claude Sonnet 4.6은 Flight 단일값 프롬프트에서 F1 0.3362로 크게 실패했다.

Evidence

Book 데이터셋에서 최고 성능 LLM(DD-1shot) F1=0.7817 vs 기존 최고 베이스라인 LTM F1=0.6955, 약 8.6%p 향상.
Movie 데이터셋에서 LLM DD-1shot F1=0.8172 vs LTM F1=0.7959, 2.1%p 향상. DI 방식도 F1≈0.78로 경쟁력 있음.
Flight 데이터셋에서 LLM DD-C1-0shot F1=0.9119 vs 기존 최고 베이스라인 LTM/SRV F1=0.8214, 약 9%p 향상.
Flight ID 난독화 실험에서 15/16 LLM 구성이 최고 베이스라인(F1=0.8214)보다 높은 F1을 기록. 배경지식 의존도가 낮음을 확인.

How to Apply

상품 카탈로그처럼 여러 판매자에서 수집한 속성 값이 충돌할 때, 필드명(예: '브랜드', '카테고리')을 프롬프트에 명시하는 DD 방식을 먼저 시도하면 된다. 추상적인 'attribute 1' 식 DI 프롬프트보다 일관되게 성능이 좋다.
장르나 태그처럼 정답이 여러 개일 수 있는 multi-truth 필드는 MT 프롬프트 구조를 써서 여러 값을 JSON 배열로 출력하도록 FORMAT 블록을 설계하면 된다. 단일값 필드와 프롬프트를 분리하는 게 핵심이다.
비용이 걱정된다면 GPT-4o-mini로 시작하면 충분하다. Book(894소스) 전체 퓨전 비용이 $0.57, Movie는 $0.15 수준이었으며, 요청당 평균 1~3초대 응답속도를 보였다.

Code Example

snippet

# DD-MT 1-shot 프롬프트 구조 예시 (Book 데이터셋 기준)
system_prompt = """You are a data fusion assistant."""

example_block = """
[EXAMPLE]
Book ISBN: 9780261102217
Seller 1 | Author: Tolkien, J.R.R.
Seller 2 | Author: J. R. R. Tolkien
Seller 3 | Author: John Ronald Reuel Tolkien
Fused Author: J.R.R. Tolkien
"""

def build_fusion_prompt(isbn, sources: dict) -> str:
    body = f"Book ISBN: {isbn}\n"
    for seller, attrs in sources.items():
        body += f"{seller} | Author: {attrs['author']}\n"

    question = "Based on the sources above, what is the correct Author value(s) for this book?"
    format_block = "Return a JSON array of strings. Example: [\"Author Name 1\", \"Author Name 2\"]"

    return f"{example_block}\n[BODY]\n{body}\n[QUESTION]\n{question}\n[FORMAT]\n{format_block}"

# 호출 예시 (openai SDK)
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    max_tokens=256,
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": build_fusion_prompt(
            isbn="9780547928227",
            sources={
                "Seller 1": {"author": "J.R.R. Tolkien"},
                "Seller 2": {"author": "John Ronald Reuel Tolkien"},
                "Seller 3": {"author": "Tolkien, J. R. R."},
            }
        )}
    ]
)
print(response.choices[0].message.content)
# 예상 출력: ["J.R.R. Tolkien"]

Terminology

Data Fusion여러 소스에서 같은 대상에 대해 서로 다른 값을 제공할 때 어느 게 진짜인지 가려내는 작업. 쇼핑몰마다 같은 책의 저자 이름이 다르게 적혀있을 때 올바른 이름을 골라내는 것과 같다.

Truth DiscoveryData Fusion의 다른 이름. 각 소스의 신뢰도를 함께 추정해서 진짜 값을 찾아내는 방법론.

Single-truth vs Multi-truthSingle-truth는 정답이 하나인 경우(예: ISBN번호), Multi-truth는 정답이 여러 개일 수 있는 경우(예: 장르는 '판타지'이면서 '모험'도 맞을 수 있음).

DD (Domain-Dependent) 프롬프트프롬프트 안에 '저자', '감독' 같은 도메인 특화 용어를 직접 넣은 방식. 반대로 DI(Domain-Independent)는 'attribute 1' 같은 추상 표현을 쓴다.

Zero-shot / One-shotZero-shot은 예시 없이 바로 작업 지시만 하는 것, One-shot은 예시 입출력 쌍을 하나 보여주고 같은 방식으로 해달라고 하는 것.

LTM (Latent Truth Model)각 값의 진실 여부와 소스 신뢰도를 숨겨진 변수로 보고 확률적으로 추정하는 베이지안 기반 진실 발견 모델.

DART소스가 도메인마다 신뢰도가 다를 수 있다는 점을 반영한 진실 발견 알고리즘. 예를 들어 어떤 판매자는 가격 정보는 정확하지만 장르 분류는 틀릴 수 있다는 걸 모델링한다.

F1-score정밀도(Precision, 예측한 것 중 맞은 비율)와 재현율(Recall, 실제 정답 중 맞힌 비율)의 조화평균. 둘 다 높아야 F1이 높아진다.

Related Resources

Original Abstract (Expand)

Data fusion, also known as truth discovery, is a data integration problem that aims to determine the correct value or set of values for each attribute of an object when presented with potentially conflicting values from multiple sources. Data fusion tasks belong to two main categories: single-truth scenarios, where each attribute has only one correct value, and multi-truth scenarios, where multiple values can be valid simultaneously. This paper investigates the use of Large Language Models (LLMs) in data fusion tasks for tabular data. Various prompting strategies, encompassing both single-truth and multi-truth scenarios, are investigated empirically. Domain-dependent, domain-independent, zero-shot and one-shot prompts are evaluated on three different benchmark datasets. Experimental results demonstrate that LLM-based approaches outperform traditional unsupervised truth discovery methods, such as DART and LTM, across all datasets. The codebase of this study has been made publicly available on GitHub.