성경을 RAG Database로 구축한 프로젝트: Cross Canon

성경 전체를 RAG(검색 증강 생성) 데이터베이스로 인덱싱해 주제나 키워드로 관련 성경 구절을 의미론적으로 검색할 수 있는 웹 서비스다. 종교 텍스트에 RAG를 적용한 실용적 예시로, 유사한 프로젝트를 만들려는 개발자에게 참고가 된다.

RAG 파이프라인을 처음 구현해보고 싶거나 대용량 텍스트 코퍼스를 의미론적으로 검색 가능하게 만들려는 백엔드/풀스택 개발자. 종교 텍스트나 고전 문헌을 다루는 도메인 특화 검색 서비스를 기획 중인 개발자에게도 유용하다.

Cross Canon은 성경 전체를 벡터 임베딩으로 인덱싱해서, 단순 키워드 매칭이 아니라 '주제'나 '개념' 단위로 관련 구절을 찾아주는 의미론적 검색 서비스다.
검색 대상 텍스트는 World English Bible(WEB)의 개신교(Protestant)와 가톨릭(Catholic) 정경을 모두 지원하며, 기본값은 개신교 정경이다.
사용자는 검색할 정경(Protestant/Catholic)과 특정 책(예: 창세기, 로마서 등)을 지정할 수 있고, 책을 비워두면 전체 정경을 대상으로 검색한다.
실제 검색 테스트에서 'government'를 검색하면 로마서 13장처럼 예상되는 결과뿐 아니라, 다니엘서와 에스라에서 정부 관리의 칙령을 묘사하는 구절도 함께 나오는 등 의미적으로 관련된 다양한 결과가 나왔다.
'giants'를 검색했을 때 네피림이나 골리앗처럼 잘 알려진 인물 외에도 성경 전반에 걸쳐 등장하는 '거인' 관련 구절이 더 많이 발굴됐다는 사용자 경험이 공유됐다.

비슷한 접근으로 꾸란(Quran)과 하디스(Hadith), 알라의 이름까지 인덱싱한 유사 프로젝트(reminder.dev)가 소개됐다. OpenAI 임베딩을 사용해 구축했고 오픈소스로 공개돼 있다.
개신교·가톨릭 외에 에티오피아 정경까지 포함하고, 드롭다운으로 정교회(Orthodox) 등 다양한 정경 세트를 선택할 수 있게 해야 더 완성도 있을 것이라는 의견이 있었다.
속도가 느리다는 피드백이 있었다. 이에 대해 GTR-T5 같은 로컬 임베딩 모델을 사용하면 임베딩 생성 단계가 최초 1회만 실행되므로 비용 없이 빠른 임베딩을 생성할 수 있다는 팁이 공유됐다. 또한 lume(github.com/deepbluedynamics/lume)라는 도구를 코드 참조에 활용할 수 있다는 제안도 나왔다.
3대 종교(기독교·이슬람·유대교)의 경전 구절을 서로 비교 검색하는 유사 프로젝트(crazy.church)도 공유됐는데, Cloudflare Vectorize를 임베딩 DB로 사용했다고 밝혔다.
WEB 외에도 공정 이용(fair use)이 가능한 다양한 성경 번역본이 crosswire.org/sword에 있다는 정보가 제공됐고, 코드 공개 여부에 대한 질문도 있었지만 명확한 답변은 없었다.

고전 문헌이나 법령집, 기술 문서처럼 방대한 텍스트 코퍼스를 주제 단위로 검색해야 하는 경우, 이 프로젝트처럼 전체 텍스트를 벡터 임베딩으로 인덱싱하고 의미론적 유사도 검색을 구성하면 키워드 검색 대비 훨씬 풍부한 결과를 얻을 수 있다.
OpenAI 임베딩 API 비용이 부담된다면, reminder.dev 사례처럼 GTR-T5 같은 로컬 오픈소스 임베딩 모델을 사용해 최초 1회만 인덱싱하는 방식으로 비용 없이 구축할 수 있다.
멀티 도메인 텍스트(예: 여러 종교 경전 비교, 각국 법률 비교)를 한 시스템에서 검색하고 싶다면, crazy.church 사례처럼 Cloudflare Vectorize를 임베딩 DB로 활용해 각 텍스트 셋을 별도로 인덱싱하고 드롭다운으로 검색 범위를 전환하는 UI를 구성할 수 있다.
종교·고전·법률처럼 저작권이 있는 텍스트를 다룰 때는 crosswire.org/sword처럼 공정 이용(fair use) 또는 퍼블릭 도메인 텍스트 소스를 먼저 확인하면 라이선스 문제 없이 RAG 데이터베이스를 구축할 수 있다.

RAGRetrieval-Augmented Generation의 약자. 질문이 들어오면 미리 인덱싱된 문서에서 관련 내용을 검색(Retrieval)해 LLM에 넣어주는 방식. 모델이 모르는 내용도 문서 기반으로 답변할 수 있게 해준다.

벡터 임베딩텍스트를 숫자 배열(벡터)로 변환한 것. 의미가 비슷한 문장은 벡터 공간에서 가까운 위치에 놓이기 때문에 '의미가 유사한 문서'를 수학적으로 찾을 수 있다.

의미론적 검색단어가 정확히 일치하지 않아도 뜻이 비슷하면 찾아주는 검색 방식. 예를 들어 'government'를 검색했을 때 '정부'라는 단어가 없어도 통치나 칙령 관련 구절을 함께 반환한다.

GTR-T5Google이 만든 텍스트 임베딩 모델. 몇 년 된 모델이지만 무료·로컬 실행이 가능하고 품질도 준수해서 OpenAI API 없이 임베딩을 생성할 때 쓸 수 있다.

Cloudflare VectorizeCloudflare가 제공하는 벡터 데이터베이스 서비스. 임베딩 벡터를 저장하고 유사도 검색을 처리해주며, Cloudflare Workers와 함께 엣지에서 RAG를 구동할 때 사용된다.

정경(Canon)특정 종교 공동체가 공식적으로 인정하는 경전 목록. 개신교·가톨릭·정교회가 인정하는 성경 책의 범위가 다르기 때문에, 어떤 정경을 검색 대상으로 할지 선택지가 필요하다.