본문 바로가기
AI 튜토리얼

Ollama 로컬 Deep Research 구축 가이드 (2026)

by 정부우르사 2026. 5. 4.
반응형

Perplexity Pro 월 $20 결제 영수증을 다시 들여다보다가, 결국 노트북에서 같은 일을 시키기로 했다. 검색·요약·인용까지 도는 Ollama 로컬 Deep Research 파이프라인은 사내 자료를 외부로 올리지 못하는 환경에서도 쓸 수 있고, GPU만 있으면 토큰 비용이 사실상 0원으로 떨어진다. 이 글은 LearningCircuit/local-deep-research + Ollama + Qwen 8B 조합을 처음부터 끝까지 세팅하고, 한국어 검색 품질과 한계까지 정리한다.

그림 1. 클라우드 Deep Research를 노트북으로 옮길 때 바뀌는 것
About the Author — 사내 PoC와 개인 프로젝트에서 OpenAI·Anthropic·Ollama를 모두 다뤄본 AI 엔지니어. 본 글의 명령어와 수치는 M2 Pro 32GB(macOS)와 RTX 4070 12GB(Windows 11) 두 환경에서 직접 실행·검증한 결과만 인용했고, 검증 못 한 항목은 "공식 README 기준" 또는 "필자 환경 기준"으로 표기했다.

1. 클라우드 vs 로컬 비교

OpenAI Deep Research는 GPT-5 계열 모델이 수십 개 웹페이지를 직접 읽으며 다단계 보고서를 만드는 기능이다. 결과 품질은 강력하지만 ChatGPT Pro 결제와 외부 데이터 전송이 전제다. 로컬 쪽은 같은 워크플로(질의 → 검색 → 요약 → 후속 질문 → 보고서 + 인용)를 오픈소스 코드와 로컬 LLM으로 재현한다. LearningCircuit/local-deep-research는 README 기준 SimpleQA 95% 수준을 주장하지만, 이는 영어 사실 정답형 벤치마크라는 점을 감안해야 한다.

항목 OpenAI Deep Research Local Deep Research + Ollama
월 비용 ChatGPT Pro 구독 필요 전기료 외 0원
데이터 외부 전송 전송됨 로컬에서만 처리
사실성 품질 매우 높음 모델·검색 백엔드에 좌우
한국어 처리 우수 Qwen 계열은 합격선, 검색 결과 큐레이션 필요

필자는 M2 Pro 32GB MacBook과 RTX 4070 12GB 윈도우 데스크톱 두 환경에서 같은 파이프라인을 돌려봤다. 결론부터 말하면, 단순 사실 조회는 노트북도 충분하지만 보고서 깊이는 GPU·VRAM·검색 백엔드 품질이 사실상 결정한다. 정확한 답이 필요한 의료·법률 영역에서는 로컬·클라우드 모두 일차 자료로 쓰지 말고 보조 검색용으로만 다뤄야 한다.


2. 시스템 요구사항과 모델 선택

Qwen3 계열은 8B / 14B / 32B 변종이 흔히 배포된다. RAM·VRAM이 모델 크기를 결정하므로, 자기 환경에 맞춘 양자화 버전을 고르는 게 첫 단추다. 일반적으로 Q4_K_M 양자화는 원본 대비 절반 정도의 메모리만 쓰면서 사실성 손실이 크지 않다.

모델 크기별 권장 환경 (필자 환경 기준)

  • Qwen 8B Q4: 16GB RAM 이상 / 8GB VRAM 이상. 노트북 첫 실험용
  • Qwen 14B Q4: 32GB RAM 또는 12GB VRAM 이상. 개인 데스크톱 메인
  • Qwen 32B Q4: 24GB VRAM 이상 워크스테이션 권장

Deep Research는 LLM이 검색 결과를 여러 라운드로 읽기 때문에, 단순 챗봇보다 컨텍스트 길이가 중요하다. Ollama 모델 카드의 context 값이 8K 이상인 변종을 우선 골라야 한다. 검색 백엔드는 SearxNG 셀프호스팅이 무난하고, 외부 API를 쓸 수 있다면 Tavily·Brave Search도 옵션이다.


3. Ollama 설치와 모델 받기

그림 2. OS별 설치 한 줄 요약

Ollama는 ollama.com에서 macOS·Windows·Linux 인스톨러를 받는다. 설치 후 터미널이 열리면 ollama --version으로 동작 확인부터 한다. Qwen 모델은 Ollama 라이브러리에 등록된 태그를 그대로 당겨 쓰면 된다.

OS별 명령

# macOS / Windows: 인스톨러 실행 후
ollama --version

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# 모델 받기 (태그명은 Ollama 라이브러리에서 최신 확인)
ollama pull qwen3:8b
ollama run qwen3:8b "안녕, 한국어 한 문장으로 자기소개해줘"

ollama run이 응답을 출력하면 LLM 런타임 준비는 끝이다. 응답이 1초 이상 멈춘다면 모델이 메모리에 로딩되는 중이라 정상이다. 두 번째 호출부터 빨라진다.


4. Local Deep Research 설치

그림 3. 설치에서 첫 리서치 실행까지의 흐름

공식 README 기준으로 Docker Compose 설치가 가장 빠르다. 검색 백엔드(SearxNG)·웹 UI·LLM 어댑터가 한 번에 뜨기 때문에 설정 파일 다툼이 적다. Python 환경에 익숙하다면 venv 직접 설치도 가능하다.

Docker 설치 흐름 (권장)

git clone https://github.com/LearningCircuit/local-deep-research.git
cd local-deep-research

# 공식 README의 docker compose 파일 사용
docker compose up -d

# 컨테이너에서 호스트의 Ollama를 찾도록 환경변수 설정 필요
# 예: OLLAMA_BASE_URL=http://host.docker.internal:11434

venv 직접 설치

python -m venv .venv
source .venv/bin/activate  # Windows는 .venv\Scripts\activate
pip install -r requirements.txt
python -m local_deep_research --help

설치 직후 웹 UI는 보통 http://localhost:5000에서 열린다. 첫 화면에서 LLM provider를 Ollama, 모델을 qwen3:8b로 지정하고, 검색 백엔드는 SearxNG 또는 외부 API 키 중 하나를 고른다. 위 명령은 README 일반 패턴을 정리한 예시이며, 실제 옵션 키는 레포 최신 문서를 따라야 한다.


5. 첫 리서치 실행과 보고서 구조

그림 4. 보고서는 본문 + 출처 인용 블록으로 구성된다 (가공 예시)

웹 UI 입력창에 한 줄 질문을 넣으면 LLM이 자동으로 하위 질문을 만들고 검색을 돌린다. 필자 환경(M2 Pro 32GB, Qwen 8B Q4) 기준으로 중간 난이도 질문 한 건 처리에 약 5~10분이 걸렸다. 응답 본문은 약 1,500~3,000토큰 사이로 나오는 경우가 많고, 본문 끝에 사용한 출처 URL이 번호 인용 형식으로 붙는다.

보고서 섹션 구조 (가공 예시)

# Q. "한국에서 로컬 LLM으로 Deep Research를 돌릴 때 고려할 점은?"

## 요약
- ...

## 본문
1. 모델 크기와 VRAM ...
2. 검색 백엔드 선택 ...

## 출처 (Citations)
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://ollama.com/
[3] https://huggingface.co/Qwen

위 보고서 텍스트는 실제 출력이 아니라 구조 설명용 가공 예시다. 실제 응답은 매번 달라지며, 인용 URL 개수와 보고서 길이는 설정의 iterations·questions_per_iteration 값에 따라 늘어난다. 인용 정확도는 검색 백엔드의 큐레이션 품질에 직접 영향을 받기 때문에, SearxNG라면 한국어 친화 엔진(네이버·다음)을 활성화해두면 결과가 눈에 띄게 좋아진다.


6. 한국어 품질·문제 해결 FAQ

Qwen은 다국어 학습량이 많아 한국어 출력 자체는 자연스럽지만, 검색 결과 자체가 영어 위주라면 보고서도 영어 비중이 커진다. 한국어 결과 비율은 검색 백엔드가 90% 결정한다고 봐도 무방하다. 자주 마주치는 문제는 다음 세 가지였다.

  • Docker에서 Ollama를 못 찾음 → OLLAMA_BASE_URLhttp://host.docker.internal:11434로 지정
  • 응답이 중간에 잘림 → 모델 컨텍스트 길이가 부족한 변종, 8K 이상 변종으로 교체
  • 한국어 출처가 거의 없음 → SearxNG 설정에서 한국어 우선 엔진을 ON, 외부 API라면 검색어를 한국어로 강제

OpenAI 비용을 일부만 줄이고 싶다면 OpenAI API 키 발급과 비용 비교에서 본 가격대와 비교해 어디까지 로컬에 맡길지 가르면 된다. 코딩 워크플로 쪽에서 로컬 LLM을 함께 쓰고 싶다면 Cursor 시작 가이드의 모델 설정 부분, MCP를 활용한 도구 확장은 MCP 시작 가이드를 참고하면 같은 노트북 위에서 도구 체인을 묶기 편하다.

마지막 체크리스트

  • Ollama 설치 + qwen3:8b pull 완료
  • Local Deep Research 컨테이너가 localhost:5000에 떠 있음
  • 웹 UI에서 LLM provider = Ollama, 모델 = 받은 태그로 지정
  • 검색 백엔드(SearxNG 또는 API 키) 연결
  • 한국어 우선 엔진/검색어 설정
  • 첫 리서치 실행 후 인용 URL 개수 확인

다음 단계로는 회사 위키나 PDF 모음을 같은 파이프라인에 RAG로 끼워 넣는 작업, 그리고 보고서를 Slack·Notion으로 자동 송출하는 후처리 스크립트를 붙여 일주일 단위 자동 리서치 루틴으로 키우는 게 자연스럽다.

참고 자료

반응형