| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- Python
- 순수함수
- r-string
- OS
- sort v.s. sorted
- 코딩 테스트
- blinker
- slicing [::-1]
- timestamp
- 고차함수
- selenium-wire
- boto3
- CI/CD
- ds_store
- [초급(예비) 개발자 오픈소스 실무 역량강화 교육]
- sort(reverse=True) v.s. reverse
- 쿼리
- PIP
- pandas
- functools.wraps
- S3
- Airflow
- Chatbot
- 함수형 프로그래밍
- decorator
- reverse v.s. reversed
- Rag
- os.path
- 생각
- mongoDB
- Today
- Total
공부일지
MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_(3)결과 및 향후 과제(完) 본문
MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_(3)결과 및 향후 과제(完)
쿄우의 공부일지 2026. 3. 7. 17:08이전 글: (1) 배경과 아이디어
https://letsstudylog.tistory.com/159
MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_배경과 아이디어
배경회사에서 Confluence 문서를 관리하고 있다.https://www.atlassian.com/ko/software/confluence Confluence | 원격 업무에 친화적인 팀 작업 영역 | Atlassian어떤 프로젝트에서든 Rovo AI를 활용해즉시 초안을 작성하
letsstudylog.tistory.com
이전 글: (2) 구현 및 검증과정
https://letsstudylog.tistory.com/163
MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_(2)구현 및 검증과정
이전 글: (1) 배경과 아이디어https://letsstudylog.tistory.com/159 MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_배경과 아이디어배경회사에서 Confluence 문서를 관리하고 있다.htt
letsstudylog.tistory.com
결과 및 분석
유사도 점수별 결과 비교
검증 기준이었던 유사도 0.8을 기반으로 테스트를 진행하며, 점수대별 답변 정확도를 분석함.
- 0.7 이상: 실제 문서와 일치하는 유효한 답변이 도출됨을 확인.
- 0.6 이하: 문서에 없는 정보에 물어보는 경우로 없다고 정직하게 답변함을 확인.
- 이유: 프롬프트에 환각 방지 문구를 적었기 때문.
| 번호 | Cosine 유사도 | 실제 문서와 비교 |
| 1 | 0.7 점대 이상 | 실제 문서에 있는 내용과 일치 |
| 2 | 0.6 점대 | 해당 문서에 없는 정보를 질문한 경우 |
0.7점대 이상 질의응답 예시
======================================================================
🔍 질문: 2024년 눈 AI 및 문서 AI 학습데이터 수집&정제 프로젝트의 계약 기간은 어떻게 되나요?
======================================================================
✅ 검색 결과: 2개 문서 발견
[1] 팀1_(주)주식회사_2024년 눈 AI 및 문서 AI 학습데이터 수집&정제 (유사도: 0.7997)
[2] 팀2_유명회사1_유명회사2 그룹공동 생성형AI 플랫폼 구축 / Data Readiness 확보 (유사도: 0.7595)
🤖 AI 답변:
2024년 눈 AI 및 문서 AI 학습데이터 수집&정제 프로젝트의 계약 기간은 2024년 01월 02일 ~ 2026년 01월 03일입니다.
======================================================================
🔍 질문: 25년 Data Labeling 프로젝트의 예상 매출액은 얼마인가요?
======================================================================
✅ 검색 결과: 2개 문서 발견
[1] 팀1_떠오르는회사_25년 Data Labeling 도급 계약 (유사도: 0.7612)
[2] 팀2_유명회사1_유명회사2 그룹공동 생성형AI 플랫폼 구축 / Data Readiness 확보 (유사도: 0.6697)
🤖 AI 답변:
25년 Data Labeling 프로젝트의 예상 매출액은 "₩ 123,400,000원" 입니다.
0.6 대 질의응답 예시
======================================================================
🔍 질문: (주)주식회사의 계약서에서 자동 갱신 조항이 어떻게 되어 있나요?
======================================================================
✅ 검색 결과: 2개 문서 발견
[1] 팀1_(주)주식회사_LLM Evaluation dataset 구축(FT) (유사도: 0.6764)
[2] 팀2_검색유명회사_2024년 1분기 기가막힌 백과사전 구축 (유사도: 0.6349)
🤖 AI 답변:
제공된 참고 정보에는 (주)주식회사의 계약서에서 자동 갱신 조항에 대한 내용이 포함되어 있지 않습니다. 따라서 해당 조항에 대한 정보는 확인할 수 없습니다.
향후 과제 및 개선 방향
1. 질의응답 품질 고도화
- 사용자 패턴 분석:
- 현황: Input(정제 JSONL)기반으로 LLM 모델에게 질문 샘플을 생성한 뒤 검증을 진행했다.
- 실제 PM의 질의 패턴과 니즈를 파악하여 검증 데이터셋을 정교화할 필요가 있다.
- 질문 템플릿 도입:
- PM분들께 추천해드릴 표준화된 질문 템플릿 설계가 있으면 좋을 것이다.
- 목적: 사용자 경험을 개선하고 답변의 일관성을 확보하기 위함.
2. 데이터 파이프라인 및 아키텍처 확장
단순 구현을 넘어 안정적인 운영을 위한 클라우드 연동 및 자동화가 필요하다.
- GCS (Storage): 원본 및 프로세싱 데이터를 적재하여 불필요한 재처리 비용을 절감할 수 있다.
- Caching (MongoDB/Redis): 빈번한 질의에 대해 캐싱 레이어를 구축하여 응답 속도를 개선하고 API 호출 비용을 최적화할 수 있다.
- Airflow (Orchestration): 데이터 수집부터 색인까지의 전 과정을 자동화 파이프라인으로 관리할 수 있다.
- 운영 환경 구축: 시스템 모니터링 및 주기적인 답변 품질 검증(Eval) 로직을 추가해야 할 것이다.
3. 데이터 소스 다변화
- 현재 지원하는 문서 페이지 외에도 Google Sheets 등 사내에서 활발히 사용되는 외부 데이터 소스와의 연동 확장성을 검토할 예정이다.
회고
데이터 활용을 위해선 구조화된 전처리가 필수
데이터를 활용하기 위해서는 어떤 Schemaless한 엔진과 간편한 NoSQL이 있어도 구조화된 전처리가 필요함을 알게 됐다.
이는 데이터 활용에 대한 경제적이고 구조적인 고민이 선행돼야 한다. 이게 가장 어려운 단계였다.
유능한 기능을 먼저 만들어주신 다른 개발자들분께 감사
RAG, ChatBot은 들어만 봤지 막상 구현하려고 하면 막막한 기능이었는데, MongoDB Vector Search라는 똑똑한 내장 기능, OpenAI gpt-4o-mini, text-embedding-3-small와 같은 저렴하면서 유능한 모델이 있어서
데이터 정제과정 이후에는 비교적 쉽게 기능 구현이 됐다.
만들어준 분들께 감사함을 느꼈다.
서비스 제공을 위해 고려해야하는 다양한 측면
PoC를 마치고 확장을 한다면 즉, 실제로 서비스로 제공하기 위해 필요한 것들이 무엇일까 생각해봤을 때, 답은 두 가지였다.
경제적인 부분에 대한 고민은 Storage와 Caching으로,
운영 관리에 대한 고민은 Orchestration, Monitoring과 품질 검증 방법에 대한 또 다른 고민으로 이어지게 됐다.
누군가에게 제공할 수 있는 기능은 '된다.'에서 멈추지 않고 더 다양한 측면이 있음을 다시 한번 느끼게 됐다.
'Computer > 도전기' 카테고리의 다른 글
| MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_(2)구현 및 검증과정 (0) | 2026.03.07 |
|---|---|
| 시나리오: Docker 엔진 업그레이드 및 장애 복구(Rollback) 절차 (0) | 2026.03.01 |
| Airflow Metadata DB 최적화 및 디스크 용량 회수 (0) | 2026.03.01 |
| Airflow 서버 부하 줄이기(로컬, GCE 시범 적용) (0) | 2026.03.01 |
| MongoDB Vector Search를 활용한 사내 문서 검색 도우미 구현 및 성능 검증(PoC)_배경과 아이디어 (1) | 2026.01.07 |