
안녕하세요!
저는 얼마 전, 우연하게 모두의 AI 케인님의 유튜브 영상을 시청하였습니다.
AI Agent에 대한 개념과 필요성에 대해 설명을 기막히게 잘 해주시더라구요!
덕분에 해당 주제에 대해 큰 흥미와 관심을 가지게 되었고, 본격적으로 Deep-dive하게 된 동기가 되었습니다 :)
Q&A 세션에서 예시로 오픈소스 모델 기반 AI Agent 코드를 구현하는 시간을 가졌습니다(링크). 해당 주제 및 언급한 개선 사항은 다음과 같았습니다.
- 주제: RAG(Retrieval-Augmented Generation)와 AI Agent 기능을 활용한 문서 검색 봇 구축
- 개선사항: 다수의 유저를 상대로 한 LLM 모델 서빙 방법 개선
- 비동기 API 처리를 활용 → 리소스 사용량 절감, 단일 시간 당 처리량 증가
- 프레임워크 도입을 통한 추론 속도 개선 및 처리량 개선
- Groq, vLLM 등의 프레임워크 도입 고려
- LLM 모델 사용처 점검
- 특정 phase에서 LLM 모델을 꼭 사용할 필요가 있는지 점검할 것
- LLM 모델을 빈번하게 사용할 수록, AI Agent로부터 결과를 받기까지 상당한 시간이 걸리기 때문
- 대규모 서비스를 대비한 아키텍처 고려 → 메시지 브로커 시스템
- 비동기 처리
- 부하 분산 → 다수의 LLM 인스턴스에 작업을 적절하게 분배
- 버퍼링 → 브로커가 수많은 request를 버퍼링함으로써, message가 유실되는 상황을 최소화
정말 많은 개선 사항들이 언급되었는데요!
이번 시간에는 vLLM 프레임워크 도입을 통해, 문서 검색을 하는 AI Agent를 구성하려고 합니다.
바로 출발하시죠~
AI Agent 구조 설명
본 프로젝트에서 사용하는 AI Agent의 구조를 시각화 한 그림은 아래와 같습니다.
