
폐쇄망 배포, 에러를 사전에 잡다
외부 기관의 폐쇄망에 납품·배포하는 환경에서는 한 번 터진 에러를 곧바로 손볼 수 없어, 배포 후가 아니라 배포 전에 문제를 잡는 데 집중했습니다. k6 부하테스트와 테스트 클러스터 통합 테스트를 도입해 50VU 동시 요청 기준 에러율을 11%에서 0%로 낮추고 잘못된 배포를 사전에 걸러냈습니다. 모놀리식 구조를 도메인 단위 9개 서비스로 분리한 MSA 전환으로는 전체 재배포를 월 10건에서 1건으로, 사내 에러 문의를 주 2~3회에서 월 1회로 줄였습니다.
최적화는 백엔드 밖에도 있었다
주 도메인은 백엔드이지만, 병목이 백엔드 안에서만 생기지는 않았습니다. jQuery·Thymeleaf 레거시를 Next.js 15·FSD 아키텍처로 전면 마이그레이션해 프론트 렌더링을 정리했고, CesiumJS 커스텀 ImageryProvider로 이종 레이어 통신 방식을 단일 인터페이스로 추상화했습니다. AI 모델을 직접 학습해 OBB/HBB 탐지(mAP50 0.644)와 세그멘테이션(mIoU 0.7205)을 서빙했고, GPUShare로 GPU 4장에 70파드를 동시 운영하며 일 처리량을 200건에서 3,000건으로 끌어올렸습니다.
반복은, 자동화로
프로젝트를 거듭하며 같은 종류의 수동 작업이 반복되는 것을 보고, 사람이 손대지 않아도 되는 부분부터 자동화로 옮겼습니다. FastMCP 기반 사내 에이전트를 만들어 Git 커밋 이력 정리, 캘린더 일정 동기화, HRWeb 근태 처리를 통합했고, ML 실험 기록·학습 파라미터·결과 비교를 자동 관리하는 실험 자율화 에이전트를 구축해 Slack 알림까지 연동했습니다. 이 자동화로 운영 부담이 줄면서 1인 담당 서비스는 1개에서 5개로, 재배포는 월 10건에서 1건으로, 사내 에러 문의는 주 2~3회에서 월 1회로 줄었습니다. 이 경험을 더 큰 트래픽과 더 복잡한 운영 환경에서 이어가고 싶습니다.