아티클을 불러오는 중...

MLXP: Kubernetes LLM Serving 최적화 기술 도입기

by | TECH_ESSAY | 2026-06-11

#DevOps #AI LLM 추론 성능을 끌어올리는 KV 캐시 인지 라우팅, Prefix 캐시, 분산 멀티노드 서빙을 쿠버네티스 프로덕션에 도입하며 겪은 실전 트러블슈팅을 다룹니다. Istio 서비스 메시, 스케줄러, Pod 보호 정책과 충돌한 지점을 어떻게 진단하고 풀어냈는지 보여줍니다.