인사이트

인사이트리포트

디지털프렌스포메이션 최신 정보 및 트렌드를 제공합니다.

IT 트렌드 클라우드 플랫폼

AI 워크로드를 위한 GKE(Google Kubernetes Engine)의 전략적 진화, Google Cloud Next ’25,

2025.07.14허종건 프로
다운로드

들어가며

2025년 4월, 미국 Las Vegas에서 개최된 Google Cloud Next ‘25는 글로벌 클라우드 기술의 현주소와 AI 기반 혁신의 미래를 조망하는 핵심적인 장으로 평가된다. ‘클라우드를 경험하는 새로운 방식(The new way to cloud)’이라는 대주제 하에, 이번 행사는 AI 기술이 단순한 실험 단계를 넘어 기업의 실질적인 성장 동력으로 작용하며 산업 전반의 디지털 전환을 어떻게 주도하는지에 대한 구체적인 비전과 솔루션을 제시했다.

Next ‘25에서 Google Cloud는 AI 모델 자체의 발전을 넘어, 기업이 AI를 자체적으로 구축하고 운영하며 그 가치를 실제 비즈니스 환경에서 극대화할 수 있도록 지원하는 포괄적 생태계 조성에 대한 강력한 의지를 보였다. 이는 혁신적인 AI 서비스를 안정적으로 확장하고, 다양한 산업 현장에 효과적으로 통합하기 위한 견고하고 유연한 기술 기반의 중요성이 그 어느 때보다 강조되었음을 시사한다.

이러한 AI 전략의 핵심에는 출시 10주년을 맞이하며 AI 워크로드 지원 역량을 한층 강화한 Google Kubernetes Engine(GKE)이 자리한다. GKE는 주요 혁신을 통해 AI 애플리케이션의 비용 효율성, 확장성 및 개발 생산성을 극대화하는 핵심 플랫폼으로 그 역할이 더욱 부각되었다. 본 리포트는 Google Cloud Next ’25에서 발표된 GKE의 주요 업데이트와 AI 시대의 중추 기술로서 GKE가 지닌 전략적 가치 및 미래 전망을 심층 분석한다.

[1] Transformi your business with AI The Kubernetes advantage https://www.youtube.com/watch?v=8lveNvUEdGk&t=3s

 

GKE의 AI 혁신 전략

Google Kubernetes Engine(GKE)은 Google Cloud에서 제공하는 완전 관리형 Kubernetes 서비스로, 컨테이너화된 애플리케이션의 배포, 확장, 관리를 자동화하는 핵심 인프라 플랫폼이다. Next ‘25 행사에서 GKE는 단순한 컨테이너 오케스트레이션 도구를 넘어, 복잡하고 까다로운 차세대 AI 워크로드를 안정적으로 구동하고 가속하는 전략적 플랫폼으로서의 역할이 강조되었다. 행사에서는 비용 최적화를 위한 GKE Autopilot, 지능형 운영을 위한 Gemini Cloud Assist, 고성능 추론을 위한 GKE Inference Gateway, 개방형 ML 생태계 지원을 위한 Ray on GKE 등의 핵심 혁신 기능이 소개되었다.

Next ‘25에서 공개된 GKE의 발전 방향은 AI 기술의 대중화와 함께 기업이 직면하는 실질적인 문제 해결에 초점을 맞춘다. 이는 AI 모델 개발부터 배포, 운영에 이르는 전체 수명 주기(Lifecycle)에서 발생하는 비용 문제, 운영 복잡성, 성능 저하, 개발자 생산성 저하 등의 난제를 해결하는 것을 목표로 한다. GKE는 이러한 혁신을 통해 기업이 AI 기술을 안정적으로 도입하고 비즈니스 가치를 극대화할 수 있도록 지원하는 핵심 기반 기술로서 그 중요성이 더욱 부각되고 있다.

 

GKE, AI 워크로드의 새로운 기준

Google Next ‘25에서 공개된 GKE의 핵심 혁신 기능들은, 복잡한 AI 인프라 운영이라는 장벽을 허물고 기업의 AI 도입을 가속화하는 구글의 전략적 해답을 제시한다. 이는 GKE를 단순한 컨테이너 관리 플랫폼을 넘어, 비용 효율성, 개발 생산성, 추론 성능이라는 세 가지 핵심 가치를 통합하여 제공하는 지능형 AI 워크로드 플랫폼으로 격상시킨다. AI 모델이 점점 더 거대해지고 복잡해짐에 따라, 이를 뒷받침하는 인프라는 수동적인 유틸리티에서 벗어나 능동적이고 지능적인 파트너로 진화해야만 한다. 이러한 GKE의 발전은 기술 복잡성을 크게 낮춤으로써 더 많은 기업이 AI 기술을 실험 단계를 넘어 실제 프로덕션 환경에 자신 있게 배포할 수 있도록 지원한다. 궁극적으로, GKE는 기업이 AI 기술을 비즈니스 성장의 핵심 동력으로 활용하고, 시장에서 지속 가능한 경쟁 우위를 확보할 수 있도록 지원하는 데 그 목적이 있다.

 

1. GKE Inference Gateway

AI 모델의 실제 서비스 적용에 있어 효율적인 추론(Inference) 환경 구축은 가장 큰 기술적, 비용적 난제 중 하나다. Next ‘25에서 공개된 GKE Inference Gateway는 이러한 요구사항에 부응하는 혁신적인 솔루션이다. 특히 LLM과 같이 응답 시간이 가변적인 모델의 경우, 기존 로드 밸런싱 방식은 비효율적인 자원 할당과 긴 대기열을 유발하여 사용자 경험을 저하시켰다. Inference Gateway는 AI 모델의 특성을 이해하는 ‘모델 인식(Model-aware)’ 아키텍처를 통해, 백엔드 서버의 상태를 지능적으로 파악하고 요청을 가장 빠르게 처리할 수 있는 곳으로 라우팅한다. 발표에 따르면 이를 통해 비용을 최대 30% 절감하고, 사용자 만족도에 직결되는 응답 시간의 꼬리 부분(Tail Latency)을 최대 20%까지 줄일 수 있다. 또한, 다양한 모델 버전 관리 및 트래픽 분할 기능을 제공하여, 새로운 AI 모델의 A/B 테스트나 점진적 배포를 용이하게 함으로써 서비스 품질과 안정성을 높인다. 이처럼 GKE Inference Gateway는 예측 불가능하고 비용이 많이 들었던 AI 추론을 안정적이고 경제적인 서비스로 전환시키는 핵심 기술로 평가된다.

 

2. Gemini Cloud Assist in GKE

Gemini Cloud Assist는 Google Cloud 전반에 걸쳐 AI 기반의 지능형 지원을 제공하는 서비스로, Next ‘25에서는 GKE 환경에서의 활용이 더욱 강조되었다. 대규모 Kubernetes 환경에서 장애가 발생하면, 엔지니어는 방대한 로그와 데이터 속에서 원인을 찾는 데 많은 시간을 소모하는 ‘신호 대 잡음’ 문제에 직면한다. 새롭게 공개된 Gemini Cloud Assist Investigation 기능은 GKE 콘솔 내에서 문제 증상을 기반으로 관련 로그, 메트릭, 구성 정보를 AI가 자동으로 상호 연관 분석하여 가장 가능성 높은 근본 원인과 해결 가설을 제시한다. 이는 단순한 오류 패턴 매칭을 넘어, 숙련된 엔지니어의 문제 해결 노하우를 AI가 보조하여 평균 문제 해결 시간(MTTR)을 획기적으로 단축시킨다. 또한, 사용자가 별도의 도구로 전환할 필요 없이 기존 GKE 워크플로우 내에서 바로 도움을 받을 수 있다는 점은 개발자의 인지 부하를 줄여준다. 조사 결과를 바탕으로 자동으로 지원 티켓을 생성하는 ‘조사에서 에스컬레이션으로’ 기능은 전체 문제 해결 프로세스를 매끄럽게 연결하여, 시스템 안정성과 비즈니스 연속성 확보에 결정적으로 기여할 것으로 전망된다.

 

3. GKE Autopilot

GKE Autopilot은 클러스터의 노드 프로비저닝, 스케일링, 업그레이드 등 기본적인 운영 관리를 Google에 완전히 위임하여 사용자의 운영 부담을 획기적으로 줄여주는 혁신적인 기능이다. Next ‘25에서는 Autopilot이 AI 워크로드에 더욱 최적화된 형태로 발전했음이 강조되었다. 기존의 인프라 관리는 종종 추측에 기반한 과잉 프로비저닝으로 이어져, 특히 GPU와 같은 고가의 AI 가속기 자원 낭비를 초래하는 주요 원인이었다. Autopilot의 향상된 용량 최적화(Right-Sizing) 기능은 실제 워크로드 수요에 기반하여 컴퓨팅, 메모리, 가속기 등 필요한 자원을 정밀하게 할당함으로써 이러한 문제를 근본적으로 해결한다. 또한, 더 빨라진 Pod 스케줄링과 신속한 자동 확장 응답 속도는 AI 모델의 빠른 반복 학습이나 예측 불가능한 추론 요청 급증에 효과적으로 대응할 수 있게 한다. 이는 장기적으로 컴퓨팅 자원 활용률을 극대화하고 AI 워크로드 운영의 경제성을 크게 향상시키는 데 기여할 것으로 기대된다. Next ‘25에서 발표된 컨테이너 최적화 플랫폼의 표준 클러스터 확대 적용은 이러한 비용 효율성을 모든 GKE 사용자에게 제공하려는 구글의 전략적 의지를 보여준다.

 

 

GKE 접근 및 사용 방법

Google Cloud Next ‘25에서 공개된 GKE의 핵심 기능들은 복잡한 AI 워크로드 운영을 단순화하고 효율성을 극대화하는 데 초점을 맞춘다. 사용자는 GKE 콘솔 내에서 직관적인 인터페이스와 AI 기반 지원을 통해 장애 대응, AI 모델 배포, 데이터 사이언스 워크플로우 관리를 수행할 수 있다.

 

1. GKE Inference 솔루션을 통한 AI 모델 배포 및 최적화

GKE는 AI 모델 추론을 위한 배포 과정을 단순화하고, 성능과 비용의 균형을 맞출 수 있는 최적화된 솔루션을 제공한다.

 

1단계: 최적화된 모델 선택 및 성능 목표 설정

GKE 콘솔의 AI 섹션에서 ‘GKE Quick Start’를 통해 배포할 AI 모델(예: DeepSeek)을 선택한다. CPU, 메모리 같은 복잡한 리소스 대신, ‘초당 토큰 생성 수’와 같은 비즈니스 목표에 맞춰 슬라이더를 조절하면 GKE가 최적의 하드웨어와 구성을 자동으로 추천한다.

 

2단계: 모델 배포 및 전문 대시보드를 통한 모니터링

추천된 구성으로 모델을 배포한 후, vLLM(Virtual Large Language Model) 전용 대시보드를 통해 성능을 모니터링한다. ‘첫 번째 토큰까지의 시간(Time to First Token)’과 같은 핵심 추론 지표를 직관적으로 확인할 수 있다

 

3단계: GKE Inference Gateway를 통한 부하 최적화

트래픽이 많은 실제 서비스 환경에서는 GKE Inference Gateway가 자동으로 활성화된다. 이는 LLM 요청의 특성을 이해하고 지능적으로 부하를 분산하여, 높은 트래픽 상황에서도 테일 레이턴시(Tail Latency)를 획기적으로 감소시키고 안정적인 성능을 보장한다.

 

2. Ray on GKE를 통한 데이터 사이언스 워크플로우 지원

GKE는 개방형 AI/ML 프레임워크인 Ray와의 긴밀한 통합을 통해, 쿠버네티스 운영의 복잡성을 추상화하고 AI/ML 워크로드의 개발 및 실행 환경을 대폭 간소화한다. 이는 전문 개발 인력이 인프라 관리 부담에서 벗어나 핵심 모델 개발 및 대규모 분산 처리 작업에 집중할 수 있도록 지원하는 것을 목표로 한다.

 

1단계: Ray 오퍼레이터 활성화

플랫폼 관리자는 GKE 클러스터 설정에서 체크박스 하나를 클릭하는 것만으로 ‘Ray 오퍼레이터’를 손쉽게 활성화할 수 있다.

 

2단계: 전문 개발 환경 연결

플랫폼 팀이 Ray 클러스터를 구성하면, AI/ML 엔지니어는 Jupyter Notebook과 같은 기존 Python 개발 환경에서 해당 Ray 세션에 직접 연결하여 작업을 시작할 수 있다.

 

 

3단계: 컴퓨팅 클래스를 활용한 자원 관리 및 작업 제출

‘컴퓨팅 클래스(Compute Classes)’라는 정책 파일을 통해 작업의 우선순위를 정의할 수 있다. 예약 인스턴스, 온디맨드, 스팟 인스턴스 등의 사용 순서를 지정하여 여러 사용자의 작업을 효율적으로 관리하고 비용을 최적화하며 작업을 제출한다.

 

 

3. Gemini Cloud Assist를 활용한 지능형 장애 대응

Gemini Cloud Assist는 GKE에 통합되어 운영 중 발생하는 장애의 근본 원인을 신속하게 파악하고 해결 방안을 제시하는 AI 기반 솔루션이다.

 

1단계: 기능 활성화 및 조사 시작

Gemini Cloud Assist 기능은 GKE 클러스터 설정에서 간단한 체크박스 선택으로 활성화할 수 있다. 신규 클러스터 생성 시 또는 기존 클러스터를 수정한 후 기능(Features) 섹션으로 이동하여 Gemini 활성화(Enable Gemini) 옵션을 체크하고 저장하면 된다. 이 과정에서 Gemini의 분석에 필수적인 Cloud Logging 및 Cloud Monitoring과 같은 관측 가능성(Observability) 도구들이 함께 활성화된다. 기능이 활성화된 클러스터에서는 워크로드 콘솔에서 발생한 오류에 대해 ‘조사(Investigate)’ 버튼이 표시되며, 이를 통해 AI 기반 분석을 즉시 시작할 수 있다.

 

 

2단계: AI 기반 원인 분석 및 해결안 도출

조사가 시작되면 Gemini는 관련 로그, 설정, 메트릭을 종합적으로 분석한다. 수십 초 내에 문제의 원인에 대한 가설과 구체적인 해결 방안(예: 잘못된 이미지 태그 수정)을 제시한다.

 

 

3단계: 즉시 해결 또는 지원 요청 연계

제시된 해결안에 따라 콘솔에서 직접 YAML 파일을 수정하는 등 즉각적인 조치가 가능하다. 만약 문제가 복잡하여 즉시 해결이 어려운 경우, 분석된 모든 내용이 포함된 지원 티켓을 클릭 한 번으로 생성하여 원활한 기술 지원 연계를 수행할 수 있다.

 

 

마치며

Google Cloud Next ‘25에서 Google은 AI 애플리케이션의 개발, 배포, 운영 전반을 아우르는 인프라 기술의 혁신을 비중 있게 발표했다. GKE Autopilot, Gemini Cloud Assist, GKE Inference Gateway, Ray on GKE 지원 강화 등 GKE의 주요 업데이트는 클라우드 네이티브 생태계 전반에 걸쳐 AI 워크로드 지원을 위한 상당한 투자를 하고 있음을 명확히 했다.

이러한 GKE의 진화는 지능형 자동화와 비용 최적화를 통해 AI 운영의 복잡성을 해결하고, 개방형 프레임워크와의 긴밀한 통합으로 개발 생태계를 확장하는 전략적 방향성을 보여준다. 이는 단순히 컨테이너를 관리하는 단계를 넘어, GKE가 AI 시대의 핵심 인프라 플랫폼으로서 스스로 진화하고 있음을 의미한다.

이러한 기술들은 기존의 클라우드 애플리케이션 운영을 넘어, 대규모 언어 모델(LLM) 학습, 실시간 AI 추론 서비스, 데이터 분석 등 고성능 컴퓨팅이 요구되는 AI 핵심 워크로드 분야에서 혁신을 주도할 잠재력을 가지고 있다. 특히 GKE는 복잡한 AI 인프라 운영을 단순화하고 총소유비용(TCO)을 절감시킴으로써, 더 많은 기업이 AI 기술을 도입하고 비즈니스 가치를 창출할 수 있는 기반을 마련할 것으로 예상된다. GKE의 지속적인 혁신은 AI 기술의 대중화를 가속화하고, 산업 전반의 경쟁 구도를 재편하는 핵심 동력이 될 것이다.

# References

- https://cloud.google.com/gemini/docs/cloud-assist/investigations?hl=ko
- https://cloud.google.com/kubernetes-engine/docs/how-to/optimize-gke-gemini?hl=ko
- https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ko
- https://cloud.google.com/kubernetes-engine/docs/tutorials/serve-with-gke-inference-gateway?hl=ko
- https://cloud.google.com/kubernetes-engine/docs/concepts/machine-learning/inference?hl=ko
- https://cloud.google.com/solutions/using-gke-applications-page-cloud-console?hl=ko
- https://cloud.google.com/blog/ko/topics/google-cloud-next/google-cloud-next-2025-wrap-up
- https://cloud.google.com/blog/products/containers-kubernetes/how-gke-powers-ai-innovation?hl=en
- https://www.youtube.com/watch?v=APHtbCj2M_o
- https://bcho.tistory.com/1348
- https://www.youtube.com/watch?v=8lveNvUEdGk&t=3s

허종건 프로

허종건 프로

소프트웨어사업부 클라우드사업팀

구글클라우드플랫폼 관련 업무를 담당하고 있으며, 국내외 기업을 대상으로 다수의 프로젝트를 수행하고 있습니다.

연관 아티클

  • 더 정확하고 유연하게 찾는 하이브리드 검색 : LLM의 '확률적 앵무새' 한계 극복하기
    애널리틱스/AI2025.06.18

    더 정확하고 유연하게 찾는 하이브리드 검색 : LLM의 '확률적 앵무새' 한계 극복하기

    자세히 보기
  • AI 기반 UX Writing 품질 관리 방안
    IT 트렌드2025.05.23

    AI 기반 UX Writing 품질 관리 방안

    자세히 보기
  • 구글 Veo2 AI 영상 콘텐츠 생성, 구글의 Next Level 도약
    2025.05.09

    구글 Veo2 AI 영상 콘텐츠 생성, 구글의 Next Level 도약

    자세히 보기