
19일 재련사(财联社)에 따르면 알리바바클라우드(아리윈)가 자체 개발한 AI 모델 운영 시스템 ‘Aegaeon’이 세계 최고 수준의 학술대회 ‘SOSP 2025’에 채택됐다. GPU 자원 낭비 문제를 해결하고 활용률을 극대화하는 이 기술은 현재 알리바바클라우드의 AI 플랫폼 ‘바이렌(百炼)’에 실제 적용 중이다.
SOSP(운영체제 원리 심포지엄)는 ACM SIGOPS가 주관하는 운영체제 및 시스템 소프트웨어 분야의 최고 권위 학술대회다. 한 해 수십 편만 채택되며 ‘운영체제계의 오스카’로 불린다. 이번 대회에선 시스템 소프트웨어와 AI 대형 모델 기술의 융합이 핵심 트렌드로 떠올랐다.
Aegaeon은 720억 파라미터 규모의 대형 모델 수십 개를 동시에 운용한 3개월 간의 베타 테스트를 통해 효율성을 입증했다. 엔비디아 H20 GPU 사용량을 기존 1192개에서 213개로 줄이며, 무려 82% 절감하는 성과를 냈다. 이는 대규모 AI 서비스를 운영하는 기업들의 비용 부담을 크게 낮출 수 있다는 의미다.
알리바바클라우드에 따르면, 실제 환경에선 일부 인기 모델(예: Qwen)이 전체 요청의 대부분을 처리하지만, 나머지 ‘롱테일 모델(AI 모델 운영에서 사용자 요청이 적고 호출 빈도가 낮은 모델)’들은 GPU를 독점하면서도 활용률이 낮은 비효율 구조가 문제였다. 실제로 전체 GPU 연산력의 17.7%가 전체 요청의 1.35%만 처리하는 데 쓰이기도 했다.
Aegaeon은 기존의 ‘모델 하나 당 GPU 하나’ 방식의 한계를 넘어, GPU를 자원 풀(pool)로 구성해 여러 모델이 효율적으로 공유하도록 설계됐다. 핵심은 토큰 단위로 처리하는 것이다. 모델이 다음 토큰을 생성할 때마다, 어떤 모델로 전환할 지를 실시간으로 판단해 처리한다.
이를 위해 Aegaeon은 모듈 재사용, 그래픽 메모리 정밀 관리, KV 캐시 최적화 등 다양한 기술을 적용해 전환 비용을 97% 줄이고 초 단위 응답 모델이 가능해진다. 단일 GPU로도 최대 7개 모델을 동시에 서비스할 수 있으며, 기존 솔루션 대비 최대 9배 높은 처리량과 2~2.5배 향상된 요청 처리 성능을 갖는다.
업계에선 앞으로 AI 발전은 단순한 GPU 성능 향상이 아니라 시스템 소프트웨어 수준의 혁신에 달려 있다는 평가가 나오고 있다.
이민정 기자
