
AI·클라우드 소프트웨어 기업 오케스트로가 AI 추론 운영 플랫폼 콘체르토 AI(CONCERTO AI)를 공개했다. 생성형 AI와 에이전트형 서비스 확산으로 늘어난 기업의 GPU 자원 운영 부담을 덜어주기 위한 솔루션이다.
콘체르토 AI는 분산 서빙 구조를 채택했다. AI 추론 요청이 들어오면 이를 여러 개의 가속기에 나눠 처리하는 방식이다. 오케스트로가 진행한 온프레미스 환경 테스트 결과에 따르면 기존 단일 가속기 처리 방식보다 토큰 출력 속도가 약 2.2배 빨라졌다.
단순히 속도만 높인 것은 아니다. 플랫폼 하나에서 AI 모델의 배포와 자원 배분, 실시간 성능 모니터링까지 한 번에 관리할 수 있도록 설계했다. 엔비디아 위주의 GPU 시장 환경을 고려해 리벨리온이나 퓨리오사AI 같은 국산 NPU(신경망처리장치) 지원을 내세운 점도 특징이다.
인프라 업계에서는 이번 플랫폼 출시가 프라이빗 AI나 소버린 AI 도입을 검토 중인 공공·금융권을 겨냥한 것으로 보고 있다. 데이터 유출 우려로 자체 인프라를 구축해야 하는 조직일수록 자원 효율화 솔루션이 필수적이기 때문이다.
김민준 오케스트로 대표이사는 "생성형 AI 서비스가 본격화되면서 기업들의 가장 큰 고민은 인프라 비용"이라며 "콘체르토 AI는 한정된 자원 안에서 추론 효율을 극대화할 수 있는 대안이 될 것"이라고 말했다.










