구글이 메타와 협력해 엔비디아의 핵심 경쟁력으로 꼽히는 AI 소프트웨어 생태계를 정면으로 겨냥하고 나섰다.
AI 반도체 경쟁의 초점이 칩 성능을 넘어 개발자 생태계와 소프트웨어 호환성으로 빠르게 이동하고 있다는 신호다.
알파벳 산하 구글은 자사 인공지능(AI) 반도체인 텐서처리장치(TPU)가 전 세계에서 가장 널리 쓰이는 AI 개발 프레임워크 '파이토치(PyTorch)'를 보다 원활하게 구동할 수 있도록 하는 신규 프로젝트를 추진 중인 것으로 전해졌다.
이는 엔비디아가 수년간 구축해온 쿠다(CUDA) 기반 소프트웨어 지배력을 약화시키기 위한 전략의 일환이다.
17일(현지시간) 로이터통신에 따르면, 구글은 내부적으로 '토치TPU(TorchTPU)'로 불리는 프로젝트를 통해 TPU와 파이토치 간 호환성을 대폭 강화하는 방안을 개발하고 있다.
이미 파이토치 기반으로 AI 인프라를 구축한 기업들이 추가적인 엔지니어링 부담 없이 TPU를 활용할 수 있도록 진입 장벽을 낮추겠다는 구상이다.
일부 소프트웨어 구성 요소를 오픈소스로 공개하는 방안도 검토되고 있는 것으로 알려졌다.
구글은 그동안 엔비디아의 GPU에 맞서 하드웨어 성능을 앞세운 경쟁을 벌여왔지만, 시장에서는 '칩보다 소프트웨어'라는 평가가 지배적이었다.
실제로 대부분의 AI 개발자들은 칩 제조사가 제공하는 저수준 코드가 아니라 파이토치 같은 고수준 프레임워크에 의존해 모델을 개발한다.
파이토치는 메타가 주도적으로 지원해온 오픈소스 프로젝트로, 엔비디아의 쿠다 생태계와 깊이 결합돼 있다는 점이 엔비디아의 가장 강력한 해자로 꼽혀왔다.
엔비디아는 자사 엔지니어 조직을 통해 파이토치 기반 AI 모델이 GPU에서 최대 성능을 발휘하도록 최적화해왔지만, 구글은 내부적으로 잭스(JAX)라는 별도의 프레임워크와 XLA 컴파일러를 중심으로 TPU 생태계를 발전시켜왔다.
이로 인해 구글이 내부적으로 사용하는 AI 개발 방식과 외부 고객이 선호하는 개발 환경 사이에 간극이 존재해왔다는 평가가 많았다.
구글 클라우드 측은 프로젝트의 구체적인 내용에 대해서는 언급을 피했지만, "TPU와 GPU 모두에 대해 폭발적으로 증가하는 수요를 보고 있다"며 "개발자들이 어떤 하드웨어를 선택하든 유연성과 확장성을 제공하는 것이 목표"라고 밝혔다.
TPU는 오랫동안 구글 내부 서비스에 우선적으로 사용돼 왔으나, 2022년 이후 구글 클라우드가 TPU 판매를 본격적으로 주도하면서 외부 고객 대상 공급이 크게 늘었다.
AI 수요가 급증하는 가운데 TPU는 구글 클라우드 매출 성장을 이끄는 핵심 동력으로 부상했지만, 파이토치 중심의 시장 환경은 확산의 걸림돌로 작용해왔다.
이 같은 구조적 한계를 해소하기 위해 구글은 파이토치의 창시자이자 관리 주체인 메타와의 협력을 강화하고 있다.
양사는 메타가 더 많은 TPU를 사용할 수 있도록 하는 방안을 논의해왔으며, 이는 메타가 엔비디아 GPU 의존도를 낮추고 AI 추론 비용을 절감하려는 전략과도 맞물린다.
메타는 TPU 활용을 통해 인프라 선택지를 다변화함으로써 엔비디아와의 협상력도 높일 수 있다.
구글은 올해 들어 TPU를 자사 클라우드 서비스에 국한하지 않고 고객의 자체 데이터센터에 직접 판매하기 시작했다.
최근에는 네트워크·인프라 전문가인 아민 바흐다트를 AI 인프라 총괄 책임자로 선임해 순다 피차이 최고경영자(CEO)에게 직보하도록 하는 등 조직 개편도 단행했다.
업계에서는 토치TPU 프로젝트가 성공할 경우 기업들이 엔비디아 GPU에서 다른 AI 칩으로 전환하는 데 따른 비용과 기술적 부담이 크게 줄어들 것으로 보고 있다.
AI 반도체 시장의 경쟁 구도가 '하드웨어 성능'에서 '소프트웨어 생태계 주도권'으로 본격 이동하고 있다는 점에서, 이번 구글과 메타의 공조는 엔비디아 중심의 질서에 가장 직접적인 도전이라는 평가가 나온다.