그라디언트, 분산형 강화학습 플랫폼 '에코-2' 출시

블루밍비트 뉴스룸

간단 요약

그라디언트가 분산형 강화학습 프레임워크 에코-2(Echo-2)를 출시해 대형 언어모델 추론 중심 학습 비용을 기존 대비 10분의 1 수준으로 낮추는 것을 목표로 한다고 밝혔다.
에코-2는 30B급 모델 포스트 트레이닝을 상용 클라우드 대비 약 10분의 1 비용으로 수행해 비용 민주화(cost democratization)를 통해 개발자·스타트업까지 대형 모델 학습을 확장시킨다고 전했다.
에코-2는 전 세계 유휴 GPU 병렬 처리와 라티카(Lattica) P2P 프로토콜을 활용해 학습 비용을 4490달러에서 425달러로 낮추고 금융적 책임이 수반되는 영역에서 성능 검증을 마쳤다고 밝혔다.

기간별 예측 흐름 리포트

인공지능(AI) 인프라 기업 그라디언트(Gradient)가 분산형 강화학습(RL) 프레임워크 에코-2(Echo-2)를 출시했다고 12일(현지시간) 밝혔다. 에코-2는 대형 언어모델의 추론 중심 학습 비용을 기존 대비 10분의 1 수준으로 낮추는 것을 목표로 한다.

그라디언트는 AI 산업이 데이터 확장 중심의 '스케일링 법칙' 한계에 도달했다고 진단했다. 단순히 더 많은 텍스트와 GPU를 투입하는 방식만으로는 모델 지능 향상이 둔화되고 있으며, 모델이 스스로 논리를 검증하고 시행착오를 통해 답을 찾아가는 '추론 확장'이 핵심 경쟁력으로 부상하고 있다는 설명이다.

에코-2는 이러한 전환기에 맞춰 설계된 분산형 강화학습 인프라로, 30B(300억개 파라미터)급 모델의 포스트 트레이닝을 기존 상용 클라우드 환경 대비 약 10분의 1 비용으로 수행할 수 있다. 이는 단순 비용 절감 차원을 넘어, 대형 모델 학습을 빅테크 전유물에서 개발자·스타트업까지 확장시키는 '비용 민주화(cost democratization)'를 의미한다.

기존 클라우드에서 약 4490달러가 소요되던 학습 세션은 에코-2 환경에서 약 425달러 수준으로 낮아졌으며, 학습 시간도 약 9.5시간으로 단축됐다. 강화학습 연산의 약 80%를 차지하는 샘플링 과정을 전 세계 유휴 GPU로 병렬 처리한 것이 핵심이다.

기술적으로는 학습자와 행동자를 분리하고 모델 버전 간 시차를 엄격히 통제하는 '유계 스테일니스(Bounded Staleness)' 기반 비동기 강화학습 구조를 도입했다. 이를 통해 분산 환경에서도 학습 안정성을 유지하도록 설계했다.

또 60GB 이상 대형 모델 가중치를 수백개 노드에 수분 내 배포하는 P2P 프로토콜 라티카(Lattica)를 적용했다. 라티카는 중앙 서버 의존도를 낮춘 '탈중앙 가중치 전파(weight propagation)' 구조로, 대규모 분산 학습의 병목을 최소화하는 역할을 한다.

그라디언트가 공개한 연구에 따르면 분산 RTX 5090 GPU 환경에서 Qwen3-8B 모델을 학습할 경우, 중앙집중형 A100 데이터센터 대비 비용이 36% 저렴하면서도 성능 저하 없이 안정적인 결과를 도출했다.

실제 적용 사례도 확대되고 있다. 에코-2는 수학 올림피아드 수준의 고난도 추론, 스마트 컨트랙트 보안 감사, 자율형 온체인 에이전트 등 금융적 책임이 수반되는 영역에서 성능 검증을 마쳤다.

그라디언트 관계자는 "인공지능을 API로 임대하는 모델에서 벗어나, 기업이 직접 모델 가중치를 소유하고 진화시키는 구조로 전환해야 한다"며 "에코-2는 인터넷 규모에서 작동 가능한 추론 인프라를 누구나 구축할 수 있도록 하는 기반이 될 것"이라고 밝혔다.

#업데이트

블루밍비트 뉴스룸

news@bloomingbit.io뉴스 제보는 news@bloomingbit.io

그라디언트, 분산형 강화학습 플랫폼 '에코-2' 출시

PiCK 뉴스

해시태그 뉴스