IT인프라의 거의 모든 것

세상의 중심, 데이터센터에서 클라우드까지 IT인프라의 다양한 기술을 리뷰합니다.

IT칼럼·논평·인사이트

[iWORKS Insight] AIDC 요구사양서의 새 이름, NPU — 리벨리온·퓨리오사AI 기술 완전 분석

손진성 2026. 6. 3. 16:25

GPU 독주 시대의 균열, 그리고 국산 NPU가 채우는 공백


안녕하세요, 아이웍스 디지털인프라사업본부입니다.

최근 공공기관과 기업의 AIDC 구축 사업 요구사양서에 변화가 생겼습니다. 불과 1~2년 전까지만 해도 AI 인프라 스펙은 사실상 "NVIDIA GPU 몇 장" 으로 수렴됐습니다. 그런데 지금은 다릅니다. "NPU 몇 장 이상", "국산 NPU 적용 우대" 라는 문구가 조달 사양에 명시되기 시작했습니다.

이 변화는 일시적 유행이 아닙니다. 구조적 전환입니다. 오늘은 그 배경과 함께 현재 국산 NPU 시장을 주도하는 두 기업 — 리벨리온(Rebellions)퓨리오사AI(FuriosaAI) 의 제품 라인업을 기술적으로 깊이 있게 분석합니다.


1. NPU가 AIDC 스펙에 등장한 구조적 배경

① 추론(Inference) 중심으로의 워크로드 전환

AI 인프라의 무게 중심이 이동하고 있습니다. 모델을 처음 만드는 학습(Training)에서, 완성된 모델을 실서비스에 적용하는 추론(Inference)으로. 퓨리오사AI 백준호 대표가 "AI 인프라 경쟁의 중심이 학습에서 실질적인 서비스 구현인 추론으로 이동하고 있다"며 "반복적인 추론 비용을 낮추는 것이 향후 데이터센터 설계의 핵심"이라고 강조한 것은 이 흐름을 정확히 짚은 말입니다. IT Jungle

추론 워크로드는 학습과 달리 연산 패턴이 반복적이고 예측 가능합니다. GPU의 범용 병렬 연산보다 추론 특화 아키텍처인 NPU가 전력 효율과 비용 측면에서 구조적 우위를 가질 수 있는 이유입니다.

② AI 반도체 자국 생산 능력의 국가 전략화

엔비디아 단일 벤더 의존은 이제 단순한 비용 문제가 아닙니다. 미중 기술 패권 갈등 속에서 AI 반도체 수급은 국가 안보와 직결됩니다. 정부가 GPU 확충 사업을 추진하면서도 동시에 고성능컴퓨팅 지원 사업에 국산 AI 반도체 자원 지원을 명시한 것은 이 맥락입니다.

③ 상용화 실적의 축적

PoC 단계를 넘어 실서비스 배포 사례가 쌓이고 있습니다. KT클라우드의 NPU 기반 클라우드 서비스, SK텔레콤의 통화 요약 서비스 실적용, 삼성SDS가 국내 CSP 최초로 NPUaaS를 7월 출시하는 것까지 — 검증의 문턱이 낮아졌습니다. LTO


2. 리벨리온(Rebellions) — 제품 라인업 기술 분석

기업 개요

2020년 설립. 국내 AI 반도체 기업 중 가장 높은 1조 3천억 원 규모 투자 유치, 기업 가치 3조 4천억 원으로 평가. SK텔레콤 A.X 기반 통화 요약 서비스에 ATOM 칩을 적용한 상용 테스트 진행 중이며, 연내 ATOM-Max 적용을 추진. IPO 글로벌 주관사로 JP모건 체이스를 선정, 글로벌 상장 절차를 밟고 있습니다. Nutanix + 2

제품 라인업

① ATOM™ (1세대)

삼성 파운드리 5nm 공정. 16GB GDDR6 메모리(256GB/s 대역폭). 소형 언어모델(SLM)·비전 AI 추론에 최적화된 엔트리 포지션 제품. MLPerf 벤치마크에서 글로벌 수준의 하드웨어 효율성을 공식 검증받았습니다. KT클라우드 'AI SERV NPU' 상품의 핵심 컴퓨팅 소자로 실 서비스 적용 중입니다.

② ATOM™-Max (2세대 상용)

대규모 LLM 추론 메인스트림 제품. 128 TFLOPS(FP16), 최대 1,024 TOPS(INT4) 연산 성능, 1,024 GB/s 메모리 대역폭. EVA 기반 Vision+LLM+VLM 복합 AI 파이프라인의 End-to-End 검증이 완료됐으며, 멀티모달 추론 환경에서의 실용성이 입증됐습니다.

③ REBEL-Quad (차세대 플래그십)

삼성전자 4nm 공정 기반 칩렛 아키텍처. UCIe-Advanced 표준을 세계 최초로 실제 칩에 구현하여 칩렛 간 고속 통신의 속도·전력 효율·신뢰성을 확보했습니다. 144GB HBM3E 메모리(4.8TB/s 대역폭) 탑재로 단일 칩에서 수십억~수백억 파라미터 규모 모델 처리가 가능합니다. FP16 연산 기준 1 PFLOPS로 H200(0.99 PFLOPS)과 동급이며 메모리 용량(144GB)도 H200(141GB)을 소폭 상회합니다. Nutanix + 2

ISSCC 2026에서 논문 발표와 실물 라이브 데모를 동시 진행하며 양산 전제 기술 완성도를 공식 검증. xAI, 오픈AI 등 글로벌 파트너와 기술 검증 테스트가 진행 중입니다. IT Jungle

향후 로드맵으로 REBEL-IO, REBEL-CPU 등 칩렛 기반 파생 제품 출시도 예고되어 있습니다. Nutanix

제품공정메모리주요 성능포지셔닝
ATOM 5nm 16GB GDDR6 / 256GB/s MLPerf 검증 SLM·비전 추론, 엣지/클라우드
ATOM-Max 1,024GB/s 128TFLOPS FP16 / 1,024TOPS INT4 대규모 LLM 추론
REBEL-Quad 4nm 144GB HBM3E / 4.8TB/s 1 PFLOPS FP16 하이퍼스케일 AIDC

3. 퓨리오사AI(FuriosaAI) — 제품 라인업 기술 분석

기업 개요

2017년 설립. TSMC 5nm 공정 기반 NPU를 독자 설계·양산하는 팹리스 AI 반도체 기업. 메타(Meta)의 8억 달러 인수 제안을 거절하고 독립 경영을 선택한 것이 기술 자신감의 방증으로 평가됩니다. 최근 브로드컴과 손잡고 2나노·HBM4 기반 3세대 AI 가속기 공동 개발에 착수, 2028년 상반기 샘플링을 목표로 하이퍼스케일 AI 추론 인프라 시장을 정조준하고 있습니다. ibm

제품 라인업

① Warboy (1세대 — Gen 1 Vision NPU)

삼성 파운드리 14nm 공정. 이미지 복원·압축·스트리밍 미디어 등 비전 특화 NPU. MLPerf에서 NVIDIA A2 대비 우수한 성능을 기록하며 1세대 상용화의 기반을 닦았습니다.

② RNGD — 레니게이드 (2세대 LLM 추론 플래그십)

TSMC 5nm 공정, SK하이닉스 HBM3 탑재, 180W PCIe 기반 AI 가속기. FP16 기준 512 TFLOPS, INT4 기준 1 PFLOPS 연산 성능. TDP 180W 이하의 저전력 설계로 데이터센터 TCO 약 40% 절감 효과를 주장합니다. Spectra LogicIntelligentciso

전력 효율이 핵심 강점입니다. 해외 고객사 벤치마킹 결과, NVIDIA RTX PRO 6000 대비 동일 전력 기준 최대 7.4배 많은 사용자를 동시 처리할 수 있는 것으로 나타났습니다. IT Jungle

양산 규모와 고객 확보도 가속 중입니다. 2026년 1월 4,000장 1차 양산 인도를 시작했으며, 연내 메모리를 HBM3에서 HBM3E로 전환하고 용량을 48GB에서 72GB로 확대, SK하이닉스로부터 HBM3E 물량을 전량 확보했습니다. 삼성SDS가 신규 고객으로 합류하여 7월부터 레니게이드 기반 NPUaaS 서비스를 출시할 예정입니다. IT JungleStorageNewsletter

③ RNGD-Max (레니게이드 맥스 — 2026년 하반기 출시 예정)

레니게이드 칩 2개를 단일 카드에 탑재한 파생 제품. HBM3E 4개 탑재, 대형 엔터프라이즈 및 클라우드 환경을 타겟으로 합니다. LTO

④ 3세대 (개발 중, 2028년 샘플링 예정)

브로드컴과 공동 개발. 2나노 공정 기반 컴퓨트 다이, HBM4·HBM4E 메모리 적용. 브로드컴의 첨단 패키징 기술로 복수 실리콘 다이를 통합하고 고속 이더넷 기반 대규모 AI 클러스터 지원을 목표로 합니다. Spectra Logic

제품공정메모리주요 성능TDP상태
Warboy 14nm LPDDR4X 비전 특화 상용
RNGD 5nm HBM3 48GB 512TFLOPS FP16 / 1PFLOPS INT4 180W 양산 중
RNGD-Max 5nm HBM3E×4 72GB RNGD×2 '26 하반기
Gen 3 2nm HBM4/4E '28 샘플링

4. GPU vs NPU — 인프라 설계 관점의 선택 기준

아이웍스가 AIDC 컨설팅 현장에서 적용하는 판단 프레임워크입니다.

항목GPUNPU
주요 워크로드 학습 + 추론 범용 LLM 추론 특화
전력 효율 상대적 낮음 추론 특화 고효율
소프트웨어 생태계 CUDA 압도적 성숙 RBLN SDK, RNGD SDK 성장 중
TCO (추론 전용 시) 높음 GPU 대비 최대 40% 절감
도입 리스크 낮음 소프트웨어 마이그레이션 비용 고려 필요
추천 환경 학습·파인튜닝 포함 혼합 환경 추론 전용 서비스, 전력 민감 환경

핵심 판단 기준: 워크로드가 추론 중심이고, 전력·TCO 최적화가 우선이며, 소프트웨어 팀의 적응 비용을 감당할 수 있다면 — NPU는 이미 현실적 선택지입니다.


마치며

국산 NPU는 이제 응원의 대상이 아닙니다. KT클라우드, SK텔레콤, 삼성SDS, LG AI연구원이 실서비스에 올렸고, 글로벌 파트너십도 구체화되고 있습니다. AIDC 인프라 설계 시 NPU를 아키텍처 옵션의 하나로 진지하게 검토해야 하는 시점이 왔습니다.

아이웍스는 GPU·NPU 혼합 환경 설계, TCO 분석, 소프트웨어 마이그레이션 검토까지 포함한 AI 인프라 컨설팅을 지원합니다.

📧 di@iworks.kr 🌐 www.iworks.kr


💡 현장 컨설턴트의 시각이 궁금하신 분께 아이웍스 디지털인프라사업본부 손진성 본부장이 실제 AIDC 컨설팅 경험을 바탕으로 쓴 현장 인사이트 칼럼도 함께 읽어보시길 권합니다. 👉 데이터센터 이야기 — 요구사양서에 NPU가 등장한 이유


#아이웍스 #iWORKS #NPU #국산NPU #리벨리온 #퓨리오사AI #Rebellions #FuriosaAI #ATOM #ATOMMax #REBELQuad #RNGD #레니게이드 #AIDC #AI데이터센터 #AI인프라 #AI반도체 #LLM추론 #NPUaaS #삼성SDS #KT클라우드 #HBM3E #IT인프라 #데이터센터설계 #TCO절감 #디지털인프라