Pliops FusIOnX

GPU HBM 한계를 뛰어넘는
혁신적 LLM 추론 가속 솔루션

최대 8배 성능 향상

69% 비용 절감

50%+ 탄소 감축

회사 소개

Pliops Technology Inc.

설립: 2017년, 이스라엘 라맛간
투자: 총 2억 달러 이상 (Series D 1억 달러 포함)
핵심 HW: XDP PRO ASIC & XDP LightningAI 카드

2017 설립년도

$200M+ 누적 투자

비전 & 미션

"데이터 폭증 시대의 병목을 제거하여
AI 인프라 효율을 극대화한다"

GPU HBM의 물리적 한계

💾

메모리 용량 부족

대규모 LLM 모델의 KV 캐시가 GPU HBM 용량을 초과하여 성능 병목 발생

💰

높은 확장 비용

GPU 추가 구매로 인한 막대한 초기 투자비와 전력/냉각 비용 급증

🔄

프롬프트 재계산

메모리 부족으로 인한 반복적인 프롬프트 재계산이 전체 시스템 효율성 저하

기존 솔루션의 한계

GPU 스케일링 방식:

초기 투자비 4배 증가
전력 소비량 급격한 증가
랙 공간 부족 문제

소프트웨어 최적화:

CPU 병목 현상 지속
복잡한 구현과 유지보수
근본적 한계 미해결

FusIOnX 혁신 솔루션

핵심 가치 제안

저비용 SSD Tier를 활용하여 GPU HBM 한계를 극복하고,
프롬프트 재계산 없이 H100 시스템에서 즉시 2.5-7배 처리량 향상

핵심 기술 특징

GPU Direct KV I/O: CPU 개입 없는 CUDA 커널 직접 호출

μs급 응답: 전용 ASIC이 키-값 인덱싱/압축/충돌 해결

분산 KV 스토리지: NVMe-oF 기반 투명한 캐시 공유

계층형 로딩: 레이어-와이즈 Prefetch, Δ-Prefill 최적화

통합 및 호환성

플러그 앤 플레이: vLLM, TensorRT LLM, NVIDIA Dynamo 즉시 연동

패치 불필요: 기존 프레임워크 코드 변경 없이 플러그인 형태

광범위 지원: Linux 환경, 가상화, 컨테이너 완벽 지원

다중 GPU: 여러 노드에서 하나의 메모리 층처럼 동작

기술 아키텍처 상세

하드웨어 구성

XDP LightningAI 카드

PCIe Gen4/5 x16 인터페이스
Xilinx FPGA (향후 ASIC)
고속 DRAM 캐시 (NVDIMM)
ECC 메모리 내장

스토리지 연결

최대 6대 NVMe SSD 직접 연결
QLC/TLC/Optane 지원
NVMe-oF/NVMe-TCP 지원
SAS 드라이브 호환

소프트웨어 스택

드라이버 & API

Linux NVMe 블록 디바이스
키-값 라이브러리 API
DOCA 기반 플러그인
가상화 Pass-through

데이터 서비스

XDP-AccelDB (MySQL/PostgreSQL)
AccelKV (MongoDB/Redis)
LightningAI (LLM 추론)
RocksDB/Ceph 가속

FusIOnX 데이터 플로우

GPU 직접 호출

CUDA 커널에서 kv_put/kv_get 직접 호출

→

RDMA DMA

CPU 개입 없는 고속 데이터 전송

→

HW 처리

ASIC에서 인덱싱/압축/암호화

→

SSD 저장

100% 순차적 고효율 저장

성능 벤치마크 결과

8배 최대 E2E 가속

5배 Prefill 지연 개선

7배 프롬프트 토큰 TPS

2.7배 멀티턴 대화

H100 8-GPU 환경 상세 벤치마크

측정 항목	기존 방식	FusIOnX 적용	성능 향상
랜덤 읽기 IOPS	640K IOPS	3.2M IOPS	5배
랜덤 쓰기 IOPS	240K IOPS	1.2M IOPS	5배
순차 읽기	15 GB/s	30 GB/s	2배
순차 쓰기	3.2 GB/s	6.4 GB/s	2배
CPU 사용률	85%	17%	80% 절감

TCO 및 비용 절감 효과

94% 신규 CapEx 절감

66% 전력 소비 절감

58% 연간 OpEx 절감

50%+ 탄소 배출 감축

5년 TCO 상세 분석

기존 GPU 확장 방식

$4.4M 초기 하드웨어 비용

$375K 연간 전력/냉각비

16 DGX 필요 서버 대수

FusIOnX 솔루션

$0.24M 초기 하드웨어 비용

$126K 연간 전력/냉각비

4 DGX + 2 XDP 필요 인프라

절감 효과

94%↓ 초기 투자 절감

66%↓ 운영비 절감

67%↓ 랙 공간 절약

경쟁 솔루션 비교 분석

비교 항목	기존 GPU 확장	소프트웨어 최적화	FusIOnX
성능 향상	선형 확장	제한적 개선	최대 8배
초기 투자비	4배 증가	기존 대비 증가	94% 절감
전력/냉각	비례 증가	기존 수준	66% 절감
랙 공간	대폭 증가	기존 수준	67% 절약
통합 난이도	중간	복잡	플러그 앤 플레이
캐시 일관성	제한적	복잡한 구현	하드웨어 지원
확장성	비용 제약	한계 존재	경제적 확장

🚀 성능 혁신

GPU HBM 병목 근본 해결
μs급 초저지연 응답
CPU 개입 없는 직접 I/O
프롬프트 재계산 제거

💰 경제적 효율

초기 투자비 94% 절감
전력/냉각 비용 66% 절감
랙 공간 67% 절약
높은 ROI 달성

🔌 통합 편의성

플러그 앤 플레이 설치
기존 코드 변경 불필요
주요 프레임워크 지원
투명한 캐시 공유

실제 도입 시나리오

대규모 GPU 클러스터

환경 특성

H100/A100 8-GPU 서버 다수
대규모 LLM 모델 서빙
높은 동시 사용자 요구

도입 효과

추론 성능 4-8배 향상
동시 세션 4-5배 확대
인프라 비용 대폭 절감

중간급 GPU 팜

환경 특성

H20/RTX 계열 GPU 활용
중소규모 모델 서빙
비용 효율성 중시

도입 효과

기존 GPU 활용도 극대화
추가 GPU 구매 불필요
ROI 빠른 회수

멀티테넌트 SaaS

환경 특성

다양한 고객 요구사항
탄력적 자원 할당
SLA 보장 필수

도입 효과

응답시간 SLA 개선
처리 용량 대폭 증가
운영 비용 최적화

도입 로드맵

성능 평가

기존 환경 분석 및 FusIOnX 적합성 검토

파일럿 테스트

소규모 환경에서 성능 검증 및 최적화

점진적 확장

단계별 배포로 안정적 전환

전체 적용

프로덕션 환경 완전 이전

외부 검증 및 수상 실적

🏆

Flash Memory Summit 2024

Best of Show Award 수상

업계 최고의 스토리지 혁신 기술로 인정받아 최우수상 수상

🌟

업계 인정

글로벌 기술 리더십 인정

스토리지 및 AI 인프라 분야에서 혁신적 기술력 인정

언론 및 전문가 평가

Tom's Hardware

"워크플로 최대 8배 가속 달성"

실제 벤치마크에서 탁월한 성능 향상 확인

StorageReview

"혁신적인 스토리지 가속 기술"

GPU 병목 해결의 새로운 패러다임 제시

Blocks & Files

"LLM 추론 성능 혁명"

AI 워크로드 최적화의 새로운 기준 제시

✓ 성능 검증

실제 프로덕션 환경에서 최대 8배 성능 향상 달성

✓ 비용 효율성

TCO 60% 이상 절감으로 투자 효율성 극대화

✓ 친환경성

탄소 배출 50% 이상 감축으로 ESG 가치 실현

결론: FusIOnX의 혁신적 가치

기술적 혁신

GPU HBM 물리적 한계 극복
최대 8배 LLM 추론 가속
CPU 개입 없는 직접 I/O
프롬프트 재계산 제거

비즈니스 가치

초기 투자비 69% 절감
전력/냉각 비용 66% 절감
탄소 배출 50% 이상 감축
플러그 앤 플레이 통합

핵심 메시지

Pliops FusIOnX는 GPU 추가 구매 없이 저비용 SSD 계층화를 통해
최대 8배의 성능 향상과 60% 이상의 비용 절감을 동시에 달성하여
대규모 LLM 서비스의 경제적이고 지속가능한 확장을 가능하게 합니다.

8배 최대 성능 향상

69% 비용 절감

50%+ 탄소 배출 감축

문의하기