Pliops FusIOnX

GPU HBM 한계를 뛰어넘는
혁신적 LLM 추론 가속 솔루션

최대 8배 성능 향상
69% 비용 절감
50%+ 탄소 감축

회사 소개

Pliops Technology Inc.

  • 설립: 2017년, 이스라엘 라맛간
  • 투자: 총 2억 달러 이상 (Series D 1억 달러 포함)
  • 핵심 HW: XDP PRO ASIC & XDP LightningAI 카드
2017 설립년도
$200M+ 누적 투자

비전 & 미션

"데이터 폭증 시대의 병목을 제거하여
AI 인프라 효율을 극대화한다"

GPU HBM의 물리적 한계

💾

메모리 용량 부족

대규모 LLM 모델의 KV 캐시가 GPU HBM 용량을 초과하여 성능 병목 발생

💰

높은 확장 비용

GPU 추가 구매로 인한 막대한 초기 투자비와 전력/냉각 비용 급증

🔄

프롬프트 재계산

메모리 부족으로 인한 반복적인 프롬프트 재계산이 전체 시스템 효율성 저하

기존 솔루션의 한계

GPU 스케일링 방식:

  • 초기 투자비 4배 증가
  • 전력 소비량 급격한 증가
  • 랙 공간 부족 문제

소프트웨어 최적화:

  • CPU 병목 현상 지속
  • 복잡한 구현과 유지보수
  • 근본적 한계 미해결

FusIOnX 혁신 솔루션

핵심 가치 제안

저비용 SSD Tier를 활용하여 GPU HBM 한계를 극복하고,
프롬프트 재계산 없이 H100 시스템에서 즉시 2.5-7배 처리량 향상

핵심 기술 특징

GPU Direct KV I/O: CPU 개입 없는 CUDA 커널 직접 호출
μs급 응답: 전용 ASIC이 키-값 인덱싱/압축/충돌 해결
분산 KV 스토리지: NVMe-oF 기반 투명한 캐시 공유
계층형 로딩: 레이어-와이즈 Prefetch, Δ-Prefill 최적화

통합 및 호환성

플러그 앤 플레이: vLLM, TensorRT LLM, NVIDIA Dynamo 즉시 연동
패치 불필요: 기존 프레임워크 코드 변경 없이 플러그인 형태
광범위 지원: Linux 환경, 가상화, 컨테이너 완벽 지원
다중 GPU: 여러 노드에서 하나의 메모리 층처럼 동작

기술 아키텍처 상세

하드웨어 구성

XDP LightningAI 카드

  • PCIe Gen4/5 x16 인터페이스
  • Xilinx FPGA (향후 ASIC)
  • 고속 DRAM 캐시 (NVDIMM)
  • ECC 메모리 내장

스토리지 연결

  • 최대 6대 NVMe SSD 직접 연결
  • QLC/TLC/Optane 지원
  • NVMe-oF/NVMe-TCP 지원
  • SAS 드라이브 호환

소프트웨어 스택

드라이버 & API

  • Linux NVMe 블록 디바이스
  • 키-값 라이브러리 API
  • DOCA 기반 플러그인
  • 가상화 Pass-through

데이터 서비스

  • XDP-AccelDB (MySQL/PostgreSQL)
  • AccelKV (MongoDB/Redis)
  • LightningAI (LLM 추론)
  • RocksDB/Ceph 가속

FusIOnX 데이터 플로우

1

GPU 직접 호출

CUDA 커널에서 kv_put/kv_get 직접 호출

2

RDMA DMA

CPU 개입 없는 고속 데이터 전송

3

HW 처리

ASIC에서 인덱싱/압축/암호화

4

SSD 저장

100% 순차적 고효율 저장

성능 벤치마크 결과

8배 최대 E2E 가속
5배 Prefill 지연 개선
7배 프롬프트 토큰 TPS
2.7배 멀티턴 대화

H100 8-GPU 환경 상세 벤치마크

측정 항목 기존 방식 FusIOnX 적용 성능 향상
랜덤 읽기 IOPS 640K IOPS 3.2M IOPS 5배
랜덤 쓰기 IOPS 240K IOPS 1.2M IOPS 5배
순차 읽기 15 GB/s 30 GB/s 2배
순차 쓰기 3.2 GB/s 6.4 GB/s 2배
CPU 사용률 85% 17% 80% 절감

TCO 및 비용 절감 효과

94% 신규 CapEx 절감
66% 전력 소비 절감
58% 연간 OpEx 절감
50%+ 탄소 배출 감축

5년 TCO 상세 분석

기존 GPU 확장 방식

$4.4M 초기 하드웨어 비용
$375K 연간 전력/냉각비
16 DGX 필요 서버 대수

FusIOnX 솔루션

$0.24M 초기 하드웨어 비용
$126K 연간 전력/냉각비
4 DGX + 2 XDP 필요 인프라

절감 효과

94%↓ 초기 투자 절감
66%↓ 운영비 절감
67%↓ 랙 공간 절약

경쟁 솔루션 비교 분석

비교 항목 기존 GPU 확장 소프트웨어 최적화 FusIOnX
성능 향상 선형 확장 제한적 개선 최대 8배
초기 투자비 4배 증가 기존 대비 증가 94% 절감
전력/냉각 비례 증가 기존 수준 66% 절감
랙 공간 대폭 증가 기존 수준 67% 절약
통합 난이도 중간 복잡 플러그 앤 플레이
캐시 일관성 제한적 복잡한 구현 하드웨어 지원
확장성 비용 제약 한계 존재 경제적 확장

🚀 성능 혁신

  • GPU HBM 병목 근본 해결
  • μs급 초저지연 응답
  • CPU 개입 없는 직접 I/O
  • 프롬프트 재계산 제거

💰 경제적 효율

  • 초기 투자비 94% 절감
  • 전력/냉각 비용 66% 절감
  • 랙 공간 67% 절약
  • 높은 ROI 달성

🔌 통합 편의성

  • 플러그 앤 플레이 설치
  • 기존 코드 변경 불필요
  • 주요 프레임워크 지원
  • 투명한 캐시 공유

실제 도입 시나리오

대규모 GPU 클러스터

환경 특성

  • H100/A100 8-GPU 서버 다수
  • 대규모 LLM 모델 서빙
  • 높은 동시 사용자 요구

도입 효과

  • 추론 성능 4-8배 향상
  • 동시 세션 4-5배 확대
  • 인프라 비용 대폭 절감

중간급 GPU 팜

환경 특성

  • H20/RTX 계열 GPU 활용
  • 중소규모 모델 서빙
  • 비용 효율성 중시

도입 효과

  • 기존 GPU 활용도 극대화
  • 추가 GPU 구매 불필요
  • ROI 빠른 회수

멀티테넌트 SaaS

환경 특성

  • 다양한 고객 요구사항
  • 탄력적 자원 할당
  • SLA 보장 필수

도입 효과

  • 응답시간 SLA 개선
  • 처리 용량 대폭 증가
  • 운영 비용 최적화

도입 로드맵

1

성능 평가

기존 환경 분석 및 FusIOnX 적합성 검토

2

파일럿 테스트

소규모 환경에서 성능 검증 및 최적화

3

점진적 확장

단계별 배포로 안정적 전환

4

전체 적용

프로덕션 환경 완전 이전

외부 검증 및 수상 실적

🏆

Flash Memory Summit 2024

Best of Show Award 수상

업계 최고의 스토리지 혁신 기술로 인정받아 최우수상 수상

🌟

업계 인정

글로벌 기술 리더십 인정

스토리지 및 AI 인프라 분야에서 혁신적 기술력 인정

언론 및 전문가 평가

Tom's Hardware

"워크플로 최대 8배 가속 달성"

실제 벤치마크에서 탁월한 성능 향상 확인

StorageReview

"혁신적인 스토리지 가속 기술"

GPU 병목 해결의 새로운 패러다임 제시

Blocks & Files

"LLM 추론 성능 혁명"

AI 워크로드 최적화의 새로운 기준 제시

✓ 성능 검증

실제 프로덕션 환경에서 최대 8배 성능 향상 달성

✓ 비용 효율성

TCO 60% 이상 절감으로 투자 효율성 극대화

✓ 친환경성

탄소 배출 50% 이상 감축으로 ESG 가치 실현

결론: FusIOnX의 혁신적 가치

기술적 혁신

  • GPU HBM 물리적 한계 극복
  • 최대 8배 LLM 추론 가속
  • CPU 개입 없는 직접 I/O
  • 프롬프트 재계산 제거

비즈니스 가치

  • 초기 투자비 69% 절감
  • 전력/냉각 비용 66% 절감
  • 탄소 배출 50% 이상 감축
  • 플러그 앤 플레이 통합

핵심 메시지

Pliops FusIOnX는 GPU 추가 구매 없이 저비용 SSD 계층화를 통해
최대 8배의 성능 향상과 60% 이상의 비용 절감을 동시에 달성하여
대규모 LLM 서비스의 경제적이고 지속가능한 확장을 가능하게 합니다.

8배 최대 성능 향상
69% 비용 절감
50%+ 탄소 배출 감축