Jonathan MLOps Platform은 데이터 저장부터 모델 배포까지 전 과정을 지원하는 End-to-End MLOps 및 LLMOps 서비스를 제공한다. 멀티 GPU 서버 기반의 분산 학습, 효율적인 자원 관리, 고속 통신 기술 등을 통해 인공지능 개발과 운영을 간편하게 할 수 있으며, 자체 인프라나 퍼블릭 클라우드를 통해 유연하게 활용 가능하다. 또한, GPU 자원 최적화와 스케쥴링 기능으로 비용 절감과 성능 향상을 동시에 달성할 수 있다.
[주요 특징]
○ 컨테이너 기반 인프라 제공
: 인프라 설정이 완료된 컨테이너 환경을 제공하여 인공지능 개발에 필요한 지식 없이도 쉽게 시작할 수 있음.
○ 인공지능 모델 호환성
: 자체 개발한 75종의 인공지능 모델과 외부 모델을 적용 및 호환할 수 있어 다양한 요구에 대응 가능함.
○ 전주기 통합 MLOps 서비스
: 온프레미스 서버 또는 퍼블릭 클라우드를 통해 모델 데이터 준비, 학습, 배포까지 전 과정을 지원하며, 유연한 과금 정책을 제공함.
○ 자원 활용 최적화 및 스케줄링 기능
: GPU 및 RDMA를 적극 활용한 자원 최적화 솔루션으로 비용을 절감하고, 스케줄링을 통해 유휴 자원을 최대한 활용함.
○ 웹 기반 UI 제공
: UI/UX 최적화를 통해 인프라 지식이 없어도 쉽게 사용할 수 있는 웹 기반 인터페이스를 제공하며, 어디서든 접근 가능함.
○ 다양한 환경 지원
: Ansible 및 Kubernetes를 활용하여 Linux 기반 다양한 OS에 On-Premise 설치가 가능하며, SSH, JupyterLab, VSCode 등 다양한 개발 환경을 지원함.
○ 관리자 도구를 통한 모니터링 및 자원 관리
: 웹 UI 내에 관리자 도구를 탑재하여 노드 설정 수정 및 자원 사용량 관리를 효율적으로 수행할 수 있음.
○ 기능별 매뉴얼 및 사용 가이드 제공
: 각 기능별 사용 가이드와 다양한 사례별 매뉴얼을 제공하여 사용성을 높였음.
[기술 완성도 및 성능 향상]
○ 효율적인 GPU 자원 관리
: GPU 자원의 효율적 할당으로 대규모 학습 시에도 훈련 시간을 단축하여 개발 비용을 절감함.
○ 멀티 GPU 고속 통신 기술
: Zero-copy 기술과 GPUDirect RDMA를 상용화하여 GPU 간 데이터 통신 속도를 최대 10배 이상 향상시켰음.
○ 분산 학습 지원
: 자동화된 분산 학습으로 GPU 개수에 비례하는 우수한 성능을 제공함.
운영 효율성 및 협업 지원
○ 모니터링 및 자원 사용량 관리
: 실시간 자원 사용량과 서비스 상태를 모니터링하여 이상 징후를 감지하고 자동 알림을 제공함.
○ AI 서비스 배포 엔진 관리
: 부하를 고려한 오토스케일링 및 로드밸런싱으로 안정적인 서비스 운영이 가능함.
○ 무중단 재학습 및 재배포
: 모델 성능 개선을 위한 무중단 재학습과 재배포 기능을 제공함.
○ 협업 및 히스토리 관리
: 데이터와 산출물의 원활한 공유를 지원하며, 모델 개발 버전과 히스토리를 관리할 수 있음.
○ 성능 지표 시각화 및 로그 관리
: 학습 과정의 성능 지표를 시각화하고, 학습 히스토리와 시스템 로그를 관리함.
○ 사용자 접근 제어 및 모니터링 기능
: 다중 사용자 환경에서의 접근 제어와 권한 관리, 사용자 활동 및 자원 사용량 모니터링이 가능함.