Setup

MLOps 서버의 세팅 과정을 설명합니다.

본문서에서 적용된 서버 환경은 다음과 같습니다.

Ubuntu 20.04.6
CUDA 11.8

글 작성 순서대로 설치하는 것을 권장합니다.

1. docker

docker 설치

설치 공식 문서 : https://docs.docker.com/engine/install/ubuntu/
설치 공식 문서를 참고해 ubuntu 환경에서 docker를 설치합니다.
설치 전에 필요한 GPG key가 반드시 필요합니다.

# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

# Add the repository to Apt sources:
echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

docker에 여러 버전이 존재합니다.
- ubuntu에서 설치할 수 있는 docker 엔진 리스트를 불러와서 확인할 수 있습니다.
- grep 명령어를 통대 버전대를 찾을 수 있습니다. 원하는 버전의 docker client를 설치합니다.

apt-cache madison docker-ce | grep 5:20.10.24~3-0~ubuntu-focal

sudo apt-get install -y \\
	containerd.io \\
	docker-ce=5:20.10.24~3-0~ubuntu-focal \\
	docker-ce-cli=5:20.10.24~3-0~ubuntu-focal \\
	docker-buildx-plugin \\
	docker-compose-plugin

root 권한없이 docker를 사용하려면 권한을 추가해 줍니다.

sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

docker version

docker에서 nvidia gpu를 사용하고 싶으면 추가로nvidia-docker를 설치합니다.
- nvidia-docker의 gpg key를 설치합니다.

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \\
   && curl -s -L <https://nvidia.github.io/nvidia-docker/gpgkey> | sudo apt-key add - \\
   && curl -s -L <https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list> | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

nvidia-docker를 설치합니다.

sudo apt-get update && sudo apt-get install -y nvidia-docker2

docker 엔진에서 nvidia-docker를 기본 runtime으로 설정을 변경합니다.
- docker에서는 daemon.json 에서 기본설정을 업데이트 할 수 있습니다.

sudo vi /etc/docker/daemon.json

# 아래 내용을 입력합니다.
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}

변경된 daemon.json을 적용하려면 docker 엔진을 재시작해야 합니다.

sudo systemctl daemon-reload  # 업데이트된damon.json 적용
sudo service docker restart

nvidia-docker가 기본 runtime이 되었는지 확인합니다.

sudo docker info | grep nvidia

 # 실행 결과
 Runtimes: io.containerd.runc.v2 nvidia runc
 Default Runtime: nvidia

cuda가 docker에서 정상적으로 돌아가는지 확인합니다.

sudo docker run --rm --gpus all nvidia/cuda:11.8.0-base-ubuntu20.04 nvidia-smiMinIO

2. docker compose

docker compose는 여러 개의 컨테이너로 구성된 애플리케이션을 정의하고 실행하기 위한 도구입니다. 복잡한 애플리케이션을 여러로 docker container로 분리하고, 이를 간단하게 관리할 수 있도록 도와줍니다.

주요 기능은 다음과 같습니다.

docker-compose.yml 파일을 사용해 애플리케이션의 컨테이너, 네트워크, 볼륨 등을 정의할 수 있습니다.
단일 명령어로 여러 컨테이너를 동시에 실행, 중지, 또는 관리할 수 있습니다.
서로 다른 컨테이너들 간의 의존성 관리가 가능합니다. (예: 웹 서버 컨테이너가 DB 컨테이너에 의존)

예를 들어, 웹 애플리케이션과 데이터베이스가 있는 프로젝트에서, 각각의 서비스(컨테이너)를 정의한 후 docker-compose up 명령어 하나로 모든 관련 컨테이너를 실행할 수 있습니다.

이것을 통해 개발 환경에서 복잡한 다중 컨테이너 애플리케이션을 쉽게 관리할 수 있습니다.

docker compose 명령어는 공식 홈페이지 참고하면 됩니다.

본 프로젝트는 docker compose를 사용해 애플리케이션을 설치 및 관리합니다.

docker-compose.yaml

본 프로젝트에서 주로 사용하는 docker-compose.yaml 파일의 관리방법입니다.

docker compose로 애플리케이션(서비스)를 설치할 때는 해당 디렉토리로 이동후 설치합니다.
서비스가 여러개 있으므로 network 이름을 지정해 줍니다.
외부 포트로 노출하는 경우, port 테이블을 참고합니다.
재시작하는 경우가 있어 restart always 옵션을 항상 추가합니다.
healthcheck를 가능한 사용해 줍니다. 빠른 상태확인에 유용합니다.

기본적인 파일 구조는 다음과 같습니다.

services:  # 서비스들 정의
  container-1: # 서비스 1
    image: postgres:16.3 # 기존 이미지를 pull해서 사용
    container_name: container-1-name # 컨테이너의 이름 정의
    environment: # 컨테이너의 env
      HELLO: WORLD
    healthcheck:  # healthcheck
      test: ["CMD-SHELL", "curl -f http://localhost:8000/health || exit 1"]  # test cmd
      interval: 10s  # healthcheck 실행 간격
      timeout: 5s  # timeout내로 결과가 없으면 unhealthy status
      retries: 3  # timeout 있을 때 재시도 횟수
    restart: always
    networks:  # 컨테이너에 연결되는 docker 네트워크 
      - app-network-1
  container-2:  # 서비스 2
    build:  # docker 이미지를 직접 빌드하는 경우
      context: ./src
      dockerfile: Dockerfile
    command: ["python3" ,"main.py"]  # docker image의 커맨드
    ports:
      - "8000:8000"  # 외부port:내부port
    restart: always
    volumes:
      - app-volume-1:/mnt  # docker volume에 연결되는 컨테이너 경로로
    depends_on:
      - container-1  # 특정 서비스가 생성된 이후에 생성

volumes:
  app-volume-1:  # docker volume
    external: true  # 기존에 있던 docker volume인 경우

networks:
  app-network-1:  # docker network
    external: true

네트워크 설정

docker-compose 파일에 정의된 서비스들은 기본적으로 같은 docker 네트워크가 생성되어서 공유됩니다.

예를 들어, service1/docker-compose.yaml을 실행한 네트워크와 service2/docker-compose.yaml을 실행한 네트워크는 각각 다르고, service1/docker-compose.yaml 파일에 정의된 contrainer들은 같은 네트워크를 공유합니다.

위의 docker-compose.yaml을 정의할 때

networks:
  app-network-1:
    external: true

이렇게 네트워크를 external: true 옵션을 주게 되면, 다른 서비스의 네트워크를 연결할 수 있게 됩니다. 즉 위의 docker-compose.yaml에서는 app-network-1이라는 다른 docker network를 가져와서 연결하게 되는 의미입니다. 이렇게 container에 원하는 docker 외부 네트워크를 연결할 수 있습니다.

docker network를 확인하고 싶으면 다음 명령어를 입력하면 됩니다.

docker network ls

계정 확인

docker-compose.yaml 파일에서 environments을 보면 각 서비스에 로그인 할 수 있는 ID, 패스워드를 확인할 수 있습니다.

예를 들어 MinIO의 경우 다음과 같이 확인 할 수 있습니다.

services:
  dva-ai-minio:
    environment:
      MINIO_ROOT_USER: {아이디}
      MINIO_ROOT_PASSWORD: {패스워드}

각 계정 관련 정보에 대한 envrionments 이름은 서비스마다 다르니 필히 확인을 부탁드립니다.

포트 연결

서비스마다 docker images에 있는 내부 포트가 정해져있습니다. 각 서비스를 외부에서 사용하기 위해서는 외부포트에 먼저 연결해야 합니다. docker-compose.yaml 파일에서 ports 부분을 확인하면 알 수 있습니다.

services:
  container-1:
    ports:
      - {외부 port}:{내부 port}

docker에서 설치된 서비스를 외부 접근하기 위해서는 다음과 같은 단계를 따르면 됩니다.

(클라우드 사용시) 클라우드에서 서비스의 외부 port에 대해서 인바운드/아웃바운드 규칙을 설정합니다.
http://{host IP}:{외부 port}를 브라우저에 입력해서 접속합니다.

3. Git Clone

각 기능들을 설치하기 전에 dva-mlops 깃 repo를 로컬에 저장합니다.

git clone https://github.com/DVA-LAB/dva-mlops

서비스를 설치하려면 README.md 단계를 따르면 됩니다.

실행할 디렉토리로 이동합니다.

cd {실행할 디렉토리}

Docker Compose를 실행하여 모든 서비스를 백그라운드에서 시작합니다.

docker-compose up -d

4. MLflow

MLflow는 머신러닝 모델의 실험 추적, 모델 관리 및 배포를 위한 오픈소스 플랫폼입니다. 머신러닝 실험에서 생성된 데이터, 메트릭, 모델 등을 체계적으로 관리하고 추적하는데 유용합니다.

MLflow Backend Store
- MLflow의 Backend Store는 실험 및 아티팩트를 관리하는 데이터베이스로, 실험의 결과와 모델 관련 정보를 저장합니다.
- mlflow에서는 postgres:16.3을 사용합니다.
MLflow Server
- MLflow Server는 MinIO와 같은 오브젝트 스토리지와 연결되어, MLflow 레지스트리로 저장되는 데이터를 관리합니다.

mlflow가 설치되어 있는 docker를 빌드 후 적용합니다.

MLflow 서비스

MLflow 서비스에서 사용하는 주요 정보는 다음과 같습니다:

experiments: 머신러닝 실험의 결과를 추적하고 비교할 수 있는 공간으로, 실험에서 사용된 매개변수, 메트릭, 아티팩트를 기록하는데 사용됩니다.
models: 훈련된 머신러닝 모델을 저장하고 관리하며, 다양한 환경에서 재사용 및 배포가 가능하도록 지원합니다.

# mlflow/Dockerfile

FROM python:3.10-slim

RUN apt-get update && apt-get install -y \
    git \
    wget \
    && rm -rf /var/lib/apt/lists/*

RUN pip install -U pip &&\
    pip install boto3==1.34.142 mlflow==2.14.2 psycopg2-binary

RUN cd /tmp && \
    wget https://dl.min.io/client/mc/release/linux-amd64/mc && \
    chmod +x mc && \
    mv mc /usr/bin/mc

---

# mlflow/docker-compose.yml

services:
  dva-ai-mlflow-backend-store:
    image: postgres:16.3
    container_name: dva-ai-mlflow-backend-store
    environment:
      POSTGRES_USER: ""
      POSTGRES_PASSWORD: ""
      POSTGRES_DB: mlflow
    healthcheck:
      test: ["CMD", "pg_isready", "-q", "-U", "dva-ai-admin", "-d", "mlflow"]
      interval: 10s
      timeout: 5s
      retries: 3
    restart: always
    networks:
      - dva-ai-mlflow-network

  dva-ai-mlflow-server:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: dva-ai-mlflow-server
    depends_on:
      dva-ai-mlflow-backend-store:
        condition: service_healthy
    ports:
      - 60001:5000
    environment:
      AWS_ACCESS_KEY_ID: ""
      AWS_SECRET_ACCESS_KEY: ""
      MLFLOW_S3_ENDPOINT_URL: http://dva-ai-minio:9000
    command:
      - /bin/sh
      - -c
      ... 
    restart: always
    networks:
      - dva-ai-minio-network
      - dva-ai-mlflow-network

networks:
  dva-ai-mlflow-network:
  dva-ai-minio-network:
    external: true

위와 같은 형식의 docker compose 파일이 있는 폴더에서

MLflow를 Docker 환경에서 실행하기 위해서는 미리 MinIO가 설치되어 있어야 합니다. MinIO가 설치된 상태에서 MLflow 서비스를 시작하려면 다음 명령어를 사용하세요:

docker-compose up -d

5. MinIO

MinIO는 고성능 객체 스토리지 시스템으로, Amazon S3와 호환되는 API를 제공하며 클라우드 네이티브 애플리케이션에서 사용됩니다. mlops에서는 mlflow 모델 저장, pipeline 중간 결과물 저장, BE-MLOps 결과물 공유에 사용됩니다.

bucket

사용중인 minio의 bucket은 다음과 같습니다.

mlflow : mlflow aritifacts 저장소
pipelines : job 실행에 따른 중간 결과물 저장
- {user_id}/{dataset_id}에 실행 artifacts 저장
- 최종으로 final_result.json 생성

버켓 생성은 UI 화면에서 생성할 수 있습니다.

화면 왼쪽의 [Administrator] - [Buckets]를 클릭합니다.
Bucket Name에 버켓 이름을 입력합니다.
Capacity를 정합니다. 현재 dva-mlops에서 MLFlow는 512GiB, pipelines는 1TiB를 사용하고 있습니다.

포트 관련 주의사항 minio에서는 기본 서버 포트(9000)와 웹 서비스 포트(9001)가 있습니다. 내부에서 연결할 때는 기본 서버 포트를, 웹에서 다운로드 받거나 오브젝트를 확인할 때는 웹 서비스 포트를 사용합니다.

# storage/minio/docker-compose.yml

services:
  dva-ai-minio:
    image: minio/minio:RELEASE.2024-07-04T14-25-45Z
    container_name: dva-ai-minio
    ports:
      - 30002:9000
      - 30003:9001
    volumes:
      - /mnt/sdb/minio:/data/minio
    environment:
      MINIO_ROOT_USER: ""
      MINIO_ROOT_PASSWORD: ""
    command: server /data/minio --console-address :9001
    healthcheck:
      test: ["CMD", "mc", "ready", "local"]
      interval: 30s
      timeout: 5s
      retries: 3
    restart: always

networks:  # minio 컨테이너 network -> mlflow에 사용
  default:
    name: dva-ai-minio-network

위와 같은 형식의 docker compose 파일이 있는 폴더에서

minio를 Docker 환경에서 실행하려면 다음 명령어를 사용하세요:

docker-compose up -d

6. Redis

Redis는 인메모리 기반의 key:value 저장소로, 캐싱과 메시지 브로커로 자주 사용됩니다. MLOps 파이프라인에서는 중간 결과 저장과 모델 모니터링을 위한 비동기 추론 등에 활용됩니다.

redis 설정

redis는설정 옵션이 다양하기 때문에 docker compose에서 environments에 직접 작성하기 보다, 설정파일에 필요한 옵션을 작성하는 것이 편리합니다.

Redis의 설정 파일(redis.conf)에서 중요한 항목들은 다음과 같습니다:

port : Redis가 사용하는 연결 포트 (기본: 6379)
bind : 연결할 네트워크 인터페이스 (0.0.0.0으로 설정하면 모든 IP에서 접근 가능)
requirepass : Redis 접속 시 요구되는 패스워드
maxmemory : Redis가 사용할 최대 메모리 크기 (예: 4g)
maxmemory-policy : 메모리 초과 시의 키 삭제 정책
- allkeys-lru : 가장 오래 사용되지 않은 키부터 삭제하는 LRU(Least Recently Used) 방식
appendonly : 변경된 데이터를 디스크에 영구 저장하는 AOF(Append-Only File) 기능. no로 설정 시 메모리에만 데이터 저장.

자세한 Redis 설정 파일에 대한 설명은 Redis 공식 문서를 참고하세요.

# pipeline/docker-compose.yaml

...

redis:
    image: redis:7.2.5
    ports:
      - "6379:6379"
    volumes:
      - pipeline_redis_data:/data
      - ./redis.conf:/usr/local/etc/redis/redis.conf
    command: [ "redis-server", "/usr/local/etc/redis/redis.conf" ]
    ...

위와 같은 형식의 docker compose 파일이 있는 폴더에서

Redis를 Docker 환경에서 실행하려면 다음 명령어를 사용하세요:

docker-compose up -d

7. RabbitMQ

RabbitMQ는 메시지 큐를 관리하는 메시지 브로커로, 주로 비동기 메시지 전달과 작업 분산에 사용됩니다. AMQP 프로토콜을 기반으로 하며, 프로듀서(메시지를 보내는 측)와 컨슈머(메시지를 받는 측) 간의 통신을 중개해, 작업을 비동기적으로 처리하고 시스템의 부하를 줄입니다.

본 프로젝트에서는 celery에 사용하고 있습니다.

주요 특징은 다음과 같습니다.

큐잉: 메시지를 대기열에 저장하고 순차적으로 처리.
비동기 처리: 작업을 비동기적으로 처리하여 성능 향상.
확장성: 여러 소비자에게 작업을 분배하여 부하 분산 가능.

RabbitMQ는 분산 시스템, MLOps, 마이크로서비스 아키텍처 등에서 자주 사용됩니다.

포트관련 주의사항

rabbitmq는 broker 포트 (5672)와 웹 UI 포트(15672)가 있습니다. 내부에서 연결 사용에는 broker 포트를, UI로 큐 상태를 확인하고 싶을 때는 UI 포트를 사용합니다.

기본 설정

#dva-mlops/pipeline/docker-compose.yaml

rabbitmq:
  ports:
    - "30015:5672"    # AMQP 포트
    - "30016:15672"   # 관리 UI 포트
  credentials:
    - user: ${user}
    - password: ${user_password}
  volumes:
    - pipeline_rabbitmq_data:/var/lib/rabbitmq

큐 구조 및 작업 흐름

queues = [
    'q1',  # MinIO 다운로드 큐
    'q2',  # 객체 감지 큐
    'q3',  # 객체 추적 큐
    'q4',  # 세그멘테이션 큐
    'q5',  # MinIO 업로드 큐
    'q6',  # 조명 제거 큐
    'q7',  # FP 제거 큐
    'q8',  # 에러 처리 큐
    'q9'   # 완료 처리 큐
]

작업 처리 순서

MinIO에서 데이터 다운로드 (q1)
필요시 조명 제거 처리 (q6)
객체 감지 수행 (q2)
객체 추적 실행 (q3)
필요시 FP 제거 (q7)
결과 MinIO 업로드 (q5)
완료/에러 처리 (q8, q9)

작업 설정 상세

현재 track_job(), minio_upload_job() 에만 적용됩니다.

#dva-mlops/pipeline/src/tasks.py

@celery_app.task(
    name=settings.MINIO_UPLOAD_JOB_NAME,
    queue=settings.MINIO_UPLOAD_QUEUE_NAME,
    bind=True,
    max_retries=3,
    retry_backoff=True,
    retry_backoff_max=300,    # 5분 최대 백오프
    soft_time_limit=60,       # 1분 소프트 제한
    time_limit=120            # 2분 하드 제한
)

작업 설정 설명

max_retries: 실패 시 최대 3번 재시도
retry_backoff: 지수 백오프로 재시도 간격 증가
soft_time_limit: 작업 타임아웃 경고
time_limit: 강제 종료 시간 제한

8. BentoML 가이드

BentoML은 머신러닝 모델을 프로덕션 환경에 효율적으로 배포하고 운영하기 위한 오픈소스 플랫폼입니다. 복잡한 ML 모델을 쉽게 API로 변환하고, 확장 가능한 서비스로 배포할 수 있게 해주는 엔드-투-엔드 솔루션을 제공합니다.

1. 폴더 구조

.
├── README.md
├── __init__.py
├── common
│   ├── __init__.py
│   ├── __pycache__
│   ├── exceptions.py
│   ├── log.py
│   └── utils.py
├── config
│   ├── config.py
│   ├── docker-compose.yml
│   ├── prometheus.yml
│   └── requirements.txt
├── models
│   ├── __init__.py
│   ├── botsort
│   ├── bytetrack
│   ├── removallight
│   ├── removefp
│   ├── sam
│   ├── yolov8l
│   └── yolov8lobb
└── scripts
    ├── automate_model_update.py
    ├── load_model.py
    ├── mlruns
    ├── models
    ├── save_model.py
    ├── setup_model_environments.py
    └── setup_model_environments.sh

14 directories, 16 files

2. 환경 설정 및 의존성 설치

2.1 기본 설치

#/home/dva-mlops/developments/dva-mlops/bentoml/config/requirements.txt

cd config
pip install -r requirements.txt

# BentoML 설치
bentoml==1.3.5
# MLflow 연동을 위한 추가 패키지 설치
minio
fastapi[standard]
python-dotenv
loguru
mlflow
boto
python-dotenv

2.2 가상 환경 설정

#/home/dva-mlops/developments/dva-mlops/bentoml/scripts/setup_model_environments.py

# 모델 디렉토리와 Python 버전 매핑
MODEL_CONFIGS = {
    'yolov8l': '3.10',
    'botsort': '3.10',
    'removallight': '3.10',
    'removefp': '3.10',
}

2.3 환경 변수 설정

#/home/dva-mlops/developments/dva-mlops/bentoml/config/.env

MLFLOW_TRACKING_URI=http://1.212.63.162:30001
MLFLOW_S3_ENDPOINT_URL=http://1.212.63.162:30002
AWS_ACCESS_KEY_ID=access_key_id
AWS_SECRET_ACCESS_KEY=secret_access_key
BENTOML_HOME=/home/bentoml
CUDA_VISIBLE_DEVICES=MIG-85606ae4-aabe-50ec-a8c9-edfff9b5dbaf

3. 신규 모델 추가 절차

YOLOv8-OBB 모델 BentoML 서비스 구현 예시

1. 프로젝트 구조 설정

프로젝트의 구조는 BentoML의 표준 구조를 따르며, 각 파일은 다음과 같은 역할을 합니다:

dva-mlops/bentoml/models/yolov8lobb/
├── bentofile.yaml        # BentoML 서비스 설정 및 빌드 구성
├── environment.yml       # Conda 환경 설정 (의존성 관리)
├── requirements.txt      # Python 패키지 의존성 (pip 설치용)
└── service.py           # 실제 서비스 로직 구현

2. 의존성 설정

의존성 관리는 세 가지 레벨에서 이루어집니다.

2.1 bentofile.yaml

service: "service:YoloV8OBBService"  # 서비스 진입점 지정
include:
  - "*.py"               # 서비스에 포함될 파일 패턴
python:
  lock_packages: false   # 개발 중에는 패키지 버전 유연성 확보
conda:
  environment_yml: "./environment.yml"
docker:
  system_packages:       # CUDA, OpenCV 등 시스템 레벨 의존성
    - ffmpeg
    - libglib2.0-0
    - libsm6
    - libxext6
    - libxrender1

이 설정은 BentoML이 서비스를 컨테이너화할 때 필요한 모든 구성요소를 정의합니다.

2.2 environment.yml

channels:
  - conda-forge
dependencies:
  - python=3.10.0       # 특정 Python 버전 고정
  - pip<=24.2
  - pip:
    # GPU 지원을 위한 PyTorch
    - torch==1.13.1+cu117
    - torchvision==0.14.1+cu117
    # YOLO 관련
    - ultralytics==8.2.78
    # 서비스 프레임워크
    - bentoml==1.3.5
    # 로깅
    - loguru==0.7.2

Conda 환경 설정은 재현 가능한 환경을 보장하며, 특히 GPU 지원과 관련된 패키지 버전을 명확히 지정합니다.

3. 서비스 구현 (service.py)

3.1 입력/출력 모델 정의

class DetectInput(BaseModel):
    columns: List[str]    # 입력 데이터 컬럼 정의
    data: List[List[str]] # 실제 데이터 배열

class DetectOutput(BaseModel):
    predictions: List[Dict[str, str]]  # 예측 결과 포맷

Pydantic 모델을 사용하여 입력과 출력의 스키마를 정의하고 자동 검증을 수행합니다.

3.2 메트릭 정의

request_counter = Counter(
    name="yolo_obb_request_count",
    documentation='Total number of YOLO OBB requests',
    labelnames=['endpoint', 'status', 'http_status']
)

inference_time_histogram = Histogram(
    name="yolo_obb_inference_time_seconds",
    documentation='Time taken for YOLO inference',
    labelnames=['endpoint', 'status']
)

Prometheus 스타일의 메트릭을 정의하여 서비스 모니터링을 가능하게 합니다.

3.3 서비스 클래스 구현

@bentoml.service(
    resources={
	    "gpu": 1,
	    "memory": "18Gi",
	    "gpu_type": "nvidia-a100-mig-1g-40gb"
		}, # GPU 메모리 등 리소스 할당
    workers=SERVICE_WORKERS,      # 동시 처리 워커 수
    traffic={
	    "timeout": 600,
	    "max_concurrency": 8,
	    "max_queue_size": 16
		} # 트래픽 제어 설정
)
class YoloV8OBBService:
    def __init__(self):
        # 볼륨 마운트 설정
        self.pipeline_volume = Path(PIPELINE_VOLUME)
        self.logging_volume = Path(LOGGING_VOLUME)

        # 로거 및 모델 초기화
        self.setup_logger()
        self.model = self.load_model()

        # 시스템 모니터링 스레드 시작
        self.monitoring_thread = threading.Thread(
            target=self.monitor_system_resources,
            daemon=True
        )
        self.monitoring_thread.start()

서비스 클래스는 모델 로딩, 리소스 관리, 모니터링 등 핵심 기능을 초기화합니다.

3.4 모델 로드 구현

def load_model(self):
    try:
        # MLflow에서 모델 로드
        model = bentoml.mlflow.load_model(f"{MODEL_NAME}:{MODEL_VERSION}")
        self.logger.info(f"Completed model loading: model_name={model.__class__.__name__}")
        return model
    except Exception as e:
        self.logger.error(f"Failed to load YOLO model: error={str(e)}")
        raise ModelError(f"Failed to load YOLO model: error={str(e)}")

MLflow에서 학습된 모델을 안전하게 로드하고 예외 처리를 수행합니다.

3.5 추론 API 구현

@bentoml.api
async def detect(self, dataframe_split: DetectInput, ctx: bentoml.Context) -> DetectOutput:
    self.is_processing = True
    start_time = time.time()

    try:
        # 입력 데이터 검증
        if not dataframe_split.data:
            raise InvalidArgument("Input data is empty")

        # 시스템 리소스 체크
        if psutil.virtual_memory().percent > 90:
            raise ServiceUnavailable("System memory is critically low")

        # 데이터프레임 변환 및 처리
        df = pd.DataFrame(dataframe_split.data, columns=dataframe_split.columns)
        predictions = []

        # 배치 처리
        for _, row in df.iterrows():
            model_input = pd.DataFrame([{
                "image_folder": row["image_folder"],
                "result_path": row["result_path"]
            }])
            model_output = self.model.predict(model_input)

            # 결과 포맷팅
            predictions.append({
                "results": str(result_path),
                "status": model_output["status"][0],
                "status_message": model_output["status_message"][0],
            })

        return DetectOutput(predictions=predictions)

    except Exception as e:
        self.logger.error(f"An unexpected error occurred: error={str(e)}")
        return DetectOutput(predictions=[{
            "results": "",
            "status": "Failed",
            "status_message": str(e)
        }])

API 엔드포인트는 비동기 처리, 입력 검증, 에러 처리, 메트릭 수집 등을 포함합니다.

4. 모델 버전 관리 및 배포 프로세스

automate_model_update.py 이 스크립트는 MLflow에서 관리되는 모델을 BentoML 서비스로 자동 배포하는 전체 프로세스를 자동화합니다.

1. MLflow에서 BentoML로의 모델 전환 과정

1.1 MLflow 모델 버전 조회

#dva-mlops/bentoml/scripts/automate_model_update.py

@handle_exception
def get_latest_model_version(model_name: str) -> Tuple[str, str]:
    client = initialize_mlflow_client(model_name)
    versions = client.search_model_versions(f"name='{model_name}'")
    sorted_versions = sorted(versions, key=lambda x: int(x.version), reverse=True)

    # Staging 단계의 모델 우선 선택
    for version in sorted_versions:
        if version.current_stage in ["Staging"]:
            return version.version, version.run_id

MLflow에서 모델의 최신 버전을 조회
현재 Staging 단계의 모델을 우선적으로 선택
버전 번호와 run_id 반환

1.2 BentoML로 모델 저장

#dva-mlops/bentoml/scripts/automate_model_update.py

@handle_exception
def save_to_bentoml(model_name: str, version: str, bento_model_name: str) -> Any:
    client = initialize_mlflow_client(model_name)
    model_uri = client.get_model_version_download_uri(model_name, version)
    bentoml_model = bentoml.mlflow.import_model(bento_model_name, model_uri)
    return bentoml_model

MLflow에서 모델 파일의 URI를 가져옴
BentoML의 모델 저장소로 모델을 임포트
이후 service.py에서 사용할 수 있는 형태로 변환

2. 서비스에서의 모델 사용

2.1 모델 로드 (service.py)

#dva-mlops/bentoml/models/yolov8lobb/service.py

def load_model(self):
    try:
        # BentoML에서 최신 버전의 모델 로드
        model = bentoml.mlflow.load_model(f"{MODEL_NAME}:{MODEL_VERSION}")
        self.logger.info(f"Model loaded: {model.__class__.__name__}")
        return model
    except Exception as e:
        raise ModelError(f"Failed to load model: {str(e)}")

BentoML 저장소에서 모델을 로드
서비스 초기화 시점에 모델이 메모리에 로드됨

3. 모델 버전 관리 프로세스

3.1 버전 관리 흐름

MLflow 단계

#dva-mlops/bentoml/scripts/automate_model_update.py

MODEL_CONFIGS = {
    "yolov8_obb": (
        "YOLOV8_OBB",        # MLflow 모델명
        "yolo-v8l-obb",      # BentoML 모델명
        "yolo_v8_obb_service", # 서비스명
        "yolov8lobb"         # 모델 디렉토리
    ),
}

MLflow에서 모델 학습 및 등록
Staging/Production 단계로 모델 승격

BentoML 변환

#dva-mlops/bentoml/scripts/automate_model_update.py

version, run_id = get_latest_model_version(mlflow_model_name)
bentoml_model = save_to_bentoml(mlflow_model_name, version, bento_model_name)

MLflow에서 승인된 모델을 BentoML로 임포트
서비스에서 사용 가능한 형태로 변환

서비스 빌드

#dva-mlops/bentoml/scripts/automate_model_update.py

build_bento_service(service_name, model_dir)
bento_tag = bentoml.get(f"{service_name}:latest").tag
containerize_bento(bento_tag)

새 모델이 포함된 서비스 빌드
Docker 이미지 생성
실제 수행되는 명령어는 다음과 같습니다.

# 가상환경 활성화 및 BentoML 빌드
source /path/to/venv/bin/activate
bentoml build --verbose

# BentoML 컨테이너화
bentoml containerize {service_name}:latest

배포 업데이트

#dva-mlops/bentoml/scripts/automate_model_update.py

update_docker_compose(service_name, bento_tag)
# Docker Compose 재시작
with change_dir(PROJECT_ROOT / "config"):
    subprocess.run(["docker", "compose", "up", "-d"])

docker-compose.yml 파일 업데이트

#dva-mlops/bentoml/config/docker-compose.yml

services:
  model_service:
    image: ${SERVICE_NAME}:${BENTO_TAG}
    ports:
      - "3000:3000"
    environment:
      - BENTOML_CONFIG=/home/bentoml/bentoml-configuration.yml
    volumes:
      - ./bentoml-configuration.yml:/home/bentoml/bentoml-configuration.yml

서비스 재시작으로 새 모델 적용
실제 수행되는 명령어는 다음과 같습니다.

# 실패한 이미지 제거
docker rmi {service_name}:{tag}

# Docker Compose 재시작
cd config/
docker compose up -d

3.2 버전 관리 특징

자동화된 버전 선택
- Staging 환경의 모델 우선 선택
- 버전 번호 기반 정렬로 최신 모델 보장

안전한 롤백 지원

#dva-mlops/bentoml/scripts/automate_model_update.py

try:
    # 모델 업데이트 프로세스
except ModelUpdateError as e:
    remove_failed_image(service_name, bento_tag)
    sys.exit(1)

업데이트 실패 시 자동 롤백
실패한 이미지 자동 제거

환경 분리

#dva-mlops/bentoml/scripts/automate_model_update.py

env_configs = {
    "yolo_v8_obb_service": ("venv", "venv"),
    "bot_sort_service": ("venv", "venv"),
}

서비스별 독립된 가상환경 유지
의존성 충돌 방지

모니터링 및 로깅

#dva-mlops/bentoml/scripts/automate_model_update.py

logger.info(f"최신 모델 버전: {version}, run_id: {run_id}")
logger.info(f"BentoML에 저장된 모델: {bentoml_model}")

상세한 로그 기록
버전 변경 추적 가능

이러한 프로세스를 통해 MLflow에서 학습/검증된 모델이 자동으로 프로덕션 환경에 배포되며, 각 단계에서의 실패를 안전하게 처리하고 모델의 버전을 효과적으로 관리할 수 있습니다.

9. Monitoring System

1. Prometheus 메트릭 수집 설정

1.1 기본 설정

#dva-mlops/bentoml/config/prometheus.yml

global:
  scrape_interval: 15s     # 전역 스크랩 간격
  scrape_timeout: 10s      # 전역 타임아웃
  evaluation_interval: 15s  # 규칙 평가 간격

1.2 서비스별 스크랩 설정

YOLO 서비스 (고부하 서비스)

#dva-mlops/bentoml/config/prometheus.yml

job_name: 'yolo_service'
scrape_interval: 150s   # 2분 30초 간격
scrape_timeout: 120s    # 2분
targets:
  - 'dva-ai-yolov8l-obb:3000'

기타 BentoML 서비스

#dva-mlops/bentoml/config/prometheus.yml

job_name: 'other_bentoml_services'
scrape_interval: 30s    # 30초 간격
scrape_timeout: 25s     # 25초 타임아웃
targets:
  - 'dva-ai-track:3000'       # 객체 추적
  - 'dva-ai-removefp:3000'    # FP 제거
  - 'dva-ai-removallight:3000' # 조명 제거

1.3 수집 메트릭 종류

1) 요청 메트릭

#dva-mlops/bentoml/models/yolov8lobb/service.py

request_counter = Counter(
    name="model_request_count",
    documentation='총 요청 수',
    labelnames=['endpoint', 'status', 'http_status']
)

request_duration_histogram = Histogram(
    name="request_duration_seconds",
    documentation="요청 처리 시간",
    labelnames=["endpoint", "http_status"]
)

2) 모델 성능 메트릭

#dva-mlops/bentoml/models/yolov8lobb/service.py

inference_time_histogram = Histogram(
    name="model_inference_time_seconds",
    documentation='모델 추론 시간',
    labelnames=['model', 'status']
)

batch_size_gauge = Gauge(
    name="model_batch_size",
    documentation="현재 배치 크기",
    labelnames=["model"]
)

3) 시스템 리소스 메트릭

#dva-mlops/bentoml/models/yolov8lobb/service.py

memory_usage_gauge = Gauge(
    name="model_memory_usage_percent",
    documentation="메모리 사용률",
    labelnames=['model']
)

gpu_memory_gauge = Gauge(
    name="gpu_memory_usage_mb",
    documentation="GPU 메모리 사용량",
    labelnames=['device']
)

2. Grafana 대시보드 구성

2.1 Grafana 설정

#dva-mlops/bentoml/config/docker-compose.yml

grafana:
  ports: "30021:4000"
  credentials:
    admin_user: admin
    admin_password: admin_password
  features:
    allow_sign_up: false

2.2 주요 대시보드

1) 서비스 상태 대시보드

API 엔드포인트 상태
요청 성공/실패율
평균 응답 시간
에러율 추이

2) 모델 성능 대시보드

모델별 추론 시간
GPU 사용률
처리량(throughput)

3) 리소스 모니터링 대시보드

CPU 사용률
메모리 사용량
GPU 메모리 상태
디스크 I/O

3. 로그 수집 및 분석

3.1 로그 저장소 구성

#dva-mlops/bentoml/config/docker-compose.yml
 
volumes:
  dva-mlops_logging_volume:
    external: true

3.2 로그 수집 정책

1) 애플리케이션 로그

logger.info(
    "모델 추론 완료",
    extra={
        'model': 'yolo',
        'duration': duration,
        'batch_size': batch_size
    }
)

2) 시스템 로그

컨테이너 상태 로그
리소스 사용량 로그
네트워크 통신 로그

3) 에러 로그

logger.error(
    "모델 추론 실패",
    extra={
        'error_type': error_type,
        'error_message': str(error),
        'stack_trace': traceback.format_exc()
    }
)

4. 성능 모니터링 지표

4.1 서비스 성능 지표

1) API 성능

요청 처리율 (RPS)
평균 응답 시간
에러율
동시 처리 요청 수

2) 모델 성능

추론 시간 (P95, P99)
배치 처리 효율성
GPU 활용률
메모리 사용 패턴

4.2 리소스 사용 제한

#dva-mlops/bentoml/config/docker-compose.yml

deploy:
  resources:
    limits:
      cpus: '5'
      memory: '24G'
    reservations:
      cpus: '2'
      memory: '12G'
      devices:
        - driver: nvidia
          device_ids: ['MIG-85606ae4-aabe-50ec-a8c9-edfff9b5dbaf']

4.3 헬스체크 설정

#dva-mlops/bentoml/config/docker-compose.yml

healthcheck:
  test: ["CMD", "curl", "-f", "<http://localhost:3000/healthz>"]
  interval: 30s
  timeout: 10s
  retries: 5
  start_period: 30s

4.4 모니터링 대응 전략

1) 성능 저하 시

자동 스케일링 트리거
배치 크기 조정
캐시 정책 최적화

2) 리소스 부족 시

불필요 프로세스 정리
메모리 캐시 정리
우선순위 기반 작업 조절

3) 장애 발생 시

자동 재시작
백업 서비스 활성화

이러한 모니터링 시스템을 통해 서비스의 안정성을 확보하고, 성능 이슈를 사전에 감지하여 대응할 수 있습니다.

PreviousMLOps NextArchitecture Overview

Last updated 1 year ago

hashtag1. docker

hashtagdocker 설치

hashtag2. docker compose

hashtagdocker-compose.yaml

hashtag네트워크 설정

hashtag계정 확인

hashtag포트 연결

hashtag3. Git Clone

hashtag4. MLflowarrow-up-right

hashtagMLflow 서비스

hashtag5. MinIOarrow-up-right

hashtagbucket

hashtag6. Redisarrow-up-right

hashtagredis 설정

hashtag7. RabbitMQarrow-up-right

hashtag기본 설정

hashtag작업 설정 상세

hashtag8. BentoMLarrow-up-right 가이드

hashtag1. 폴더 구조

hashtag2. 환경 설정 및 의존성 설치

hashtag2.1 기본 설치

hashtag2.2 가상 환경 설정

hashtag2.3 환경 변수 설정

hashtag3. 신규 모델 추가 절차

hashtag1. 프로젝트 구조 설정

hashtag2. 의존성 설정

hashtag2.1 bentofile.yaml

hashtag2.2 environment.yml

hashtag3. 서비스 구현 (service.py)

hashtag3.1 입력/출력 모델 정의

hashtag3.2 메트릭 정의

hashtag3.3 서비스 클래스 구현

hashtag3.4 모델 로드 구현

hashtag3.5 추론 API 구현

hashtag4. 모델 버전 관리 및 배포 프로세스

hashtag1. MLflow에서 BentoML로의 모델 전환 과정

hashtag1.1 MLflow 모델 버전 조회

hashtag1.2 BentoML로 모델 저장

hashtag2. 서비스에서의 모델 사용

hashtag2.1 모델 로드 (service.py)

hashtag3. 모델 버전 관리 프로세스

hashtag3.1 버전 관리 흐름

hashtag3.2 버전 관리 특징

hashtag9. Monitoring System

hashtag1. Prometheusarrow-up-right 메트릭 수집 설정

hashtag1.1 기본 설정

hashtag1.2 서비스별 스크랩 설정

hashtag1.3 수집 메트릭 종류

hashtag2. Grafanaarrow-up-right 대시보드 구성

hashtag2.1 Grafana 설정

hashtag2.2 주요 대시보드

hashtag3. 로그 수집 및 분석

hashtag3.1 로그 저장소 구성

hashtag3.2 로그 수집 정책

hashtag4. 성능 모니터링 지표

hashtag4.1 서비스 성능 지표

hashtag4.2 리소스 사용 제한

hashtag4.3 헬스체크 설정

hashtag4.4 모니터링 대응 전략

1. docker

docker 설치

2. docker compose

docker-compose.yaml

네트워크 설정

계정 확인

포트 연결

3. Git Clone

4. MLflow

MLflow 서비스

5. MinIO

bucket

6. Redis

redis 설정

7. RabbitMQ

기본 설정

작업 설정 상세

8. BentoML 가이드

1. 폴더 구조

2. 환경 설정 및 의존성 설치

2.1 기본 설치

2.2 가상 환경 설정

2.3 환경 변수 설정

3. 신규 모델 추가 절차

1. 프로젝트 구조 설정

2. 의존성 설정

2.1 bentofile.yaml

2.2 environment.yml

3. 서비스 구현 (service.py)

3.1 입력/출력 모델 정의

3.2 메트릭 정의

3.3 서비스 클래스 구현

3.4 모델 로드 구현

3.5 추론 API 구현

4. 모델 버전 관리 및 배포 프로세스

1. MLflow에서 BentoML로의 모델 전환 과정

1.1 MLflow 모델 버전 조회

1.2 BentoML로 모델 저장

2. 서비스에서의 모델 사용

2.1 모델 로드 (service.py)

3. 모델 버전 관리 프로세스

3.1 버전 관리 흐름

3.2 버전 관리 특징

9. Monitoring System

1. Prometheus 메트릭 수집 설정

1.1 기본 설정

1.2 서비스별 스크랩 설정

1.3 수집 메트릭 종류

2. Grafana 대시보드 구성

2.1 Grafana 설정

2.2 주요 대시보드

3. 로그 수집 및 분석

3.1 로그 저장소 구성

3.2 로그 수집 정책

4. 성능 모니터링 지표

4.1 서비스 성능 지표

4.2 리소스 사용 제한

4.3 헬스체크 설정

4.4 모니터링 대응 전략