AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 6월 11, 2025 0 Comments

전체 DeepSeek-R1-0528 모델을 로컬로 실행하십시오

저자의 이미지

DeepSeek-R1-0528 715GB의 디스크 공간이 필요한 DeepSeek의 R1 추론 모델에 대한 최신 업데이트로 사용 가능한 가장 큰 오픈 소스 모델 중 하나입니다. 그러나 고급 양자화 기술 덕분에 풀다모델의 크기는 162GB로 줄어들 수 있으며 80% 감소합니다. 이를 통해 사용자는 성능이 약간 상충되었지만 하드웨어 요구 사항이 상당히 낮은 모델의 전체 힘을 경험할 수 있습니다.

이 튜토리얼에서는 다음과 같습니다.

Ollama 및 Open Web UI를 설정하여 DeepSeek-R1-0528 모델을 로컬로 실행하십시오.
모델의 1.78 비트 양자화 된 버전 (IQ1_S)을 다운로드하고 구성하십시오.
GPU + CPU 및 CPU 전용 설정을 모두 사용하여 모델을 실행하십시오.

단계 0 : 전제 조건

IQ1_S Quantized 버전을 실행하려면 시스템이 다음 요구 사항을 충족해야합니다.

GPU 요구 사항 : 최소 1X 24GB GPU (예 : NVIDIA RTX 4090 또는 A6000) 및 128GB RAM. 이 설정을 사용하면 약 5 개의 토큰/초의 세대 속도를 기대할 수 있습니다.

RAM 요구 사항 : GPU없이 모델을 실행하기 위해 모델을 실행하려면 최소 64GB RAM이 필요하지만 성능은 1 토큰/초로 제한됩니다.

최적의 설정 : 최상의 성능 (5+ 토큰/초)의 경우 180GB 이상의 통합 메모리 또는 180GB RAM + VRAM의 조합이 필요합니다.

저장: 모델과 그 종속성을위한 200GB 이상의 무료 디스크 공간이 있는지 확인하십시오.

1 단계 : 의존성 및 올라마 설치

시스템을 업데이트하고 필요한 도구를 설치하십시오. Ollama는 대형 언어 모델을 로컬로 실행하기위한 가벼운 서버입니다. 다음 명령을 사용하여 우분투 배포에 설치하십시오.

apt-get update
apt-get install pciutils -y
curl -fsSL  | sh

2 단계 : 모델을 다운로드하여 실행합니다

다음 명령을 사용하여 DeepSeek-R1-0528 모델의 1.78 비트 양자화 버전 (IQ1_S)을 실행하십시오.

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

3 단계 : 오픈 웹 UI 설정 및 실행

CUDA 지원으로 오픈 웹 UI Docker 이미지를 당기십시오. GPU 지원 및 Ollama 통합으로 Open Web UI 컨테이너를 실행하십시오.

이 명령은 다음과 같습니다.

포트 8080에서 열린 웹 UI 서버를 시작하십시오
GPU 가속도를 사용하여 --gpus all 깃발
필요한 데이터 디렉토리 마운트 (-v open-webui:/app/backend/data))

docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

컨테이너가 실행되면 브라우저에서 Open Web UI 인터페이스에 액세스하십시오. http://localhost:8080/.

4 단계 : Open WebUI에서 DeepSeek R1 0528 실행

선택하십시오 hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0 모델 메뉴에서 모델.

Ollama 서버가 GPU를 올바르게 사용하지 않으면 CPU 실행으로 전환 할 수 있습니다. 이로 인해 성능이 크게 줄어들지 만 (약 1 토큰/초) 모델이 여전히 실행될 수 있습니다.

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

모델이 실행되면 Open Web UI를 통해 모델과 상호 작용할 수 있습니다. 그러나 속도는 GPU 가속이 부족하여 1 토큰/초로 제한됩니다.

최종 생각

양자화 된 버전조차 실행하는 것은 어려웠습니다. 모델을 다운로드하려면 빠른 인터넷 연결이 필요하며 다운로드가 실패하면 처음부터 전체 프로세스를 다시 시작해야합니다. 또한 낮은 VRAM과 관련하여 GGUF 오류를 계속 받기 때문에 GPU에서 실행하려는 많은 문제에 직면했습니다. GPU 오류에 대한 몇 가지 일반적인 수정을 시도했지만 아무것도 작동하지 않았으므로 결국 모든 것을 CPU로 전환했습니다. 이것이 효과가 있었지만 이제 모델이 응답을 생성하는 데 약 10 분이 걸립니다.

나는 아마도 llama.cpp를 사용하는 더 나은 솔루션이 있다고 확신하지만, 나를 믿으십시오. 이번 하루 종일 이런 일이 필요했습니다.

Abid Ali Awan (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자입니다. 현재 그는 컨텐츠 제작 및 기계 학습 및 데이터 과학 기술에 대한 기술 블로그 작성에 중점을두고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 취득했습니다. 그의 비전은 정신 질환으로 어려움을 겪고있는 학생들을위한 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

출처 참조