로컬로 GPT-SOS를 실행하는 가장 좋은 방법

로컬로 GPT-SOS를 실행하는 가장 좋은 방법

로컬로 GPT-SOS를 실행하는 가장 좋은 방법로컬로 GPT-SOS를 실행하는 가장 좋은 방법
저자의 이미지

더 나은 설치 및 실행 방법이 있는지 궁금한 적이 있습니까? flame.cpp 장소 상에서? 오늘날 거의 모든 지역 대형 언어 모델 (LLM) 응용 프로그램이 llama.cpp 실행 모델을위한 백엔드로. 그러나 캐치는 다음과 같습니다. 대부분의 설정은 너무 복잡하거나 여러 도구가 필요하거나 상자에서 강력한 사용자 인터페이스 (UI)를 제공하지 않습니다.

할 수 있다면 좋지 않을 것입니다.

  • 강력한 모델을 실행하십시오 GPT-SOSS 20B 몇 가지 명령만으로
  • a 현대 웹 UI 추가 번거 로움없이 즉시
  • 가지고있다 가장 빠르고 가장 최적화 된 설정 지역 추론을 위해

이것이 바로이 튜토리얼에 관한 것입니다.

이 안내서에서는 최고, 가장 최적화되고 가장 빠른 방법 실행하려면 GPT-SOSS 20B 모델 로컬 사용 llama-cpp-python 함께 패키지 오픈 웹. 결국, 당신은 사용하기 쉽고, 효율적이며, 생산 준비가 쉬운 완전히 작동하는 로컬 LLM 환경을 갖게 될 것입니다.

1. 환경 설정

당신이 이미 가지고 있다면 uv 명령 설치, 당신의 삶이 쉬워졌습니다.

그렇지 않다면 걱정하지 마십시오. 공무원을 따르면 신속하게 설치할 수 있습니다 UV 설치 안내서.

한 번 uv 설치하고 터미널을 열고 Python 3.12를 설치하십시오.

다음으로 프로젝트 디렉토리를 설정하고 가상 환경을 만들고 활성화하겠습니다.

mkdir -p ~/gpt-oss && cd ~/gpt-oss
uv venv .venv --python 3.12
source .venv/bin/activate

2. 파이썬 패키지 설치

환경이 준비되었으므로 필요한 Python 패키지를 설치하겠습니다.

먼저 PIP를 최신 버전으로 업데이트하십시오. 다음으로 설치하십시오 llama-cpp-python 서버 패키지. 이 버전은 CUDA 지원 (NVIDIA GPU의 경우)으로 구축되므로 호환 GPU가 있으면 최대 성능을 얻을 수 있습니다.

uv pip install --upgrade pip
uv pip install "llama-cpp-python[server]" --extra-index-url 

마지막으로 Open WebUI 및 Hugging Face Hub를 설치하십시오.

uv pip install open-webui huggingface_hub
  • 오픈 웹: 로컬 LLM 서버에 Chatgpt 스타일 웹 인터페이스 제공
  • 포옹 페이스 허브: 포옹 얼굴에서 직접 모델을 쉽게 다운로드하고 관리 할 수 ​​있습니다.

3. GPT-SOSS 20B 모델 다운로드

다음으로, GPT-SOSS 20B 모델을 양자 형식 (MXFP4)으로 다운로드하겠습니다. 포옹 얼굴. 양자화 된 모델은 여전히 ​​강한 성능을 유지하면서 메모리를 적게 사용하도록 최적화되어 있으며, 이는 로컬에서 실행하기에 적합합니다.

터미널에서 다음 명령을 실행하십시오.

hf download bartowski/openai_gpt-oss-20b-GGUF openai_gpt-oss-20b-MXFP4.gguf --local-dir models

4. LLAMA.CPP를 사용하여 로컬로 GPT-SOSS 20B 서빙

이제 모델이 다운로드되었으므로 llama.cpp 파이썬 서버.

터미널에서 다음 명령을 실행하십시오.

python -m llama_cpp.server \
  --model models/openai_gpt-oss-20b-MXFP4.gguf \
  --host 127.0.0.1 --port 10000 \
  --n_ctx 16384 \
  --n_gpu_layers -1

각 깃발은 다음과 같습니다.

  • --model: 양자화 된 모델 파일로가는 경로
  • --host: 로컬 호스트 주소 (127.0.0.1)
  • --port: 포트 번호 (이 경우 10000)
  • --n_ctx: 컨텍스트 길이 (더 긴 대화를위한 16,384 개의 토큰)
  • --n_gpu_layers: 변압기 레이어 수를 GPU로 오프로드로 설정하십시오 (사용 -1 모든 레이어를 오프로드하려면)

모든 것이 작동하는 경우 다음과 같은 로그가 표시됩니다.

INFO:     Started server process [16470]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on  (Press CTRL+C to quit)

서버가 실행되고 모델을 사용할 수 있는지 확인하려면 다음을 실행하십시오.

curl /v1/models

예상 출력 :

{"object":"list","data":[{"id":"models/openai_gpt-oss-20b-MXFP4.gguf","object":"model","owned_by":"me","permissions":[]}]}

다음으로 Open WebUI와 통합하여 ChatGpt 스타일 인터페이스를 얻을 것입니다.

5. Open Webui 시작

우리는 이미 설치했습니다 open-webui 파이썬 패키지. 이제 시작합시다.

새 터미널 창을 엽니 다 (보관하십시오 llama.cpp 첫 번째 서버에서 실행되는 서버) 및 실행 :

open-webui serve --host 127.0.0.1 --port 9000

webui 가입 페이지webui 가입 페이지

이것은 다음에서 webui 서버를 시작합니다.

브라우저에서 처음으로 링크를 열면 다음과 같이 표시됩니다.

  • 생성 관리자 계정 (이메일 및 비밀번호 사용)
  • 대시 보드에 액세스하려면 로그인하십시오

이 관리자 계정은 향후 세션에 대해 설정, 연결 및 모델 구성이 저장되도록합니다.

6. 개방형 webui 설정

기본적으로 Open WebUI는 Ollama와 협력하도록 구성됩니다. 우리는 모델을 실행하고 있기 때문에 llama.cpp설정을 조정해야합니다.

Webui 내부의 단계를 따르십시오.

// llama.cpp를 OpenAI 연결로 추가하십시오

  1. webui : (또는 전달 된 URL)를 엽니 다.
  2. 당신의 클릭 아바타 (오른쪽 코너)관리자 설정.
  3. 이동 : 연결 → 개방형 연결.
  4. 기존 연결 편집 :
    1. 기본 URL: /v1
    2. API 키: (빈 남겨 두다)
  5. 연결을 저장하십시오.
  6. (선택 사항) 비활성화 올라마 불 그리고 직접 연결 오류를 피하기 위해.

Open WebUI OpenAI 연결 설정Open WebUI OpenAI 연결 설정

// 친절한 모델 별칭을 매핑하십시오

  • 이동 : 관리자 설정 → 모델 (또는 방금 만든 연결 아래)
  • 모델 이름을 편집하십시오 gpt-oss-20b
  • 모델을 저장하십시오

WebUI 모델 별칭 설정을 열어줍니다WebUI 모델 별칭 설정을 열어줍니다

// 채팅을 시작하십시오

  • a 새로운 채팅
  • 에서 모델 드롭 다운선택하다: gpt-oss-20b (당신이 만든 별칭)
  • 테스트 메시지를 보내십시오

Open WebUI에서 GPT-SOSS 20B와 채팅Open WebUI에서 GPT-SOSS 20B와 채팅

최종 생각

나는 솔직히 파이썬으로 모든 것을 실행하기가 쉽다고 기대하지 않았다. 과거에는 설정 llama.cpp 복제 저장소, 달리기를 의미했습니다 CMake 구축하고 끝없는 오류를 디버깅 – 우리 중 많은 사람들이 익숙한 고통스러운 과정입니다.

그러나이 접근법을 사용하여 사용합니다 llama.cpp Python Server Open WebUI와 함께 설정은 상자에서 바로 작동했습니다. 지저분한 빌드, 복잡한 구성 없음, 몇 가지 간단한 명령 만 있습니다.

이 튜토리얼에서는 다음과 같습니다.

  • 깨끗한 파이썬 환경을 설정하십시오 uv
  • 설치 llama.cpp Python Server 및 Open WebUI
  • GPT-SOSS 20B 양자화 된 모델을 다운로드했습니다
  • 로컬로 제공되어 Chatgpt 스타일 인터페이스에 연결했습니다.

결과? 최소한의 노력으로 자신의 컴퓨터에서 실행할 수있는 완전히 로컬, 개인 및 최적화 된 LLM 설정.

Abid Ali Awan (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자입니다. 현재 그는 컨텐츠 제작 및 기계 학습 및 데이터 과학 기술에 대한 기술 블로그 작성에 중점을두고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 취득했습니다. 그의 비전은 정신 질환으로 어려움을 겪고있는 학생들을위한 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다