Qwen의 QWQ-32B : 잠재력이 큰 작은 모델
중국은 AI에서 빠르게 발전하여 DeepSeek 및 Qwen과 같은 모델을 전 세계 거인들과 경쟁합니다. DeepSeek은 Chatgpt와 비슷한 광범위한 인정을 얻었으며 Qwen은 다목적 챗봇을 발전시켜 비전, 추론 및 코딩 기능을 하나의 인터페이스로 제공하고 있습니다. QWQ 32B는 Qwen의 최신 추론 모델입니다. 그것은 중간 크기의 모델이며 DeepSeek-R1 및 O1-Mini와 같은 최상위 추론 모델과 경쟁하여 AI 혁신에서 중국의 인상적인 진보를 보여줍니다.
Qwen의 QWQ 32B는 무엇입니까?
QWQ-32B는 QWEN 시리즈의 32 억 파라미터 AI 모델입니다. 강화 학습 (RL)을 사용하여 추론 및 문제 해결 기술을 향상시키고 DeepSeek-R1과 같은 대형 모델뿐만 아니라 수행합니다. 피드백을 기반으로 추론을 조정하고 도구를 효과적으로 사용할 수 있습니다. 이 모델은 Apache 2.0 라이센스에 따라 얼굴 및 Modelscope에서 사용할 수 있으며 Qwen Chat을 통해 액세스 할 수 있습니다. RL이 어떻게 AI 기능을 의미있는 방식으로 향상시킬 수 있는지 강조합니다.
또한 읽으십시오 : 3 분 안에 로컬로 QWEN2.5 모델을 실행하는 방법?
성능
QWQ-32B는 다양한 벤치 마크에서 수학적 추론, 코딩 기술 및 문제 해결 능력을 평가하기 위해 테스트되었습니다. 아래의 결과는 성능을 DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, O1-MINI 및 Original DeepSeek-R1과 같은 다른 최고 모델과 비교합니다.

광범위한 작업에서 추론 모델을 평가하는 LiveBench 점수는 QWQ-32B가 R1과 O3-MINI 사이의 수행을 보여 주지만 비용의 1/10에 불과합니다. 가격 추정치는 API 또는 OpenRouter 데이터를 기반으로하며 DeepInfra의 출력 토큰 당 $ 0.18입니다. 이로 인해 QWQ-32B는 다른 주요 모델에 비해 매우 효율적이고 비용 효율적인 옵션이됩니다.
Alibaba의 QWQ-32B는 과학적 추론을 위해 GPQA 다이아몬드에서 59%, Aime 2024에서 86%를 기록했습니다. 그것은 수학에서 탁월하지만 상위 모델에 비해 과학적 추론에 지연됩니다.
또한 Huggingface에서 1 위를 차지하고 있습니다.

QWQ 32B 무료 코스에 등록하고 AI 애플리케이션을 구축하는 방법을 배우십시오!
QWQ 32B에 액세스하는 방법?
QWQ-32B 모델에 액세스하려면 필요에 따라 여러 가지 옵션이 있습니다. 부담없이 시도하거나 로컬로 실행하거나 프로젝트에 통합하든간에.
Qwen Chat을 통해 (가장 쉬운 옵션)
- 가십시오
- 아직 계정이없는 경우 계정을 만듭니다.
- 로그인하면 모델 피커 메뉴 (일반적으로 드롭 다운 또는 선택 목록)를 찾으십시오.
- 사용 가능한 모델 목록에서 “QWQ-32B”를 선택하십시오.
- 프롬프트 타이핑을 시작하여 추론, 수학 또는 코딩 기능을 테스트하십시오.
포옹 얼굴을 통해 로컬로 다운로드하고 실행하십시오
요구 사항 :
- 하드웨어: 24GB 이상의 VRAM (예 : NVIDIA RTX 3090 이상)을 갖는 고급 GPU. 평가되지 않은 FP16의 경우 약 80GB VRAM (예 : NVIDIA A100 또는 H100)이 필요합니다. 양자화 된 버전 (예 : 4 비트)은 약 20GB VRAM에서 더 적게 실행할 수 있습니다.
- 소프트웨어: Python 3.8+, Git 및 Pip 또는 Conda와 같은 패키지 관리자. 또한 Hugging Face Transformers 라이브러리 (4.37.0 이상)의 최신 버전이 필요합니다.
종속성 설치 :
pip install transformers torch
Hugging Face에서 모델과 토큰 화기를 다운로드하십시오.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
간단한 추론을 실행하십시오.
prompt = "How many r's are in the word 'strawberry'?"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
더 간단한 로컬 설정을 위해 Ollama 사용
- OS (Windows, MacOS 또는 Linux)의 Ollama.com에서 Ollama를 다운로드하여 설치하십시오.
- 터미널을 열고 QWQ-32B 모델을 당기십시오.
ollama pull qwq:32b
ollama run qwq:32b
- 터미널에 프롬프트를 직접 입력하여 상호 작용하십시오.
로컬로 실행하려면 여기에서 내 Collab 노트북을 확인하십시오.
QWQ 32B를 시도해 봅시다
즉각적인: 불꽃 주위에 불꽃이 켜진 촛불을 밝히는 정적 웹 페이지를 만듭니다.
즉각적인: 모든 방향으로 미사일을 발사 할 수있는 앉은 게임을 개발하십시오. 처음에는 적의 속도가 매우 느리지 만 적 3 명을 물리 치면 속도가 점차 증가합니다. P5.JS로 구현하십시오
즉각적인: 회전 된 육각형 내부에서 공이 튀는 것을 보여주는 파이썬 프로그램을 작성하십시오. 공은 중력과 마찰의 영향을 받아야하며, 회전 벽을 현실적으로 튀어 나와야합니다..
또한 읽으십시오 : QWQ-32B vs DeepSeek-R1 : 32B 모델이 671B 매개 변수 모델에 도전 할 수 있습니까?
끝 참고
QWQ-32B는 AI 추론 모델에서 상당한 도약을 나타내며, 비용의 일부에서 R1 및 O3-MINI와 같은 최상위 모델과 비교할 수있는 성능을 제공합니다. 출력 토큰 당 0.18 달러에 불과한 인상적인 라이브 벤치 점수와 비용 효율성은 광범위한 응용 프로그램을위한 실용적이고 액세스 가능한 선택입니다. 이 발전은 고성능 AI가보다 저렴하고 확장 가능해질 수있는 잠재력을 강조하며, 분야에서 광범위한 채택과 혁신을위한 길을 열어줍니다.
무료 코스와 함께 프로젝트에서 QWQ 32B를 사용하는 방법을 알아보십시오!
계속해서 읽고 전문가가 구축 된 콘텐츠를 즐기십시오.
Post Comment