IT 개발자 뉴스 가젯과 리뷰 뉴스 컴퓨터 Hyun-woo (현우) 5월 9, 2025 0 Comments

Legogpt는 AI 및 텍스트 입력을 사용하여 레고 디자인을 만듭니다.

Carnegie Mellon University의 연구팀은 LEGOGPT라는 AI 모델을 구축하여 텍스트 입력에서 유효한 레고 디자인을 출력했습니다. 게시 된 팀의 연구 논문에 따르면 기럽그들은 다음 번의 예측을 통해 다음 벽돌을 추가 할 수 있도록 자동 회귀 대형 언어 모델을 훈련 시켰지만, 핵심 테이크 웨이는 AI LLM이 처음부터 레고 디자인을 생성한다는 것입니다.

AI는 책금, 테이블, 의자, 자동차, 선박, 기타 등을 포함하여 28,000 개가 넘는 고유 한 3D 객체를 구축하는 47,000 개 이상의 레고 구조가있는 데이터 세트에서 교육을 받았습니다. 그런 다음 AI 모델을 훈련시키는 데 사용되어 텍스트 입력에서만 독특하고 독창적 인 디자인을 만들 수 있습니다.

이 도구는 GitHub에서 무료로 제공되며 컴퓨터 비전 모델 또는 이미지 처리 AI 와이도 페어링 할 수 있습니다. 예를 들어, 사용 가능한 레고 벽돌의 사진을 찍고 AI를 통해 이미 가지고있는 것과 함께 구축하기위한 다양한 독특한 옵션을 제공 할 수 있습니다.

이 팀은 자동 회귀 추론 중에 유효성 점검 및 물리 인식 롤백을 추가하여 최종 출력이 항상 유효하고 (즉, 겹치는 벽돌 없음) 안정 (즉, 떠 다니는 벽돌 없음)을 추가했습니다. 또한 Legogpt의 최종 출력은 인간과 로봇 모두가 구축 할 수 있습니다.

이것이 팀이 LEGOGPT를 훈련시키는 데 사용되는 데이터 세트 (stableText2lego)를 만든 방법입니다. 텍스트 프롬프트 입력은 먼저 ShapenetCore 메쉬로 변환됩니다. 그런 다음 초기 레고 벽돌 레이아웃이 결정되는 20 x 20 x 20 복셀 그리드에 연결됩니다.

그런 다음이 레이아웃은 전체적으로 전체 모양을 유지하면서 다양하며 최종 출력에서 불안정한 설계를 필터링합니다. 그런 다음 왼쪽을 24 개의 다른 뷰 포인트로 렌더링 한 다음 GPT-4O는 최종 출력에 대한 설명을 생성하는 데 사용됩니다.

LEGOGPT 데이터 세트

(이미지 크레딧 : Liu, Ramanan, Liu, Zhu / Cargei University)

텍스트를 통해 새로운 디자인을 만드는 방법입니다. Legogpt는 텍스트를 레고 디자인으로 변환 한 다음 아래에서 맨 아래로 순서대로 텍스트 토큰으로 변환됩니다. 그런 다음 구조화 된 레고 벽돌을 설계를 설명하는 주석과 짝을 이루기 위해 지침이 만들어 지므로 AI는 텍스트 프롬프트와 물리적 벽돌 사이의 관계를 이해할 수 있습니다.

거기에서 Legogpt는 자동 회귀 모델을 사용하여 디자인을 구축하는 데 필요한 다음 벽돌을 예측합니다. 즉, 각 단계에서 벽돌의 타당성을 확인하고, 잘 형성되어 있는지 확인하고 라이브러리에 존재하며 기존 벽돌과 겹치지 않습니다. 이는 설계가 완료 될 때까지 계속되고 안정성이 테스트됩니다.

AI가 출력이 불안정하다고 판단하면 마지막 안정 상태로 롤백하여 해당 지점에서 계속 생성됩니다. 안정적인 최종 출력이 발생하면 설계가 완료됩니다.

Legogpt 파이프 라인