Github Copilot에서 사용할 AI 모델을 결정하는 안내서

사용 가능한 최고의 기술에 액세스 할 수 있도록 Github Copilot에 새로운 모델에 대한 지원을 지속적으로 추가하고 있습니다. 즉, 우리는 항상 많은 새로운 모델이 출시되는 것을 따라 잡기가 어려울 수 있다는 것을 알고 있습니다.

이 모든 것이 명백한 질문을 제기합니다. 어떤 모델을 사용해야합니까?

현재 Copilot에서 사용할 수있는 모델과 그 강점에 대한 개요에 대한 최근 블로그 게시물을 읽거나 다양한 모델과 작업을 비교하는 깊은 다이빙에 대한 문서를 확인할 수 있습니다. 그러나 AI 풍경은 빠르게 움직입니다. 이 기사에서는 주어진 AI 모델이 적합한 지 여부를 평가하기위한 몇 가지 전략을 포함한 프레임 워크를 탐색합니다. 당신의 새로운 모델이 빠른 속도로 계속 나타나더라도 사용합니다.

프로그래밍 관련 작업을 위해 특별히 미세 조정 된 기본 모델로는 잘못되기 어렵습니다. 그러나 작업중 인에 따라 다양한 요구와 선호도가있을 수 있습니다. 단일 “최고의”모델은 없습니다. 어떤 사람들은 채팅에 대한 더 많은 장점 모델을 선호 할 수 있고, 다른 사람들은 예를 들어 간결한 것을 선호합니다.

우리는 모델 선택 프로세스에 대해 여러 개발자와 이야기했습니다. 자신의 전략을 자신의 요구에 적용하는 방법을 알아 보려면 계속 읽으십시오.

promper 최상의 결과를 얻으려면 프롬프트 엔지니어링에 대한 팁은 아래 비디오를보고 있습니다.

https://www.youtube.com/watch?v=laf-lacf2qy

여러 모델을 사용하는 이유는 무엇입니까?

하나의 모델을 골라 고수해야 할 이유가 없습니다. GitHub Copilot을 사용하여 채팅 및 코드 완료에 대한 모델간에 쉽게 전환 할 수 있으므로 다른 사용 사례에 다른 모델을 사용할 수 있습니다.

그것은 자신의 스택을 개 먹는 것과 비슷합니다. 실제 코드를 배송 할 때까지 실제로 워크 플로에 맞는지 알 수 없습니다.

-Anand Chowdhary, Firstquadrant CTO 및 공동 창립자

채팅 대 코드 완료

채팅에 하나의 모델을 사용하고 다른 모델을 사용하는 것은 개발자들 사이에서 볼 수있는 가장 일반적인 패턴 중 하나입니다. 일반적으로 개발자는 빠르고 반응이 빠르기 때문에 자동 완성 모델을 선호합니다. 개발자는 채팅에서 대기 시간에 더 관대합니다. 예를 들어 복잡한 리팩토링 작업을 고려하는 것과 같이).

특정 프로그래밍 작업에 대한 추론 모델

OpenAi O1과 같은 추론 모델은 종종 GPT-4O 또는 Claude Sonnet 3.5와 같은 기존 LLM보다 느리게 반응합니다. 이 모델은 파트로 프롬프트를 나누고 문제에 대한 여러 접근 방식을 고려하기 때문에 대부분입니다. 응답 시간에 대기 시간을 도입하지만 복잡한 작업을 완료하는 데 더 효과적입니다. 많은 개발자들이 특정 작업에 대해 이러한 심의 모델을 선호합니다.

예를 들어, 개발자 관계 관리자 인 Fatih Kadir Akın은 새로운 프로젝트를 처음부터 시작할 때 O1을 사용합니다. “추론 모델은 비전을 비례하지 않는 모델보다 내 비전을 이해하고 더 구조화 된 프로젝트를 만듭니다”라고 그는 설명합니다.

FirstQuadrant CTO 및 공동 창립자 인 Anand Chowdhary는 대규모 코드 리팩토링 작업에 대한 추론 모델을 선호합니다. “신중한 추론없이 복잡한 백엔드 코드를 다시 작성하는 모델은 처음에는 거의 정확하지 않습니다.”라고 그는 말합니다. “사고 과정을 보는 것은 또한 변화를 이해하는 데 도움이됩니다.”

캐시디 윌리엄스 (Cassidy Williams)는 개발자 옹호의 Github 수석 이사 인 Github 수석 이사 인 뉴스 레터에 대한 기술 인터뷰 질문을 만들 때 특정 작업에 대한 모델을 혼합합니다. 질문을 작성하면 GPT-4O를 사용하여 산문을 개선 한 다음 Claude 3.7 Sonnet 사고를하여 코드 정확도를 확인합니다. “추론 모델은 다단계 프로세스로 인해 기술적 인 정확성을 보장하는 데 도움이됩니다.”라고 그녀는 말합니다. “처음에 뭔가 잘못되면, 그들은 종종 나중 단계에서 자신을 교정하여 최종 답변이 더 정확합니다.”

주관성이 있지만 코드 구조, 패턴, 주석 및 모범 사례 준수에 따라 모델 출력을 비교합니다.

-Portilla Edo, 클라우드 인프라 엔지니어링 리드

새로운 AI 모델에서 찾아야 할 사항

새로운 모델이 방금 떨어졌고 시도해 볼 준비가되었다고 가정 해 봅시다. 다음은 새로운 것을 만들기 전에 고려해야 할 몇 가지 사항이 있습니다.

최근 성

다른 모델은 다른 교육 데이터를 사용합니다. 즉, 한 모델이 다른 모델보다 최근 데이터보다 최근 데이터를 가질 수 있으므로 사용하는 새로운 버전의 프로그래밍 언어, 프레임 워크 및 라이브러리에 대해 교육을받을 수 있습니다.

클라우드 인프라 엔지니어링 리드 인 Xavier Portilla Edo는“새로운 모델을 시험해 볼 때 가장 먼저하는 일 중 하나는 최신의 방법을 확인하는 것입니다. 그는 일반적으로 프로젝트를 위해 프로젝트 매니페스트 파일을 만들어서이를 수행하여 버전 번호 Copilot AutoComplete가 제안하는 버전 번호를 확인합니다. “버전이 꽤 오래되면 계속 진행할 것”이라고 그는 말합니다.

속도와 응답 성

언급했듯이 개발자는 자동 완성보다 채팅에서 더 많은 대기 시간을 견딜 수있는 경향이 있습니다. 그러나 응답 성은 채팅에서 여전히 중요합니다. Twilio의 직원 개발자 전도자 인 Rishab Kumar는“모델에서 아이디어를 튀기고 피드백을받는 것을 좋아합니다. “이러한 유형의 상호 작용의 경우 빠른 응답이 필요하여 흐름에 머물 수 있습니다.”

정확성

당연히 최고의 코드를 생성하는 모델을 평가해야합니다. Portilla Edo는“주관성이 있지만 코드 구조, 패턴, 의견 및 모범 사례 준수를 기반으로 모델 출력을 비교합니다. “또한 코드가 얼마나 읽을 수 있고 유지 관리 가능한지를보고 있습니다. 이름 지정 규칙을 따릅니다. 모듈 식일까요? 코드가 무엇을하는지에 대한 주석이 도움이됩니까?

워크 플로에서 AI 모델을 테스트하는 방법

자, 이제 모델에서 무엇을 찾아야하는지 알 수 있습니다. 그러나 실제로 응답 성과 정확성에 대해 어떻게 평가합니까? 물론 당신은 그것을 사용합니다.

간단한 앱으로 시작하십시오

Akın은 일반적으로 바닐라 JavaScript로 작성된 간단한 TODO 앱으로 시작합니다. “나는 단지 코드를 확인하고 그것이 얼마나 잘 구성되어 있는지를 확인합니다.”라고 그는 말합니다. 마찬가지로 Kumar는 Python의 WebSocket 서버로 시작합니다. 아이디어는 평가하기에 충분히 이해하고 더 복잡하게 층을 이루는 것으로 시작하는 것입니다. Akın은“결국 3J를 사용하여 3D로 무언가를 만들 수 있는지 알 수 있습니다.

Portilla Edo는 Copilot Chat에서 평가하려는 새로운 모델을 촉구하여 시작합니다. “나는 보통 GO의 기능이나 간단한 HTML 파일과 같은 간단한 것들을 요구합니다.”라고 그는 말합니다. 그런 다음 그는 모델이 어떻게 수행되는지 확인하기 위해 자동 완성으로 이동합니다.

한동안 “일일 드라이버”로 사용하십시오

Chowdhary는 그냥 뛰어 들어 모델을 사용하기 시작합니다. “새로운 모델이 떨어지면 매일 드라이버로 워크 플로로 바꾸고 조금만 살고 있습니다.”라고 그는 말합니다. “사용 가능한 벤치 마크와 테스트는 스토리의 일부만 알려줍니다. 실제 테스트는 실제로 매일 매일 향상되는지 여부를보고 있다고 생각합니다.”

예를 들어, 그는 실제로 디버깅 작업 속도를 높이거나 클리너 리팩터를 생산하는지 확인합니다. “이것은 자신의 스택을 개를 먹는 것과 비슷합니다. 실제 코드를 배송 할 때까지 실제로 워크 플로에 맞는지 알 수 없습니다.”라고 그는 말합니다. “약간 평가 한 후, 나는 새로운 모델을 고수 할 것인지 또는 이전 선택으로 되돌릴지 결정합니다.”