AI는 실제로 무엇을 의미합니까? – 스매싱 잡지

2024 년, 인공 지능 (AI)은 주요 발전으로 각광을 받았습니다. 공통 지식에 도달하는 데있어 문제와 대중의 관심이 너무 빨리 문제는 용어가 모호해진다는 것입니다. 우리 모두는 무언가에 “AI를 사용”하는 것이 무엇을 의미하는지에 대한 근사치를 가지고 있지만, 프로젝트, 제품 또는 기능에 AI를 갖는 인프라에 어떤 인프라가 수반되는지 널리 이해하지 못합니다.

따라서 AI를 만드는 개념을 세분화합시다 진드기. 데이터가 어떻게 저장되고 상관 관계가 있으며, 알고리즘을위한 관계는 어떻게 구축됩니까? 배우기 위해 방법 해석하다 그 데이터? 대부분의 데이터 지향 아키텍처와 마찬가지로 모두 데이터베이스로 시작합니다.

좌표로서의 데이터

인공적이든 자연적이든 지능을 만드는 것은 매우 유사한 방식으로 작동합니다. 우리는 정보 덩어리를 저장하고 그때 우리는 보관합니다 연결하다 그들을. 다중 시각화 도구와 은유는이를 3 차원 공간에서 그래프에 선으로 연결된 점을 보여줍니다. 이러한 연결과 교차점은 지능을 보충하는 것입니다. 예를 들어, 우리는“초콜릿은 달콤하고 멋지다”와“따뜻한 우유를 마시는 것은 당신을 따뜻하게 만듭니다”를 모으고“핫 초콜릿”을 만듭니다.

Iron Man 2의 Tony Stark는 분자의 3D 표현을보고 있습니다. 이는 높은 차원 그래프를 잘 나타내는 것입니다. — (이미지 크레디트 : Marvel Studios)

우리는 인간으로서 연결이 올바른 지점에 있는지 확인하는 것에 대해 너무 걱정하지 않습니다. 우리의 뇌는 그 방식으로 선언적으로 작동합니다. 그러나 AI를 구축하려면 더 명확해야합니다. 그러니지도로 생각하십시오. 비행기가 Countrya를 떠나 CountryB에 도착하려면 정확한 시스템이 필요합니다. 좌표가 있으며,지도에 2 개의 축이 있으며 벡터로 표시 될 수 있습니다. [28.3772, 81.5707].

우리의 지능에는보다 복잡한 시스템이 필요합니다. 2 차원으로는 충분하지 않습니다. 우리는 필요합니다 수천. 그게 뭐야 벡터 데이터베이스 이다. 우리의 지능은 이제 그들 사이의 거리 및/또는 각도에 따라 용어를 상관시키고, 상호 참조를 만들고, 모든 용어가 발생하는 패턴을 설정할 수 있습니다.

데이터를 고차원 벡터로 저장하고 관리하는 특수 데이터베이스. 효율적으로 가능합니다 유사성 검색 그리고 시맨틱 매칭.

근사당 쿼리

마지막 세션에서 언급 한 바와 같이 검색어 (프롬프트)와 데이터와 일치하는 것은 시맨틱 매칭 연습 (프롬프트의 키워드가 자체 데이터 내에서 사용되는 패턴) 및 유사성 검색, 각 항목 간의 거리 (각도 또는 선형)의 연습입니다. 그것은 실제로 거의 정확한 표현입니다. 유사성 검색이하는 일은 벡터의 각 숫자를 정의하는 것입니다 (수천 개의 좌표 길이),이 이상한 다차원 공간의 점입니다. 마지막으로, 이들 각 지점 사이의 유사성을 확립하기 위해, 그 사이의 거리 및/또는 각도가 측정된다.

이것이 AI가 결정적이지 않은 이유 중 하나입니다. 우리도 동일한 프롬프트에 대해 검색은 그 순간에 점수가 정의되는 방식에 따라 다른 출력을 생성 할 수 있습니다. AI 시스템을 구축하는 경우 데이터를 평가하는 방법을 설정하는 데 사용할 수있는 알고리즘이 있습니다.

데이터 유형에 따라보다 정확하고 정확한 결과를 얻을 수 있습니다. 사용 된 주요 알고리즘은 3이며, 각각의 알고리즘은 특정 종류의 데이터에 대해 더 잘 수행되므로 데이터의 모양과 이러한 각 개념이 어떻게 상관되는지 이해하는 것이 올바른 것을 선택하는 데 중요합니다. 매우 손으로 흔들리는 방식으로, 여기에 각각에 대한 단서를 제공 할 수있는 규칙이 있습니다.

코사인 유사성
벡터 사이의 측정 각도. 따라서 크기 (실제 숫자)가 덜 중요하다면 텍스트/시맨틱 유사성에 좋습니다
도트 제품
선형 상관 관계와 정렬을 캡처합니다. 여러 지점/기능 사이의 관계를 설정하는 데 좋습니다.
유클리드 거리
직선 거리를 계산합니다. 공간 거리를 강조하기 때문에 조밀 한 수치 공간에 좋습니다.

정보

구조화되지 않은 데이터 (예 : 텍스트 항목 : 트윗, 책, 여러 레시피, 제품 문서)로 작업 할 때, 코사인 유사성 가는 길입니다.

이제 데이터 벌크가 저장되고 관계가 구축되는 방식을 이해하므로 인텔리전스의 작동 방식에 대해 이야기하기 시작할 수 있습니다. 교육을 시작하십시오!

언어 모델

언어 모델은 큰 텍스트 데이터 세트에서 단어와 문구 사이의 통계적 패턴과 관계를 학습함으로써 이해, 예측 및 마지막으로 인간과 같은 텍스트를 생성하도록 훈련 된 시스템입니다. 그러한 시스템의 경우 언어는 다음과 같습니다 확률 적 시퀀스.

그런 식으로 언어 모델은 즉시 효율적인 완료를 할 수 있습니다 (따라서 Google의 코드의 90%가 AI-자동 완성), 번역 및 대화에 의해 작성되었음을 진술 한 견적. 이러한 작업은 AI의 낮은 과일입니다. 왜냐하면 단어 조합의 가능성을 추정하고 사용 피드백 (유사성 점수를 재조정)을 기반으로 패턴을 재확인하고 조정하여 개선하기 때문입니다.

현재 우리는 언어 모델이 무엇인지 이해하고, 우리는 그것들을 다음과 같이 분류 할 수 있습니다. 크기가 큰 그리고 작은.

대형 언어 모델 (LLMS)

이름에서 알 수 있듯이 대규모 데이터 세트 및 최대 700 억 개의 매개 변수와 함께 MDASH를 사용하십시오. 이를 통해 다양한 지식 영역에서 다양하고 인간과 같은 텍스트를 만들 수 있습니다. 그것들을 큰 일반인으로 생각하십시오. 이것은 다재다능뿐만 아니라 매우 강력합니다. 결과적으로, 그들을 훈련시키기 위해서는 많은 계산 작업이 필요합니다.

작은 언어 모델 (SLM)

더 작은 데이터 세트를 사용하면 1 억에서 30 억의 매개 변수 범위의 숫자가 있습니다. 그들은 계산 노력이 크게 덜 필요하므로 더 정의 된 제약 조건을 가진 특정 작업에 덜 다재다능하고 더 적합합니다. SLM을보다 효율적으로 배포하고 사용자 입력을 처리 할 때 더 빠른 추론을 가질 수 있습니다.

미세 조정

LLM을 미세 조정하면 특정 (고품질) 데이터 세트에 대한 추가 특수 교육을 통해 모델의 가중치를 조정하는 것으로 구성됩니다. 기본적으로 특정 도메인 또는 작업에서 더 나은 성능을 발휘하기 위해 미리 훈련 된 모델을 조정합니다.

모델 내의 휴리스틱을 통해 훈련이 반복됨에 따라보다 미묘한 이해를 가능하게합니다. 이로 인해 각 작업에 대한 사용자 정의 언어 모델을 작성하지 않고보다 정확하고 컨텍스트 별 출력으로 이어집니다. 각 교육 반복에서 개발자는 학습 속도, 가중치 및 배치 크기를 조정하면서 특정 지식 영역에 맞게 조정 된 데이터 세트를 제공합니다. 물론 각 반복은 모델의 출력 성능을 적절하게 벤치마킹하는 데 의존합니다.

위에서 언급했듯이 미세 조정 예를 들어 틈새 지식 영역과 함께 결정된 작업을 적용하는 데 특히 유용합니다. 예를 들어 영양 과학 논문의 요약, 증상과 가능한 조건의 하위 집합과 상관 관계가있는 등.

미세 조정은 자주 또는 빠르게 수행 할 수있는 것이 아니며 수많은 반복이 필요하며, 특히 현재 이벤트 또는 스트리밍 된 정보에 의존하는 경우 사실 정보를위한 것이 아닙니다.

정보로 컨텍스트 향상

우리가 가진 대부분의 대화는 맥락에 직접적으로 의존합니다. AI의 경우 크게 다르지 않습니다. 현재 이벤트 (번역, 요약, 데이터 분석 등)에 전적으로 의존하지 않는 사용 사례가 있지만 다른 많은 사람들이 있습니다. 그러나 아직 LLM (또는 SLM)을 매일 훈련시키는 것은 불가능하지 않습니다.

이를 위해 새로운 기술이 도움이 될 수 있습니다. 검색 된 세대 (조각). 보다 구체적인 (및/또는 현재) 정보를 제공하기 위해 더 작은 데이터 세트를 LLM에 주입하는 것으로 구성됩니다. 헝겊으로 LLM은 더 잘 훈련되지 않습니다. 그것은 여전히 이전에 가지고 있었던 모든 일반적인 훈련을 가지고 있지만, 이제는 출력을 생성하기 전에 사용할 새로운 정보를 섭취합니다.

정보

Rag는 LLM의 맥락을 향상시켜 주제에 대한보다 포괄적 인 이해를 제공합니다.

헝겊이 잘 작동하려면 LLM이 제대로 소화 할 수있는 방식으로 데이터를 준비/형식으로 만들어야합니다. 그것을 설정하는 것은 다단계 프로세스입니다.

검색
외부 데이터 (예 : 웹 페이지, 지식 기반 및 데이터베이스).
사전 처리
정보는 토큰 화, 줄기 및 중지 단어 제거를 포함한 사전 처리를 겪습니다.
근거가있는 세대
사전 처리 된 검색된 정보는 사전 훈련 된 LLM에 원활하게 통합됩니다.

Rag는 먼저 LLM에서 생성 된 쿼리를 사용하여 데이터베이스에서 관련 정보를 검색합니다. 래그를 LLM에 통합하면 상황이 향상되어 주제에 대한보다 포괄적 인 이해를 제공합니다. 이 증강 컨텍스트를 통해 LLM은보다 정확하고 유익하며 매력적인 대응을 생성 할 수 있습니다.

업데이트하기 쉬운 데이터베이스 레코드를 통해 새로운 정보에 대한 액세스를 제공하기 때문에이 접근법은 대부분 데이터 중심 응답을위한 것입니다. 이 데이터는 컨텍스트 중심이므로 사실에 더 정확한 정확도를 제공합니다. 헝겊을 LLM을 일반인에서 전문가로 바꾸는 도구로 생각하십시오.

RAG를 통해 LLM 컨텍스트를 향상시키는 것은 출력 품질이 도메인 지식에 직접 연결되는 챗봇, 비서, 에이전트 또는 기타 사용에 특히 유용합니다. 그러나 Rag는 언어 모델의 컨텍스트에 데이터를 수집하고 “주입”하는 전략이지만이 데이터는 입력이 필요하므로 의미가 필요합니다. 내장.

임베딩

LLM이 데이터를 소화하기 위해서는 각 항목의 의미 론적 의미를 캡처하여 언어 모델이 패턴을 형성하고 관계를 설정할 수 있습니다. 이 과정이 호출됩니다 임베딩그리고 데이터의 정적 벡터 표현을 생성하여 작동합니다. 다른 언어 모델마다 정밀 포함 수준이 다릅니다. 예를 들어, 384 치수에서 3072까지 임베딩을 할 수 있습니다.

다시 말해,지도에서 직교 좌표와 비교할 때 (예 : [28.3772, 81.5707]) 2 차원만으로 LLM의 내장 항목은 384 ~ 3072 차원입니다.

구축합시다

이것이 이러한 용어의 의미와 “AI”라는 용어를 포함하는 프로세스를 더 잘 이해하는 데 도움이 되었기를 바랍니다. 그러나 이것은 단지 복잡성의 표면을 긁을뿐입니다. 우리는 여전히 AI 에이전트와 이러한 모든 접근 방식이 어떻게 얽혀서 더 풍부한 경험을 창출하는 방법에 대해 이야기해야합니다. 아마도 우리는 나중에 기사에서 그렇게 할 수 있습니다. 원한다면 의견에 알려주십시오!

한편, 당신의 생각과 당신이 이것으로 무엇을 구축하는지 알려주세요!