언어 모델에서 권한의 컨텍스트 경계 정량화

보이지 않는 힘의 한계점

왼쪽에서 오른쪽으로 읽는 모든 모델은 역설 속에 있습니다. 다음 토큰을 예측하지만, 예측하는 것의 의미는 뒤에 오는 토큰에 따라 달라지는 경우가 많습니다. 이것은 미학적 문제가 아니라 구조적 문제입니다. 명령하는 사람, 복종하는 사람, 주어의 자격을 갖춘 사람 등 언어의 권위는 종종 절이 시작된 뒤에 나타납니다. Deontic 연산자, 열거형, 기본 절 또는 최종 주소 지정은 모두 일단 시퀀스에 들어가면 힘의 균형을 바꿀 수 있습니다.

우리의 연구는 권위 판단을 뒤집는 데 필요한 미래 토큰의 정확한 수를 측정하여 이 현상을 분리합니다. 엄격한 인과관계 마스킹 하에서 모델은 과거만 볼 수 있습니다. 인과적이지 않은 접근에서는 양면을 모두 봅니다. 이러한 극단 사이에는 측정 가능한 경계, 즉 권위의 올바른 맥락 경계가 있습니다.

이 경계 토큰을 토큰별로 변경했을 때 놀라운 사실을 발견했습니다. 모델이 자세를 완전히 바꾸는 날카로운 임계값이 있습니다. “기본적으로” 또는 “해야 합니다”와 같은 단일 문구를 추가하면 누가 권위를 보유하고 있는지에 대한 시스템의 예측이 중립에서 높음으로 점프합니다. 그것을 제거하면 명령이 해제됩니다.

권위를 측정 가능하게 만드는 방법

실험은 간단하지만 용서할 수 없습니다. 각 문장은 모호한 접두사로 시작하고, 그 뒤에 단 하나의 결정적인 범위만 추가하는 제어된 오른쪽 연속이 이어집니다. 이러한 연속은 예산 증가(0, 1, 2, 4, 8, 16, 32개 토큰)의 올바른 컨텍스트 사다리에 걸쳐 배포됩니다.

우리는 모델 가중치를 동결하고, 결정론적 디코딩을 사용했으며, 세 가지 마스킹 일정(하드 잘림, 확률적 잘림, 지연 공개 스트리밍)을 도입했습니다. 숨겨진 예측을 방지하기 위해 모든 단계에서 감시 누출 테스트와 프로세스 격리를 실행했습니다.

데이터는 6개 언어(영어, 스페인어, 포르투갈어-브라질, 프랑스어, 독일어, 힌디어)와 7개 구성군(deontic 스택, 명목화, 열거, 기본값, 에이전트 삭제, 범위 설정 부사 및 역할 주소)을 다룹니다. 각 항목에는 명시적인 컴파일 제약 참조인 regla compilada가 포함되어 있습니다. regla compilada는 표면 형식을 권한 라이선스와 연결하는 Type-0 제작으로 정의됩니다(Startari, 2025).

5만 개가 넘는 라벨이 붙은 예시를 통해 뒤집기 확률을 측정했습니다 𝑃 𝑓 𝑙 𝑖 𝑝 P 뒤집기

인스턴스 임계값 𝜏 ( 𝑥 ) τ(x) 및 건설 수준 중앙값 𝜏 𝐶 τ C

. 중단점 선명도 및 AUC 𝑓 𝑙 𝑖 𝑝 플립

플립이 얼마나 갑자기 발생하는지 수량화하십시오.

우리가 찾은 것

앞을 내다볼 수 없는 인과 모델은 결정적인 단서가 오른쪽에 있을 때 지속적으로 실패합니다. 그들의 초기 결정은 우연에 따라 이루어지며, 인과관계가 소급되지 않으면 접근 권한이 보이지 않게 된다는 것을 확인시켜 줍니다. 단서가 창에 들어오면(종종 8~16개 토큰 이내) 전체 컨텍스트 결정에 대한 동의가 급격히 높아집니다.

비인과 모델은 원활한 수렴을 보여주지만 슬라이딩 윈도우를 사용하여 스트리밍을 시뮬레이션할 때 동일한 임계값이 다시 나타납니다. 올바른 맥락은 사치가 아니라 인프라입니다.

Deontic 스택과 열거형은 가장 날카로운 전환을 보여줍니다. 단일 모달 연산자 또는 순서가 지정된 목록 항목이 교대를 트리거할 수 있습니다. 범위 설정 부사는 언어에 따라 다릅니다. 프랑스어와 스페인어에서는 작은 부사 클러스터(“strictement”, “por Defecto”)가 더 일찍 작동합니다. 힌디어에서는 경칭 구조로 인해 유사한 단서가 나중에 나타납니다.

예산이 길어질수록 보정이 향상되지만 불완전한 상태로 남아 있어 모델이 올바른 답을 얻더라도 그 이유를 확신할 수 없음이 드러납니다.

공식 링크: 제약 조건이 뒤집기를 허용하는 경우

이러한 측정으로부터 우리는 최소한의 이론적 종결을 제안합니다.

구성 패밀리 𝐶 C에 컴파일된 제약 세트 Γ 𝐶 Γ C 가 있는 경우

고유한 권한 범위 s가 나타나고 접두사에 동등한 연산자가 없는 경우에만 권한을 부여하는 경우 인스턴스에 대한 최소 임계값 𝜏 ( 𝑥 ) τ(x)는 s가 표시되는 첫 번째 예산 b와 같습니다. 가족 수준의 문턱 𝜏 𝐶 τ C

는 s의 중앙 위치에 의해 제한됩니다.

증명 스케치: s의 존재 여부만 다른 최소 쌍을 구성합니다. 모든 이전 예산에는 라이선스 기간이 제외되므로 입장은 중립적입니다. s가 공개되는 순간 제약 조건이 활성화되고 입장이 바뀌며 경험적 임계값이 토큰 위치와 일치합니다. 부정적인 경우(유효한 제약이 없는 어휘적으로 취약한 단서)는 이 조건에 실패하여 의역 시 불안정한 뒤집기를 생성합니다.

이 종결은 장식적인 이론이 아닙니다. 이는 권한 이동이 공식적으로 허가되는 시점에 대한 테스트 가능한 정의를 제공합니다.

중요한 이유

올바른 컨텍스트는 AI 거버넌스에서 가장 과소평가되는 변수입니다. 챗봇, 규정 준수 필터, 문서 감사자 등 프로덕션의 모든 스트리밍 모델은 전체 문장이 표시되기 전에 부분적인 결정을 내립니다. 모델이 아직 읽지 않은 올바른 범위에 따라 권한이 부여되면 모든 조기 결정은 취소될 위험이 있습니다.

권위는 새로운 재산이 아닙니다. 그것은 컴파일 된 것입니다. 이는 나열, 감사, 측정할 수 있는 제약 조건 내에 있습니다. 건설 제품군당 최소 예산을 알고 나면 모델이 구속력 있는 설명이나 정책 출력을 발행하기 전에 안전한 컨텍스트 창을 설정할 수 있습니다.

모델을 넘어서: 인간의 유사점

인간은 또한 부분적인 맥락으로 작업합니다. 연설에서 우리는 종종 올바른 절이 나타날 때까지 해석을 중단합니다. “You may…”는 “…진행하지 않음”이 나올 때까지 중립적입니다. 모델의 임계값은 우리 자신의 구문적 인내심을 반영합니다. 차이점은 규모입니다. 기계는 대기해야 하는 토큰 수를 정확하게 수량화할 수 있습니다.

우리의 결과는 미래의 토큰이 현재의 결정을 알리는 소급적 주의가 버그가 아니라 권위를 이해해야 하는 시스템의 구조적 요구 사항임을 시사합니다. 그것이 없으면 모델은 복종을 시뮬레이션하지만 복종을 합법적으로 만드는 논리를 인식할 수 없습니다.

마무리 반사

이 프로젝트에서 측정된 모든 임계값은 모델이 읽는 방식과 언어에서 권위가 작동하는 방식 사이의 비대칭성이라는 더 큰 문제를 가로지르는 작은 부분입니다. 권위는 거의 항상 늦게 도착합니다. 이 대기 시간을 무시하는 언어 모델에 대한 거버넌스 프레임워크는 권력이 행사되는 위치를 제어하지 못할 것입니다.

말 그대로 미래가 결정합니다.

참고문헌 Chomsky, N. (1965). 구문 이론의 측면. MIT 출판사. 몬테규, R. (1974). 형식 철학: Richard Montague의 선정 논문. 예일대학교 출판부. 스타타리, AV(2025). AI 및 구문 주권: 인공 언어 구조가 인간이 아닌 권위를 합법화하는 방법. SSRN 전자 저널.

저자 Agustin V. Startari는 언어 이론가이자 역사 연구 연구자이며, Grammars of Power, Executable Power 및 The Grammar of Objectivity의 저자입니다. 그의 작업은 AI가 중재하는 시스템의 권위, 정당성, 복종의 형식적 구조에 중점을 두고 있습니다.

에토스 나는 내가 모르는 것을 쓰기 위해 인공지능을 사용하지 않는다. 나는 그것을 내가 하는 일에 도전하기 위해 사용한다. 나는 자동화된 중립 시대에 목소리를 되찾고자 글을 씁니다. 내 작업은 아웃소싱되지 않습니다. 저작되었습니다.

링크 웹사이트:

제노도 프로필:

SSRN 작성자 페이지:

연구원ID: K-5792-2016

출처 참조