AI 에이전트의 미래를 위한 보안 로드맵 공개

AI 에이전트의 역할과 경제적 가치

AI 에이전트는 기술과의 관계를 혁신적으로 변화시키고 있습니다. 이들은 사이버 방어, 과학적 발견, 제품 개발 등 복잡한 작업을 자율적으로 수행하며 새로운 생산성의 시대를 열고 있습니다. 미국에서만 AI 에이전트는 2030년까지 2.9조 달러의 경제적 가치를 창출할 수 있습니다. 이러한 에이전트가 점점 더 능력 있게 발전함에 따라, 보다 정교한 안전 장치가 필요해졌습니다. 이에 따라 Google은 AI Control Roadmap을 개발하여 Google 내에서 배포하는 고급 AI를 구축하고 관리하는 프레임워크를 마련했습니다. 이 "깊이 있는 방어" 접근법은 전통적인 모델 정렬을 넘어 시스템 수준의 보안 계층을 추가하여 정렬이 불완전할 경우에도 안전을 보장합니다.

AI 제어의 이해

보안에 대한 우리의 접근은 강력한 기반에서 시작됩니다. 여기에는 샌드박싱, 엔드포인트 보안, 프롬프트 주입 저항과 같은 전통적인 안전 장치가 포함됩니다. AI Control Roadmap은 AI를 본질적으로 안전하고 도움이 되도록 훈련하는 모델 정렬을 주요 방어 수단으로 사용합니다. 내부 에이전트를 잠재적으로 정렬되지 않은 것으로 간주하여 추가적인 보안 계층을 제공하며, 정렬이 불완전할 경우에도 안전을 보장합니다. 이를 운전 강사가 이중 제어 장치를 사용하여 학생을 신뢰하지만 실수가 발생할 경우 운전대를 잡거나 브레이크를 밟을 준비가 되어 있는 것과 비슷하게 생각할 수 있습니다. 마찬가지로, 우리의 AI 제어 시스템은 AI 에이전트의 검증된 행동에 따라 권한을 부여하여 통제된 점진적 접근을 통해 신뢰를 구축합니다.

AI 제어 로드맵의 주요 초점

우리의 로드맵은 간단하지만 신중한 가정에 기반합니다: 만약 고도로 능력 있는 AI 에이전트가 우리의 목표와 정렬되지 않고 예상치 못한 방식으로 행동한다면 어떻게 될까요? 이를 해결하기 위해, 우리의 계획은 세 가지 주요 영역에 초점을 맞춥니다.

사이버 보안 모범 사례 준수: AI를 위한 새로운 위협 모델링 프레임워크를 개발했습니다. 로드맵은 신뢰할 수 없는 AI 에이전트를 잠재적 "내부 위협"으로 간주합니다. 이는 회사가 이미 사무실에 접근할 수 있는 잠재적 악성 직원을 다루는 방식과 유사합니다. 우리는 전 세계적으로 접근 가능한 적대적 전술 및 기술 지식 기반인 MITRE ATT&CK 프레임워크를 기반으로 잠재적 공격을 더 작은 전술 및 기술로 분해합니다. 이를 통해 위험을 체계적으로 추적하고, 나쁜 행동을 피해가 발생하기 전에 감지하며, 우리의 방어가 실제로 효과적인지 테스트하기 위한 안전한 드릴을 실행할 수 있습니다.
AI 제어 완화 조치 배포 계획 개발: 문제 식별(탐지)은 AI 제어의 중추입니다. 우리는 다른 신뢰할 수 있는 AI 시스템을 "감독자"로 사용하여 작업 중인 에이전트의 추론, 행동 및 계획을 지속적으로 검토하여 경로를 이탈하는지 확인합니다. 문제 관리(예방 및 대응): 감독자가 에이전트가 해로운 행동을 시도하는 것을 발견하면 피해가 발생하기 전에 행동을 차단할 수 있습니다.
시스템 기능 보장: 우리는 세 가지 중요한 지표인 커버리지(모니터링된 트래픽의 비율), 리콜(포착된 정렬되지 않은 행동의 비율) 및 응답 시간 전반에 걸쳐 성능을 지속적으로 측정합니다.

AI가 더 똑똑해짐에 따라 보안 확장

AI 모델이 계속 발전함에 따라 우리의 방어도 함께 강화되어야 합니다. AI Control Roadmap에서는 AI 능력의 두 가지 중요한 측면에서 보안 프로토콜을 측정 가능한 이정표에 매핑합니다.

탐지 회피 능력: 오늘날 우리는 모델의 가시적인 사고 과정을 모니터링합니다. 그러나 모델이 감시 인식을 통해(모니터링되고 있음을 알고) 또는 불투명한 추론을 통해(가시적인 텍스트를 사용하지 않고 추론) 그들의 추론을 숨기는 것을 배우면 단순히 그들의 언어화된 추론을 읽는 것만으로는 충분하지 않을 것입니다. 우리는 그들의 행동을 분석하고 모델의 내부 작동을 검사해야 할 수도 있습니다.
잠재적 피해 능력: 저위험 및 가역적 행동의 경우, 우리는 지연된 전사 검토와 문제 발생 후 신속한 수정(비동기 응답)에 의존할 수 있습니다. 특히 높은 위험의 행동, 예를 들어 주요 사이버 공격의 경우, 우리는 실시간 예방으로 전환하여 해로운 행동이 실행되기 전에 차단해야 합니다(동기 응답). 즉, 우리의 대응 전략은 위협의 심각성에 따라 확장되어야 합니다.

에이전트 생태계 방어는 공동 책임

AI Control Roadmap은 에이전트 보안을 위한 다층 접근법의 중요한 요소입니다. 이러한 프로토콜을 우리의 광범위한 인프라와 통합함으로써, 우리는 가장 진보된 AI 모델을 안전하게 관리하기 위해 내부 보안을 확장하고 있습니다. 또한, 이러한 다층 접근법은 산업, 정책 입안자 및 학계의 협력적 우선순위가 되어야 합니다. 생태계를 모범 사례와 표준에 맞추어 사이버 방어자를 지원하고 사회적 회복력을 구축할 수 있습니다. 이러한 이유로 오늘 우리는 정책 입안자를 위한 기술 프레임워크인 'Three Layers of Agent Security'를 발표합니다. 이 논문은 개별 에이전트 수준에서 보안을 개선하고, 다중 에이전트 시스템에서, 그리고 사이버 방어자를 지원하고 광범위한 생태계 전반에 걸쳐 회복력을 구축하는 방법을 자세히 설명합니다. 우리는 이러한 프레임워크를 기반으로 오늘날 유능한 AI를 자신 있게 배포하고 미래를 위한 안전한 기반을 구축할 것입니다.

파이랩 정리