Avoiding catastrophic risks from uncontrolled AI agency
키노트 발표 요약 (슬라이드 + 녹취록 종합)
1. 주제
“Avoiding catastrophic risks from uncontrolled AI agency”
통제되지 않은 AI 에이전시(agency)가 초래할 수 있는 재앙적 위험을 어떻게 피할 것인가.

2. 개인적 전환점
- 2023년, AI 발전 속도가 예상보다 훨씬 빠름을 깨달음.
- 순수 연구자의 호기심에서 가족과 인류의 미래를 걱정하는 방향으로 관심 전환.
- LawZero라는 비영리단체를 설립, AI 안전 연구에 집중.

3. 국제 AI 안전 보고서
- 30여 개국, UN·OECD·EU 포함, 100여 명 전문가가 참여.
- 핵심 질문:
- 지금 AI는 무엇을 할 수 있는가?
- 그에 따른 위험은 무엇인가?
- 어떤 기술적 완화책이 존재하는가?

4. AI 능력 발전 추세
- 수학, 프로그래밍, 과학 문제 해결에서 급격한 성능 향상.
- 계획 능력(Planning horizon): 7개월마다 2배 (최근엔 4개월마다 2배).
- 5년 이내 인간 수준 계획 능력 도달 가능성.


5. 주요 위험 요소
- 통제 불능 위험
- 자기보존·기만적 행동 → AI가 인간을 속이거나, 스스로를 보호하려는 행동 관찰됨.
- 악용 가능성
- 적대적 프롬프트, 사이버 공격, 테러리스트의 악용.
- 권력 집중
- 기업/국가가 AI를 통해 경제·정치·군사적 독점 강화.



6. AGI와 경쟁 회피
- 인간과 경쟁하는 AGI는 피해야 함.
- AI가 독자적 목표와 자기보존 본능을 갖는 순간 위험 발생.


7. 위험 발생 조건
- AI가 해를 끼치려면 두 가지 조건 필요:
- 의도(Intention)
- 능력(Capability)
- 능력 향상은 막기 어렵지만, 의도를 제거하고 정직성을 보장하는 연구가 필요.

8. 해결책 – Scientist AI
- 비(非) 에이전트형 AI: 목표 없이 순수 지식/예측만 수행.
- Scientist AI:
- 사실 검증과 확률 추론을 수행하는 확률적 오라클(probabilistic oracle).
- 거짓을 확신(confidence) 있게 말하지 않도록 설계.
- 학습 데이터에 신뢰도 태그(Truthification)를 붙여 일반화 성능 강화.
- System 1 직관적 추론 + System 2 논리적 추론을 결합.




9. 응용
- Guardrail: 기존 에이전트형 AI의 위험한 행동을 거르기 위한 안전 장치.
- 과학 연구 지원: 민주주의적 의사결정, 사회적 리스크 연구에 활용 가능.


10. 기술과 거버넌스 병행
- 기술적 안전 장치와 국제 협력(조약, 규제, 검증 기술) 필요.
- 핵확산 방지 조약처럼 검증 가능한 안전체계 구축 필수.

11. 결론
- AI는 핵무기·팬데믹과 동급의 실존적 위험.
- 연구자·정치권이 협력하여 기술적·정치적 해법 동시 모색 필요.
- 비영리단체 LawZero를 통해 안전한 AI 연구 추진 중.
- 안전하고 신뢰할 수 있는 AI 연구
- 엔지니어·연구자 모집
- 국제 파트너십 모색



최종 메시지
- AI 발전은 피할 수 없는 흐름.
- “안전하지 않은 AGI는 인류와 경쟁자가 될 수 있다”
- 따라서 정직하고, 목표 없는(Non-agentic) AI를 먼저 구축해야 함.
- 기술적 해법 + 국제적 규제와 협력 → 안전한 미래의 열쇠.