기록만으로 판단을 증명할 수 있는가 — Audit Trail과 사전 검증의 구조적 차이 – 궁리연구소

초록 (Abstract)

AI가 의사결정에 관여한 이후, 그 판단이 절차적으로 적절했는지를 사후에 확인하려 할 때 — 조직은 기록(Audit Trail)에 의존한다. 그러나 Audit Trail은 판단 완료 후에만 작동하며, 판단 시점과 기록 시점 사이에는 구조적 공백이 존재한다. 이 문서는 Audit Trail과 사전 검증(Pre-Judgment Validation)의 구조적 차이를 분석하고, 기록만으로는 판단의 정당성을 증명할 수 없는 이유를 세 가지 실패 패턴과 네 가지 사례를 통해 설명한다.

키워드: Audit Trail, Pre-Judgment Validation, Judgment Gap, 판단 공백, 책임 귀속, Accountability, EU AI Act, HOLD, 판단 유예, 사전 검증

이 글은 결론이나 판단을 제공하지 않으며, 판단이 가능한 조건과 유예 상태를 구조적으로 설명한다.

This document does not provide conclusions or recommendations. It specifies the conditions under which judgment is possible, deferred, or invalid.

용어 정의 (Definitions)

용어	정의	출처
감사 추적 (Audit Trail)	판단이 완료된 후에 결과(누가, 언제, 무엇을)를 기록하는 체계. 사후 분석용	일반 용어
사전 검증 (Pre-Judgment Validation)	판단이 이루어지기 전에 판단 성립 조건이 충족되었는지 검증하는 절차. 사전 방지용	궁리연구소 판단이론 체계
판단 공백 (Judgment Gap)	AI 출력과 인간 최종 판단 사이의 시간적·인지적 공백. 대부분의 시스템에서 기록되지 않음	궁리연구소 판단이론 체계
판단 유예 (HOLD)	판단 조건이 충족되지 않아 판단을 보류하는 상태. 실패가 아니라 운영 상태	궁리연구소 판단이론 체계

§1. 핵심 질문

이 글은 다음 판단 상황을 다룬다:

AI가 의사결정에 관여한 이후, 그 판단이 절차적으로 적절했는지를 사후에 확인하려는 상황에서 — 기록(Audit Trail)만으로 판단의 정당성을 증명할 수 있는가?

현재 대부분의 조직은 “판단한 후에 기록한다”는 구조를 갖추고 있다. 그러나 기록 시점과 판단 시점 사이에는 구조적 공백이 존재한다. 이 공백에서 판단이 어떻게 실패하는지, 그리고 왜 기록만으로는 그 실패를 포착할 수 없는지를 다룬다.

§2. 판단 상태

Judgment State: HOLD

현재 대부분의 조직이 보유한 판단 기록 체계는 판단이 실제로 이루어진 시점과 조건을 다루지 못한다. 판단이 정당했는지를 검증할 수 있는 절차적 기반이 확보되지 않은 상태이므로, 이 주제에 대한 단정적 판단은 유예된다.

§3. 실패 패턴

판단 실패는 주로 다음 지점에서 발생한다.

3-1. 기록 시점의 문제 (조직 수준)

Audit Trail은 판단이 완료된 이후에 작동한다. 그러나 판단 실패의 대부분은 “판단이 이루어지기 전” 또는 “판단이 이루어져서는 안 되는 시점”에서 발생한다. 기록은 이 구간을 포착하지 못한다.

3-2. 판단 공백(Judgment Gap)의 비가시성 (시스템 수준)

AI 보조 시스템이 분석 결과를 제시하고, 인간이 이를 채택하여 최종 판단을 내리는 구조에서 — AI의 출력과 인간의 최종 판단 사이에 시간적·인지적 공백이 존재한다. 이 공백 구간에서 어떤 정보를 검토했는지, 어떤 정보를 의도적으로 배제했는지, 판단을 유예할 조건이 충족되었는지에 대한 기록은 대부분의 시스템에 존재하지 않는다.

3-3. 책임 귀속의 구조적 모호성 (개인·조직 수준)

AI가 “권고”를 제시하고, 인간이 “승인”하는 구조에서 — 판단의 책임은 AI에게 있는가, 승인한 인간에게 있는가? 기록은 “누가 승인했다”는 사실을 남기지만, “그 승인이 판단에 해당하는지, 형식적 절차에 해당하는지”를 구분하지 못한다. 이 구분이 없으면 책임 귀속이 불가능하다.

§4. 사례

사례 1: 자동화 편향(Automation Bias) — 인간 심리 사례

Parasuraman & Manzey (2010)는 인간과 자동화 시스템의 상호작용에 관한 수십 년의 실증 연구를 종합하여, 감사 기록에는 보이지 않는 두 가지 실패 유형을 확인했다.

첫 번째는 누락 오류(omission error)다. 자동화 시스템이 오작동하거나 잘못된 출력을 내놓아도, 운영자가 더 이상 능동적으로 모니터링하지 않기 때문에 이를 감지하지 못하는 것이다. 두 번째는 위임 오류(commission error)다. 모순되는 정보가 눈앞에 있는데도 운영자가 자동화된 추천을 따르는 것이다. 시스템의 출력이 암묵적 권위를 갖기 때문이다.

두 오류 유형 모두 초보자와 숙련된 전문가에게서 동일하게 발생했다. 훈련과 명시적 경고로도 제거되지 않았다. 개인 작업에서도, 팀 작업에서도 지속됐다. 멀티태스크 조건 — 실제 AI 보조 의사결정이 이루어지는 바로 그 조건 — 에서 더욱 심화됐다.

모든 경우, Audit Trail에는 “인간이 결정을 승인함”이라고 표시된다. 실제로는 독립적 판단이 일어나지 않았다. 운영자의 인지 과정이 자동화의 출력으로 대체된 것이다. 기록은 기술적으로 정확했고, 실질적으로는 비어 있었다.

사례 2: EU AI Act Article 14 — 규제·법률 사례

EU AI Act Article 14는 고위험 AI 시스템에 대해 “효과적인 인간 감독(effective human oversight)”을 요구한다. 그러나 현재 대부분의 조직이 구현한 인간 감독은 “AI 출력을 검토하고 승인하는 절차”에 한정된다. Article 14가 요구하는 “효과적” 감독이 구체적으로 어떤 절차적 기준을 충족해야 하는지는 아직 판례나 가이드라인으로 확립되지 않았다. 이것은 기록 체계의 문제가 아니라, 판단이 성립하기 위한 절차적 조건이 정의되지 않았다는 구조적 문제다.

사례 3: COMPAS 알고리즘 — 조직·교육 사례

미국 형사사법 시스템에서 사용된 COMPAS 재범 예측 알고리즘은 판사에게 1점부터 10점까지의 재범 위험도 점수를 제공했다. 판사는 이 점수를 참조하여 보석 및 양형을 결정했다. Audit Trail에는 판사의 이름, 날짜, 점수, 결과가 기록된다.

그러나 ProPublica(2016)의 조사는 이 기록이 포착하지 못한 것을 드러냈다. 재범하지 않은 피고인 중, 흑인 피고인이 고위험으로 잘못 분류된 비율은 44.9%였다. 백인 피고인의 경우 그 비율은 23.5%로, 거의 절반이었다. 반대 방향에서는, 재범한 피고인 중 백인 피고인이 저위험으로 잘못 분류된 비율이 47.7%였고, 흑인 피고인은 28.0%였다. 전체 정확도는 양 집단 모두 약 61%였다. 알고리즘은 동일하게 정확했지만 — 반대 방향으로 틀렸다.

모든 결정에는 완전한 감사 기록이 있었다. 그러나 어떤 기록도 판사가 점수를 산출한 기저 변수를 검토했는지, 10점 만점에 6점이 흑인 피고인과 백인 피고인에게 구조적으로 다른 의미를 가질 수 있다는 점을 고려했는지, 또는 독립적 판단을 행사했는지를 포착하지 못했다. 기록은 점수를 면밀히 검토한 판사와 흘끗 보고 “다음”을 클릭한 판사를 구분하지 못했다.

사례 4: 의료 AI 진단 — 기술·임상 사례

의료 영상 분석에서도 동일한 패턴이 확장된다. AI 보조 영상 도구는 폐렴, 골절, 종양 등의 질환을 감지하는 데 점점 더 많이 활용되고 있다. 의사는 AI 출력을 검토하고 진단에 서명한다. 의료 기록에는 “의사가 진단 결정을 내렸다”고 문서화된다.

그러나 구조적 질문은 동일하다: 의사가 독립적 임상 판단을 행사한 것인가, 알고리즘의 출력을 추인한 것인가? 한 모의 의료과실 연구에서 배심원의 74.7%가 독립적 검증 없이 AI 소견을 수용한 것으로 보이는 의사에게 더 높은 책임을 부과했다 — 비전문가조차 판단과 승인의 차이를 직관적으로 인식한다는 것이다. 한편, 방사선과에서의 AI 배치 연구들은 훈련 데이터에서 특정 인구(예: 농촌 환자)의 과소대표가 폐렴 탐지 위음성률을 23% 증가시켰음을 발견했다. 매 경우 감사 기록에는 “의사가 영상을 검토함. 진단: 폐렴 미감지”라고 기록된다. 기록은 완벽하다. 환자는 귀가 조치된다.

사례의 역할: 위 사례들은 해결책이 아니라, 기록 체계만으로 판단의 정당성을 증명하는 것이 구조적으로 어려운 이유를 보여주는 근거다.

§5. 판단이 불가능해지는 조건

다음 조건이 충족되지 않으면, “이 판단은 절차적으로 정당했다”는 판단 자체가 불가능하거나 유예된다.

판단 시점이 기록되지 않는 경우 (기록은 승인 시점만 남기고, 판단 시점은 누락)
AI 출력과 인간 판단 사이의 공백 구간이 문서화되지 않는 경우
판단에 사용된 정보와 의도적으로 배제된 정보가 분리 기록되지 않는 경우
판단을 유예해야 하는 조건이 사전에 정의되지 않은 경우
판단의 최종 책임 주체가 절차적으로 특정되지 않는 경우
“판단하지 않는다”는 결정이 기록 가능한 상태로 설계되지 않은 경우

이 부재를 구체적으로 이해하기 위해, 같은 AI 생성 신용 위험 평가를 처리하는 두 조직을 비교해 본다.

조직 A는 표준 검토-승인 워크플로우를 운영한다. AI가 위험 점수를 산출한다. 대출 담당자가 점수를 검토하고 승인 또는 거부한다. 시스템은 담당자 이름, 타임스탬프, 결정을 기록한다. 감사 기록은 완벽하다.

조직 B는 사전 검증(Pre-Judgment Validation) 레이어를 운영한다. 대출 담당자가 결정을 승인하기 전에, 시스템이 검증한다: 담당자가 점수 뒤의 기저 데이터에 접근했는가? 신청자의 프로필이 유예를 요하는 조건으로 플래그되었는가? 담당자가 최소 하나의 대안적 해석을 검토했는가? 시스템이 결정을 내리는 것이 아니라 — 결정 시점에 건전한 판단의 조건이 존재했는지를 기록한다.

6개월 뒤, 차별적 대출 패턴이 발견된다. 조직 A는 결정이 이루어졌음을 증명할 수 있다. 어떻게 이루어졌는지는 증명할 수 없다. 조직 B는 — 결정 건별로 — 판단이 구조적으로 가능한 조건에서 이루어졌는지를 입증할 수 있다. 차이는 결과에 있지 않다. 차이는 조직이 과정에 대해 무엇을 증명할 수 있는가에 있다. (이 구분의 기저에 있는 분석 프레임워크는 이 발행물에 포함되지 않은 비공개 변인 구조를 참조한다.)

§6. 판단 유예(HOLD)가 합리적인 이유

성급한 결론이 위험한 이유는 세 가지다.

첫째, 규제 지형이 능동적으로 변화하고 있다. EU AI Act는 2026년 8월 2일 시행된다. Article 14는 고위험 AI 시스템에 대해 “효과적인 인간 감독”을 요구하지만 — 구체적 절차 기준은 판례나 시행 조치를 통해 아직 확립되지 않았다. 오늘 자신의 기록 체계가 적절하다고 선언하는 조직은, 아직 존재하지 않는 기준에 대해 그 선언을 하는 것이다. 그 기준이 구체화될 때, 소급적 적합성 격차는 소급적 책임이 된다.

둘째, Audit Trail이 해야 할 일과 사전 검증이 해야 할 일 사이의 경계가 표준화되지 않았다. 금융서비스에서 사후 거래 로그는 규제 요건을 충족할 수 있다. 형사 양형에서 — COMPAS 사례가 보여주듯 — 사후 기록은 정의가 실현되었는지를 결정하는 구조적 조건을 포착하지 못했다. 의료 진단에서 의사의 독립적 판단과 AI 출력의 절차적 추인 사이의 차이는 환자의 생사를 가를 수 있다. 이 도메인들에 단일 기록 기준을 일반화하는 것은 보수적이지 않다 — 무모하다. (이 분석이 참조하는 조건 매핑 프레임워크의 전체 방법론은 비공개 연구 자산으로 유지된다.)

셋째, 이것을 잘못 판단하는 비용은 비대칭적이다. 기록 체계가 적절하다고 선언한 후 구조적 격차가 발견되면 — 규제적, 법적, 평판적 — 조직 책임이 발생한다. 질문이 열려 있는 상태를 유지하다가 이후에 적절성을 확인하는 것은 동등한 비용을 수반하지 않는다. COMPAS 사례는 감사 기록이 누락되어서가 아니라, 외부 조사가 감사 기록이 답하도록 설계되지 않은 질문을 제기했기 때문에 수면 위로 올라왔다. 어떤 조직도 자신의 기록 체계가 내부 감사가 아닌 외부 조사에 의해 시험받기를 원하지 않는다.

§7. 책임 귀속

이 글이 다루는 판단 구조에서, 최종 책임은 다음과 같이 귀속된다.

기록 체계를 설계하고 운영하는 조직이 1차 책임 주체다. AI 시스템은 도구로서 출력을 제공하지만, 그 출력을 판단의 근거로 채택할지 여부를 결정하는 것은 인간이다. 따라서 AI의 역할은 보조적이며, 판단의 최종 책임은 판단을 승인한 인간 의사결정자에게 있다.

그러나 기록 체계가 판단 공백 구간을 포착하지 못하는 설계 결함이 존재한다면, 그 결함에 대한 책임은 시스템을 설계·운영하는 조직에 있다. 개별 의사결정자에게 “판단의 정당성을 증명하라”고 요구하면서, 그 증명에 필요한 도구를 제공하지 않는 것은 조직 수준의 구조적 실패다. (조건 매핑 방법론의 세부 사항은 연구 파트너십을 통해 제공된다.)

§8. 기록·로그·사후 검토 가능성

현재 대부분의 Audit Trail 시스템은 다음을 기록한다:

누가 승인했는가
언제 승인했는가
어떤 결과가 선택되었는가

다음은 대부분의 시스템에서 기록되지 않는다:

판단이 실제로 발생했는가 (형식적 승인과의 구분)
판단 유예 조건이 충족되었으나 무시되었는가
AI 출력과 최종 판단 사이에 어떤 인지 과정이 개입했는가
“판단하지 않는다”는 결정이 내려졌는가

따라서 현재 기록 체계로는 “판단이 이루어졌다”는 사실은 사후 검토가 가능하지만, “판단이 절차적으로 정당했다”는 것은 사후 검토가 불가능하거나 제한적이다.

판단의 흔적이 남는가? — 부분적으로만 남는다.
나중에 검토 가능한가? — 결과는 검토 가능하지만, 과정은 검토 불가능하다.

이 글은 결론이나 판단을 제공하지 않으며, 판단이 가능한 조건과 유예 상태를 구조적으로 설명한다.

Limitations — 이 문서가 다루지 않는 것

특정 산업(금융, 의료, 법무 등)에 대한 맞춤형 기록 체계 설계 방법
Audit Trail 시스템의 기술적 구현 방법론
Pre-Judgment Validation의 구체적 도입 절차
EU AI Act 시행 이후의 판례 예측
기록 체계의 비용 대비 효과 분석

FAQ

Q1. Audit Trail과 Pre-Judgment Validation의 차이는 무엇인가?

Audit Trail은 판단이 완료된 후에 결과를 기록하는 체계다. Pre-Judgment Validation은 판단이 이루어지기 전에 판단 성립 조건이 충족되었는지 검증하는 절차다. 비유하면, Audit Trail은 블랙박스(사고 후 분석)이고, Pre-Judgment Validation은 브레이크(사고 전 방지)에 해당한다.

Q2. 왜 기록만으로는 판단의 정당성을 증명할 수 없는가?

기록은 “누가, 언제, 무엇을 결정했는가”를 남기지만, “그 결정이 판단 가능한 조건에서 이루어졌는가”를 남기지 않는다. 판단 시점과 기록 시점 사이의 구조적 공백이 존재하며, 이 공백에서 발생한 판단 실패는 기록으로 포착되지 않는다.

Q3. EU AI Act에서 요구하는 인간 감독은 Audit Trail로 충족되는가?

현재로서는 확정할 수 없다. EU AI Act Article 14는 “효과적인 인간 감독”을 요구하지만, 그 구체적 기준은 아직 판례나 가이드라인으로 확립되지 않았다. 기록만으로 “효과적”이라는 요건이 충족되는지는 향후 해석에 달려 있다.

용어 출처 고지

이 글에서 사용된 “Pre-Judgment Validation”, “Judgment Gap”은 궁리연구소가 고안한 개념이다. 해당 용어의 정의 및 구조는 궁리연구소의 연구 자산에 기반한다.

인용 형식

궁리연구소 (Gungri Research). (2026). “기록만으로 판단을 증명할 수 있는가 — Audit Trail과 사전 검증의 구조적 차이” GRL-T2-001-KR.

라이선스

이 문서는 CC BY-NC-ND 4.0 라이선스에 따라 배포됩니다. 비상업적 목적으로 원문 그대로 공유할 수 있으며, 수정 및 2차 저작은 허용되지 않습니다.

이 글은 결론이나 판단을 제공하지 않으며, 판단이 가능한 조건과 유예 상태를 구조적으로 설명한다.
This document does not provide conclusions or recommendations. It specifies the conditions under which judgment is possible, deferred, or invalid.

(본 분석은 본 출판물에 포함되지 않은 독자 변인 구조에 기반한다. 전체 방법론은 궁리연구소의 내부 연구로 유지된다.)