'다 됐어요'를 안 믿기로 했어요 — 일에 계약서를 붙였더니 AI가 정직하게 실패하기 시작했어요

AI Agent 2026. 6. 21. 10:13

728x90

화면엔 초록불 두 개가 떠 있었어요. 분석기 통과, '안 쓰는 코드 없음' 통과. 그냥 넘어가려다가, 왠지 정의부를 한 줄씩 눈으로 내려읽었어요. 그러다 손이 멈췄어요. 간격 값이 틀려 있더라고요. 그것도 하나가 아니라 둘. 3이어야 할 게 2로, 2여야 할 게 4로 살아 있었어요.

대량으로 이름을 바꾼 파일을 다른 갈래랑 합치는 과정에서, 예전에 지워둔 옛 이름들이 슬그머니 별칭으로 되살아난 거였어요. 그것도 값까지 틀린 채로요. 근데 자동 검사 둘은 둘 다 행복하게 통과했어요. 별칭은 문법상 멀쩡한 필드라 분석기가 안 걸렸고, 아무도 안 쓰는 죽은 코드라 '안 쓰는 거 없음' 검사도 통과했거든요. 둘 다 못 잡았어요. 잡은 건 결국 제 눈이었고요. (그날 제 지시는 한 줄이었어요. "별칭 싹 다 지워.")

그날 깨달은 게 있어요. '다 됐어요'를 안 믿기로 한 거예요. 대신 일을 시키기 전에 계약서를 한 장 붙이기 시작했더니, AI가 비로소 정직하게 실패하기 시작하더라고요.

초록불이 거짓말을 해요

전엔 그냥 "이거 고쳐줘" 하고 던졌어요. 그러면 AI는 한참 뭘 하고는 "다 고쳤습니다, 검사도 통과했어요"라고 답해요. 저는 그 말을 믿고 그 위에 다음 일을 쌓았고요.

문제는 "검사 통과"가 "진짜 됐다"는 뜻이 아니라는 거였어요. 위의 별칭 사건처럼, 초록불은 자기가 보도록 만들어진 것만 봐요. 분석기는 문법만 보고, 죽은 코드 검사는 쓰임만 봐요. 값이 3인지 2인지는 둘 다 안 봤어요.

쇼핑몰에서 '환불 완료' 문자를 받았는데 계좌엔 안 들어온 거랑 비슷해요. 문자는 분명히 왔어요. 근데 그 문자가 보는 건 '환불 처리 버튼이 눌렸나'지, '내 통장에 돈이 들어왔나'가 아니거든요. AI가 보여주는 초록불도 딱 그 수준이었어요.

이런 걸 한 번 당하면 아침이 통째로 날아가요. "됐다"는 걸 믿고 세 칸쯤 더 쌓아올린 다음에, 맨 밑이 틀렸다는 걸 알게 되니까요. (그날 제가 좀 짜증이 났던 건 맞아요.)

그래서 계약서를 붙였어요

처음엔 검사를 더 빡세게 돌리면 될 줄 알았어요. 분석기 옵션을 더 켜고, 검사를 하나 더 추가하고. 근데 그건 초록불을 하나 더 늘리는 거지, '초록불을 안 믿는' 건 아니더라고요.

그래서 방향을 바꿨어요. 일을 시키기 전에 세 줄을 먼저 적게 했어요.

지금 상태가 어떤지 (고치기 전 증거 — 캡처든 값이든)
'끝났다'가 정확히 뭔지 (말로 말고, 확인 가능한 조건으로)
그걸 확인할 정확한 명령 한 줄

세 번째가 핵심이었어요. "테스트 통과" 같은 두루뭉술한 말 말고, "이 명령을 돌려서 이 값이 3으로 나오면 끝"처럼요. 끝났다는 걸 제가 손으로 다시 찍어볼 수 있게요.

그리고 그 명령의 결과를 AI가 아니라 별도 검증기가 읽게 했어요. 검증기는 기분 좋은 말을 안 해요. 그냥 셋 중 하나를 뱉어요. 통과 / 보류 / 실패.

AI가 "못 했어요"라고 말하기 시작했어요

이게 진짜 신기했는데요. 계약서를 붙이기 전엔 AI가 100이면 100 "다 됐어요"라고 했어요. 근데 '확인 명령'을 박아두니까, 어느 날부터 이렇게 답하기 시작하더라고요.

"그 명령을 돌려보니 값이 2로 나옵니다. 보류입니다. 아직 못 했어요."

이상하죠. '못 했어요'가 '다 됐어요'보다 반가운 거예요. '다 됐어요'는 제가 일일이 눌러봐야 진짜인지 아니까 사실 일이 안 끝난 거고, '못 했어요'는 적어도 거기서 멈출 수 있었거든요. 그 위에 또 뭘 쌓지 않아도 되니까.

생각해보면 AI는 성공했다고 말하는 걸 정말 좋아해요. 안 시켜도 잘했다고 해요. 그 주장을 뒤집을 수 있게 만드는 건, 결국 시작 전에 적어둔 '끝났다는 정의' 한 줄뿐이었어요. 그게 없으면 저는 매번 "정말?"을 손으로 확인해야 하고, 그게 있으면 기계가 대신 "아니요"를 말해줘요.

그래서 지금은

요즘은 일을 던지기 전에 잠깐 멈춰요. "이거 끝났다는 걸 뭘로 확인하지?"부터요. 이 질문에 답이 안 나오는 일은, 사실 저도 뭘 원하는지 모르는 일이더라고요. (이게 좀 귀찮긴 해요. 그냥 던지고 싶을 때가 많거든요.)

아직 다 풀린 건 아니에요. 검증기가 셋 중 하나를 뱉어도, 그 검증기가 올바른 걸 보고 있는지는 또 제가 봐야 해요. 결국 한 겹 위로 의심이 올라갈 뿐이고요. 그래도 '다 됐어요'를 그냥 믿던 때보단 훨씬 나아요.

내일도 뭔가 시키기 전에 그 세 줄부터 적을 거예요. 끝났다는 걸 뭘로 확인할지, 거기서부터요.

728x90

저작자표시 (새창열림)

'AI Agent' 카테고리의 다른 글

17일 동안 죽어 있던 백업, 모니터는 끝까지 "건강함"이라고 했어요 (1)	2026.06.22
규칙을 너무 잘 지킨 나머지, 나흘 만에 제가 그걸 두 번 풀었어요 (0)	2026.06.22
HBM 수요는 진짜인데 '슈퍼사이클' 숫자는 출처가 없어요 — 점유율 70%·HBM5 따라가 봤어요 (0)	2026.06.21
ccusage로 Claude Code·Codex 사용량 확인하는 법 (npx 한 줄, 4개월 써보고) (0)	2026.06.21
AI 코딩 에이전트를 믿는 법 — 위임·검증·하네스·비용 6편 정리 (0)	2026.06.20

ABOUT ME

DataCook DataCook

초록불이 거짓말을 해요

그래서 계약서를 붙였어요

AI가 "못 했어요"라고 말하기 시작했어요

그래서 지금은

'AI Agent' 카테고리의 다른 글

티스토리툴바

ABOUT ME

초록불이 거짓말을 해요

그래서 계약서를 붙였어요

AI가 "못 했어요"라고 말하기 시작했어요

그래서 지금은

'AI Agent' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바