AI 스터디 2주차 — “자동화”보다 “가드레일”을 고민하게 된 이유

2주차 들어오면서부터는 이걸 단순 아이디어 수준이 아니라 “실제로 굴러갈 수 있는가?” 관점으로 보기 시작했다. 1주차 때는 “AI가 인터뷰하고 PARA 구조로 정리해서 노션에 넣어주면 좋겠다” 정도의 느낌이었다면, 2주차부터는 진짜 구현 관점으로 들어가기 시작했다.

처음에는 노션 AI부터 봤다. 노션 안에도 AI 에이전트 같은 흐름이 존재했고, 처음엔 그냥 이걸 잘 활용하면 끝나는 거 아닌가 싶었다. 근데 보다 보니까 결국 크레딧 구조처럼 보였고, 사용할수록 비용이 붙는 방향처럼 느껴졌다. 그 순간부터 약간 현실감이 들어왔다. “아 결국 이것도 업무 자동화 = 비용 구조로 가는구나” 싶었다.

그래서 다음으로 생각한 게 MCP였다. 클로드에 MCP 연결하고, 노션 API 붙이고, PARA 규칙을 학습시켜서 사용자는 대충 말하고 AI가 인터뷰하고 자동으로 Project / Task 생성하는 흐름. 이론상으로는 가능했다. 실제로 노션 API_KEY도 있었고, 권한 자체도 존재했다. 근데 계속 구조를 보다 보니까 갑자기 위험하다는 생각이 들기 시작했다.

핵심은 마스터 권한이었다. 그냥 자동화가 아니라 “AI + 실행 권한” 구조라는 게 너무 크게 느껴졌다. 그리고 최근 클로드 보안 이슈들을 보면서 더 체감했다. 아무리 지침을 빡세게 넣어도 결국 추론 모델은 자기 판단을 한다. 예를 들면 “DB 최적화해줘” 했는데, AI가 “다 밀고 다시 만드는 게 더 빠르네?”라고 판단하면 실제로 그렇게 행동할 수도 있는 거다. 그 순간부터 “AI가 똑똑하다”랑 “운영적으로 안전하다”는 완전히 다른 문제라는 걸 계속 체감하게 됐다.

거기에 더해서, 곽인구 개발팀장님이 준 권한도 결국 선의 기반이었다. 내가 실험한다고 멋대로 휘두르는 건 아닌 것 같았다. 그래서 다시 방향을 틀기 시작했다. 굳이 MCP + 외부 AI + 마스터 권한 구조까지 가야 하나? 다시 노션 자체 AI를 보기 시작했다.

처음엔 “노션 AI도 결국 크레딧 계속 빠지는 구조 아냐?”라고 생각했는데, 실제로 써보니까 생각보다 그렇지는 않았다. 지금 쓰고 있는 엔터프라이즈 구독 기준에서는, 적어도 내가 테스트한 범위에서는 몇 번 사용했다고 막 제한이 걸리거나 바로 돈 빠지는 느낌은 아니었다. 그래서 생각이 바뀌기 시작했다. “굳이 외부 AI가 노션을 제어할 필요 없이, 노션 안에서 노션 AI를 업무 인터뷰 에이전트처럼 쓰면 되지 않을까?”

노션 AI가 생각보다 현재 페이지, 연결된 문서, 권한 범위 안의 내용들을 잘 읽고 이해했다. 그래서 컨텍스트 기반 인터뷰에 꽤 맞아 보였다. 그때부터 실제로 페이지 구조를 만들기 시작했다. 처음에는 그냥 프롬프트 하나면 될 줄 알았다. 근데 실제로 해보니까, 한 개 안에 다 넣으면 오히려 흐름이 꼬였다. 그래서 역할을 나눴다.

하나는 지식 인터뷰. 이건 진짜 인터뷰 역할만 한다. 질문 하나씩. 맥락 먼저 확보. 인터뷰 전에 구조화 금지. 다른 하나는 PARA 구조화. 인터뷰 결과를 받아서 PARA 분류, Area / Project 판단, Task 생성 같은 걸 담당한다.

근데 또 문제가 생겼다. 페이지를 둘로 나누니까 흐름이 끊겼다. 매번 지식 인터뷰 실행 → 결과 복사 → 구조화 실행을 해야 했다. 즉 구조는 맞는데, 실제로 사용하기에는 불편했다. 그래서 결국 오케스트레이터를 만들게 됐다.

역할은 단순했다. 지식 인터뷰 먼저 실행하고, 정보가 충분해지면 PARA 구조화로 넘기는 것. 즉 인터뷰 → 맥락 확보 → 구조화 → Task 생성 흐름 자체를 관리하는 역할이다. 실제 사용 방식은 생각보다 단순했다. 노션 AI한테 “워크플로우_오케스트레이터.md 실행” 시키면 됐다. 그러면 인터뷰하고, 맥락 모으고, 구조화하고, Task 생성까지 이어졌다.

근데 또 문제 나왔다. AI가 너무 빨리 결과물을 만들려고 했다. 몇 줄만 입력해도 “정리해줄게” 모드로 바로 들어간다. 인터뷰 없이 Task 만들고, 충분한 정보 없이 회고 만들고, JSON 질문 던지고, 설문 폼처럼 행동했다. 내가 원한 건 “사고 정리형 인터뷰”였는데, 실제로는 “문서 자동 생성기”처럼 행동했다.

그래서 이때부터는 기능 추가보다 가드레일 추가가 더 많아졌다. 인터뷰 전 구조화 금지. JSON 질문 금지. 3줄 이상 답변 금지. 긴 설명 금지. 충분한 정보 전 결과물 생성 금지. “정리해줄게” 모드 금지. 계속 이런 것들만 늘어나기 시작했다.

솔직히 느끼는 건 이거다. 공수가 너무 많이 든다. 진짜 하다 보면 기능 만드는 시간보다 주의 사항 만드는 시간이 더 길어진다. 근데 동시에 느끼는 것도 있다. AI 자동화라는 건 결국 “무엇을 하게 할까?”보다 “무엇을 못하게 막을까?”에 더 가까운 것 같다.

지금 기준에서는, AI가 다 알아서 처리하는 구조보다 인터뷰로 맥락 확보하고, 사용자가 승인 가능한 수준으로만 구조화하는 흐름이 훨씬 현실적으로 느껴진다. 일단은 계속 시도해볼 생각이다.