[게임 QA] "유저 VOC 수백 건, 버그인지 불만인지... AI로 40분 만에 분류하는 법"

◀ 이전 회차: 12개국 번역 스트링, 변수 깨짐을 AI가 1차 필터링해준다고?


1. 사건의 발단 (Case Study)

🎙️ 미니 인터뷰: "유저가 '버그'라고 태깅한 게 진짜 버그일까?"

Q. CS팀에서 VOC 분류를 부탁받았다고요. 유저가 접수할 때 태깅을 하지 않나요?

하죠, 유저가 VOC 보낼 때 '버그 신고', '건의 사항', '문의' 이런 카테고리를 선택하게 되어 있어요. 근데 문제는 그 태깅을 그대로 믿을 수가 없다는 거예요. 유저가 '버그'로 넣었는데 실제로는 게임 시스템을 잘 모르고 한 오해인 경우가 엄청 많거든요.

'아이템이 안 나와요'라고 버그로 신고했는데, 확인해보면 그냥 드롭 확률이 원래 낮은 거였다거나... 반대로 '건의 사항'으로 넣었는데 내용을 읽어보면 분명히 재현 가능한 버그인 경우도 있어요.

Q. 그러면 유저 태깅은 1차 필터링 정도인 건가요?

맞아요. CS팀에서는 유저 태깅을 기준으로 응대하시거든요, '버그'로 들어온 건 QA한테 넘기고, '문의'로 들어온 건 자체 답변하고. 근데 그 태깅 자체가 정확하지 않으니까, 내부 안건으로 올리려면 QA가 2차 분류를 해야 해요.

유저가 '버그'라고 한 300건 중에 진짜 버그는 40~50건이고, 나머지는 오해나 불만인 경우가 태반이거든요. 그걸 안 걸러내고 개발팀에 넘기면 개발팀에서 "이거 버그 아닌데?" 하고 돌아와요. 반대로 '건의'로 들어온 것 중에 버그를 놓치면 라이브에서 터지고요.

Q. 그 2차 분류가 왜 이렇게 시간이 걸리는 거예요?

유저 태깅이랑 실제 내용이 안 맞는 걸 한 건 한 건 읽으면서 재분류해야 하니까요. '강종됐어요'랑 '튕겨요'랑 '앱이 꺼져요'가 같은 크래시인데 유저마다 표현이 다르고, '아이템이 이상해요'가 인벤토리 버그인지 밸런스 불만인지도 내용을 읽어봐야 알 수 있어요.

수백 건을 읽으면서 유저 태깅을 QA 기준으로 재분류하고, 중복을 찾아 묶고, 심각도를 매기는 게 하루 꼬박이에요. 그거 끝나면 버그 후보만 다시 추려서 개발팀 전달 리스트까지 만들어야 하니까... 사실상 이틀은 잡아야 하는 거였어요.

Q. 본업이랑 병행하기 힘들겠네요.

그게 문제죠. QA 본업이 있는데 CS팀 요청까지 받은 거니까, 둘 다 야근 없이 끝내려면 방법이 필요했어요. 예전 같았으면 '이거 하루 종일 걸릴 것 같은데...' 하고 주말에 하겠다고 했을 텐데,

이번엔 좀 달랐어요. '유저 태깅이랑 원문을 비교해서 재분류하는 건 패턴이 있는 작업이니까, AI한테 맡겨볼 수 있지 않을까?' 하는 생각이 먼저 들더라고요.


2. 문제 해결을 위한 레시피 (Solution)

🩺 마스터의 진단

하은 씨의 핵심 병목은 유저 태깅을 신뢰할 수 없어서 생기는 '2차 분류' 작업에 있습니다. 유저가 '버그'로 태깅했지만 실제로는 게임 시스템에 대한 오해인 경우가 많고, 반대로 '건의'로 들어온 것 중에 실제 버그가 숨어 있기도 합니다. 이걸 가려내려면 유저 태깅과 원문 내용을 하나하나 대조하면서 QA 기준으로 재분류해야 하는데, 이 작업이 하루 꼬박 걸리는 거죠.

이 판단 기준은 명확한 규칙으로 정리할 수 있어서 AI에게 맡기면 전체 VOC를 한 번에 재분류·심각도·관련 기능까지 표로 뽑아낼 수 있습니다.

[Step 1] CS팀에서 받은 VOC 스프레드시트 준비하기

CS팀에서 전달받은 VOC 스프레드시트를 엽니다. VOC 번호, 접수일, 유저 선택 카테고리(버그/문의/건의 등), 유저 원문 메시지가 포함된 열을 확인하고, 이번 업데이트 이후 접수분만 필터링합니다. 유저 태깅 열은 그대로 유지합니다 — AI가 유저 태깅과 실제 내용을 비교하면서 재분류할 수 있도록. 행이 300건 이상이면 100건씩 나눠서 텍스트를 복사합니다.

⚠️ 사내 보안 주의: VOC 데이터에는 유저 닉네임, 결제 정보, 미출시 콘텐츠 관련 불만 등 민감 정보가 포함될 수 있습니다. AI 도구(ChatGPT)의 무료 플랜은 입력 데이터가 학습에 사용될 수 있으니, 사내 보안 정책을 먼저 확인하세요.

유저 닉네임은 'User_001' 등으로 치환하고, 미출시 콘텐츠명은 일반 표현으로 변환한 뒤 입력하는 것을 권장합니다.

이번에는 임의로 생성한 샘플 데이터를 이용해서 실행해 보도록 하겠습니다.

[Step 2] ChatGPT에 VOC 분류 프롬프트 입력하기

ChatGPT(chatgpt.com)에 접속해서 아래 프롬프트를 복사합니다. [VOC 데이터] 자리에 준비한 데이터를 붙여넣고 전송합니다. 100건씩 나눠 입력할 경우, 두 번째 입력부터는 '같은 분류 기준으로 이어서 분류해줘'라고 추가합니다.

[역할]
너는 모바일 게임 QA 시니어 분석가야. 유저 VOC(Voice of Customer)를 읽고 버그 제보, 사용법 문의, 개선 요청, 단순 불만을 정확하게 구분하는 데 전문이야. 유저가 직접 선택한 카테고리(버그/문의/건의 등)가 있지만 이건 신뢰할 수 없어 — 유저 태깅과 실제 내용을 비교해서 QA 기준으로 재분류하는 게 핵심이야.

[임무]
아래 유저 VOC 목록을 2차 분류해줘. 유저가 선택한 카테고리가 있으면 참고하되, 원문 내용을 기준으로 QA 관점에서 재분류해. 유저 태깅과 실제 분류가 다른 경우 비고란에 '태깅 불일치' 표시.

[분류 기준]
1. 버그 제보: 게임이 의도대로 동작하지 않는 현상 보고 — 크래시, 기능 오작동, 데이터 미반영, 보상 미지급 등
2. 버그 의심: 버그일 수 있지만 유저 환경이나 조작 실수 가능성도 있어서 재현 확인이 필요한 경우
3. 사용법 문의: 게임 기능을 모르거나 UI를 못 찾아서 질문하는 경우 (CS 답변으로 해결 가능)
4. 개선 요청: 현재 동작은 정상이지만 더 나은 UX나 편의 기능을 원하는 경우
5. 불만/감정: 밸런스, 과금, 매칭 등에 대한 감정적 불만 (기능 오류 아님, CS 응대 대상)
6. 중복: 이미 위에서 분류한 건과 같은 현상을 다른 표현으로 신고한 경우 (원본 VOC 번호 표기)

[비고란 작성 규칙]
- 유저 태깅과 QA 재분류가 다른 경우: '태깅 불일치 — [이유]' (예: '태깅 불일치 — 유저가 버그로 신고했으나 드롭 확률 정상 범위')
- 버그 의심인 경우: 의심 근거와 확인 필요 사항 (예: '특정 기기에서만 발생 가능성 — 기기 정보 없어 재현 확인 필요')
- 중복인 경우: 원본 VOC 번호 (예: 'VOC-023과 동일 현상')

[심각도 기준 — 버그 제보/버그 의심에만 적용]
- 긴급: 앱 크래시, 유저 데이터 소실, 결제 오류 (즉시 핫픽스 대상)
- 높음: 핵심 콘텐츠 진행 불가, 보상 미지급, 매칭 실패 (당일 확인)
- 보통: 비핵심 UI 깨짐, 연출 누락, 텍스트 오류 (스프린트 내 처리)
- 낮음: 사소한 표시 이상, 편의성 부족 (백로그)
- 해당없음: 버그가 아닌 건

[출력 형식]
## 전체 분류 결과
| VOC번호 | 유저 태깅 | 원문(축약) | QA 재분류 | 추정 원인 | 심각도 | 관련 기능 | 비고 |

## 카테고리별 요약
| 카테고리 | 건수 | 비율(%) | 대응 부서 |

## 개발팀 전달용 — 버그 우선순위 리스트
"버그 제보"와 "버그 의심"만 모아서 심각도 순으로 정렬:
| 우선순위 | VOC번호 | 현상 요약 | 심각도 | 관련 기능 | 재현 조건(추정) | 중복 건수 |

[VOC 데이터]
(여기에 유저 VOC를 붙여넣으세요 — VOC 번호, 유저 선택 카테고리, 원문 메시지를 포함)

[Step 3] 분류 결과 검토 후 개발팀 전달하기

AI가 분류한 결과에서 '버그 제보'와 '버그 의심' 항목을 먼저 확인합니다. 추정 원인이 맞는지 QA 관점에서 검토하고, 잘못 분류된 건이 있으면 카테고리를 수정합니다. 개발팀 전달용 우선순위 리스트는 그대로 복사해서 버그 트래커에 등록하거나 슬랙으로 공유합니다.


3. 결과 (Result)

  • 핵심 수치: 유저 VOC 300건 분류: 하루(8시간) → 40분

  • 주요 특징:

    • 1. 유저 태깅과 원문 내용을 비교해 QA 기준으로 자동 재분류 + 태깅 불일치 표시

    • 2. 같은 현상의 다른 표현('튕겨요'/'강종'/'팅김')을 중복으로 자동 묶어 원본 번호 표기

    • 3. 버그 제보 + 버그 의심만 추출한 개발팀 전달용 우선순위 리스트 동시 생성

  • 시사점: VOC 분류에서 가장 시간을 잡아먹는 건 '읽는 것'이 아니라 '유저 태깅이 맞는지 검증하는 것'이었습니다. 유저가 '버그'라고 넣어도 절반은 오해이고, '건의'라고 넣어도 실제 버그가 숨어 있습니다. AI에게 유저 태깅과 원문을 함께 주면, 불일치를 자동 감지하고 QA는 재확인이 필요한 건만 직접 확인하면 됩니다.


4. 리뷰 (Review)

📊 AI 활용 비포 & 애프터 비교

단순히 요청했을 때와, 우리의 [마스터 프롬프트]를 사용했을 때의 결과물 차이를 확인해 보세요.

💡 Master's Secret: 결정적 차이를 만드는 프롬프트의 원리

💡 Master's TIP!

💡 유저 태깅은 1차 필터링이지 정답이 아닙니다. '유저 태깅과 실제 내용을 비교해서 재분류하라'고 명시하면, AI가 유저가 '버그'로 넣었지만 실제로는 오해인 건을 '사용법 문의'로 잡아내고, '건의'로 들어왔지만 내용상 버그인 건을 '버그 의심'으로 올려줍니다. '태깅 불일치' 표시를 요청하면 유저 인식과 실제 상태의 차이를 한눈에 볼 수 있습니다.

'버그 의심' 카테고리를 따로 둔 이유는, 확실한 버그와 애매한 건을 분리해서 QA가 직접 판단해야 할 건만 걸러내기 위해서입니다. 개발팀 전달용 리스트를 동시에 요청하면 재분류 후 다시 버그만 추려서 정리하는 2차 작업이 사라집니다.

💬 서하은 QA 테스터의 한마디

CS팀에서 스프레드시트 받았을 때, 유저 태깅으로 '버그'가 200건 넘게 들어와 있었거든요. 근데 이걸 그대로 개발팀에 넘기면 "이거 버그 아닌데?"가 절반은 돌아올 게 뻔했어요. AI한테 넣었더니 유저가 '버그'로 넣은 것 중에 실제 버그는 47건이고, 나머지는 사용법 오해나 밸런스 불만이라고 재분류해주는 거예요. 반대로 '건의'로 들어온 것 중에서도 3건이 '버그 의심'으로 올라왔고요. 태깅 불일치 표시까지 있어서 어디를 QA가 직접 봐야 하는지 바로 알 수 있었어요.

40분 만에 끝내고 개발팀한테 버그 리스트 넘겼더니, CS팀 매니저님이 '어떻게 한거냐'고 난리가 났어요 ㅎㅎ... 솔직히 귀찮은 일이 늘었다 싶긴 했지만, 인정받은 것 같아서 뿌듯했어요.


▶ SERIES FINALE

🎙️ 마무리 인터뷰: 서하은씨와의 시리즈를 돌아보며

Q. 이 시리즈를 통해 가장 크게 달라진 점이 있다면?

처음엔 TC 50개 쓰는 데 하루가 걸렸거든요. 기획서 펼치고 엑셀 열고... 끝이 안 보이는 느낌이었는데. 지금은 기획서를 보는 눈 자체가 달라졌어요. AI한테 초안을 맡기면서 '아, 이 부분은 경계값을 이렇게 잡아야 하는구나' 하고 제가 직접 판단하는 시간이 생긴 거예요. 예전엔 타이핑하느라 바빴는데, 지금은 '어디를 더 깊게 볼지' 생각할 여유가 생겼달까.

그리고 이번에 CS팀 도움까지 줬잖아요, 다른 팀에서 저한테 도움 요청이 온 건 처음이었거든요. QA가 버그만 잡는 팀이 아니라 데이터를 정리하고 분석할 수 있는 팀이라는 걸 보여준 것 같아서... 그게 가장 크게 달라진 점인 것 같아요.

Q. AI를 활용하면서 가장 좋았던 순간은 언제였나요?

버그 리포트 자동 작성할 때요. 시니어한테 검토 받을 때 항상 '재현 스텝 더 써', '여기 빠졌어' 하고 돌아왔거든요. 근데 AI로 정리한 리포트를 올렸더니 시니어가 '이거 어떻게 이렇게 깔끔하게 정리한 거야?'라고 처음 칭찬해주신 거예요. 그때 '아 이거 되는구나' 하고 확신이 생겼어요.

솔직히 그 전까지는 반신반의였거든요, AI가 진짜 도움이 되나... 근데 시니어 피드백 루프가 확 줄어드니까, 이건 진짜다 싶었어요.

Q. 아직 AI를 안 써본 동료에게 한마디 해주신다면?

사실 저도 ChatGPT는 전부터 쓰고 있었어요. 지브리 스타일 사진 만들어보고, 해외여행 갔을 때 번역기 대신 쓰고, 뭐 궁금한 거 있으면 검색 대신 물어보고... 다들 그 정도는 하잖아요. 근데 그건 그냥 '재미'거나 '편의'였지, 업무에 쓸 생각은 안 했거든요. 달라진 건 '정리해줘'가 아니라 '이런 모양으로 정리해줘'라고 말하게 된 거예요.

그냥 던지면 AI도 대충 답하거든요. 근데 '표로 만들어줘, 이 기준으로 나눠줘, 심각도도 붙여줘' 이렇게 내가 필요한 방식을 구체적으로 말하면 결과물이 완전히 달라져요. 프롬프트를 고민하면서 쓰게 되니까, 사실 그 과정 자체가 업무를 정리하는 거더라고요. 한 번 해보시면 알아요, 진짜로.

💬 서하은의 마지막 한마디

"AI는 도구일 뿐이에요. 어디가 아픈지 아는 건 매일 그 자리에 앉아 있는 우리니까요."

이 시리즈가 도움이 되셨다면, 같은 고민을 하고 있는 동료에게 공유해주세요.


📂 부록: 함께 읽으면 좋은 레시피 & 용어

◀ 이전 회차: 12개국 번역 스트링, 변수 깨짐을 AI가 1차 필터링해준다고?

▶ [게임 기획] 서브 퀘스트 30개를 2주 안에? AI로 시나리오 뼈대 10분 만에 잡기

▶ [콘텐츠 부업] "블로그 글 하나 쓰는 데 3시간... SEO 초안을 30분에 뽑는 법"

▶ [게임 기획] 서브 퀘스트 30개를 2주 안에? AI로 시나리오 뼈대 10분 만에 잡기


업데이트 때마다 쏟아지는 유저 VOC, 분류하다가 하루가 사라진 경험 있으시죠? 어떤 유형의 VOC가 가장 분류하기 애매한지 댓글로 남겨주시면 분류 팁을 공유해드릴게요!

2026.04.07.
1
1개의 답글