숏폼 영상 5시간을 30분에 — ChatGPT 대본 + Vrew 자동 편집

◀ 이전 회차: 인스타 캐러셀 하나에 주말 반나절... 카피부터 디자인까지 30분에 끝내는 법

1. 사건의 발단 (Case Study)

🎙️ 미니 인터뷰: 1분짜리 영상에 다섯 시간, 그중 세 시간이 자막이랑 편집이에요

Q. 블로그·인스타는 풀렸는데 숏폼은 어떻게 막혀 있는 거예요?

숏폼은 진짜 결이 다른 게요... 글이나 이미지는 한 단계만 풀면 끝이거든요. 숏폼은 단계가 네 개예요. 대본, 촬영, 자막, 편집. 1분짜리 영상 한 편에 다섯 시간이 들어가는데, 그중에 세 시간이 자막이랑 편집에 박혀 있어요. 새벽 한 시 넘어서까지 자막 한 줄을 영상에 정확히 박고 있다 보면 진짜 '내가 지금 뭐 하고 있나' 싶어요. 촬영은 한 번 찍으면 끝인데, 자막 타이밍 맞추는 건 끝이 안 나요.

Q. 그래도 요즘 ChatGPT한테 '숏폼 대본 써줘' 하면 금방 나오잖아요. 그건 안 써봤어요?

썼죠. 근데 두 가지 문제가 있더라고요. 하나는 ChatGPT가 짜준 대본 그대로 찍었더니 조회수가 240에서 멈췄어요. 광고 카피 같은 평범한 게 나와요. 다른 사람들 영상이랑 분명 뭔가 다른데, 그게 뭔지 짚어내지를 못하겠어요.
그리고 더 큰 문제는요... 어차피 대본이 한 시간 빨라져도, 진짜 시간 도둑인 자막이랑 편집 세 시간은 그대로 남아 있어요. 새벽 두 시까지 안 잘 거면 한 시간 줄어든 게 의미가 없어요. 진짜 막힌 데가 거기가 아니거든요.

Q. 그럼 텍스트만 넣으면 영상 자동으로 만들어주는 도구도 있잖아요. 그거 쓰면 진짜 30분 컷 아니에요?

솔깃하긴 했죠. 근데 한번 보고 마음 접었어요. 요즘 추천 피드에 뜨는 그런 영상들이요, 다 똑같은 AI 목소리에 똑같은 GIF만 갖다 붙인 거예요. 시간은 줄지만 그게 제 채널이라는 느낌이 안 들어요. 저는 제 얼굴, 제 목소리로 진짜 제 영상을 만들고 싶어서 부업 시작한 거거든요. 그래서 다시 그 5시간 굴레로 돌아왔어요.

Q. 그래서 지금 채널은 어떤 상태예요?

한 달에 1~2개가 진짜 한계예요. 주 2~3개는 올려야 알고리즘이 채널을 인식한다는데, 자막 타이밍 맞추다가 매번 새벽이라 그 빈도를 못 맞춰요. 안 올리니까 조회수 더 안 나오고, 안 나오니까 더 만들기 싫고. 솔직히 이번 달 안에 방법 못 찾으면 숏폼은 그냥 접을 생각도 하고 있었어요. 근데 접기 전에... 한 번만 더 시도해보고 싶어요.

2. 문제 해결을 위한 레시피 (Solution)

🩺 마스터의 진단

윤서영 씨의 숏폼 작업에서 가장 큰 병목은 두 갈래입니다. 첫째는 ChatGPT에 그냥 '대본 써줘'라고 시키면 평범한 광고 카피가 나오는 것 — 숏폼 알고리즘이 보는 룰(첫 3초 후킹·5초 비트·대사 호흡·무음 시청 전제)을 ChatGPT가 모르기 때문에, 그 룰을 프롬프트에 직접 박아넣어야 진짜 영상이 나오는 대본이 만들어집니다.
둘째는 대본을 확보해도 영상까지 가는 데 자막 타이밍 맞추기와 컷 편집에 3시간이 더 들어가는 점입니다. 여기서 핵심 트릭 하나 — 자막을 ChatGPT한테 따로 만들게 하지 말고, 대사 자체를 8~12자 호흡으로 끊어 말하게 시키는 거예요. 그러면 Vrew의 음성 인식이 그 호흡을 그대로 자막 한 줄 단위로 잡아주기 때문에, 자막 작업이 통째로 사라집니다. 대본은 ChatGPT가, 음성→자막 분할·편집은 Vrew가 — 그리고 본인 얼굴·목소리는 서영 씨가 그대로. AI에게 모든 걸 맡기지 않고 손이 가장 많이 가는 부분만 맡기는 구조입니다.

[Step 1] ChatGPT로 숏폼 알고리즘 룰 박힌 대본 한 번에 뽑기

ChatGPT(chat.openai.com)에 접속한 뒤, 아래 프롬프트를 입력합니다. [주제] 자리에 숏폼으로 만들 콘텐츠 주제를 넣으세요. 결과로는 시간 코드·화면 지시·대사가 분리된 풀 대본이 나오는데, 대사가 8~12자 호흡 단위로 끊겨 있어서 그대로 따라 말하면 됩니다.

[주제]
"여기에 숏폼 주제를 입력하세요" (예: 마케터가 절대 안 사는 마케팅 책 3권)

[채널/형식]
- 1분 이내 (60초 안에 끝나야 알고리즘이 띄움)
- 본인 출연 (얼굴 + 목소리, 책상 앞에서 카메라 보고 말하는 형식)
- 인스타 릴스 + 유튜브 쇼츠 + 틱톡 동시 업로드

[작성 규칙 — 숏폼 알고리즘 룰]
1. 첫 3초 후킹: 시청자가 스크롤 멈추도록 첫 문장에 [질문 / 충격적 사실 / 구체적 숫자] 중 하나 사용. "안녕하세요" 같은 인사말 절대 금지.
2. 5초 비트: 5초마다 흐름에 변화 (질문→답, 사례→결론, 문제→해결 식). 같은 톤으로 10초 넘지 않게.
3. 대사 호흡: 한 호흡(쉼표·마침표 단위)이 8~12자가 되도록 끊어 말함. 길게 이어지는 한 문장 금지. 이렇게 끊어 말해야 Vrew 음성 인식이 그 호흡 단위로 자막을 자동 분할해줌.
4. 60초 컷오프: 결론·CTA까지 1분 안에 무조건 마무리.
5. 무음 시청 전제: 시청자 80%는 음성 끄고 봄. 대사가 문장 단위가 아닌 호흡 단위로 끊겨야 자막만 봐도 다 이해됨.

[출력 형식]
각 구간을 빈 줄로 분리해서 아래 형식으로 출력해줘.

[0:00-0:03] 후킹
화면: (어떤 장면을 찍을지 — 카메라 거리·표정·소품 1줄)
대사: (8~12자 호흡으로 끊어서. 예: "이 3권은 진짜 X / 다 푼다는 책 / 옛날 얘기만 있는 책")

[0:03-0:08] 문제 제기
화면: (...)
대사: (...)
(...같은 형식으로 5초 단위 비트로 끝까지 반복...)

[0:55-1:00] 마무리
화면: (...)
대사: (...)

[추가 출력 — Vrew 복붙용]
위 대본의 대사만 모아서, 시간 코드·화면 지시 다 빼고, 한 호흡씩 줄바꿈으로 이어서 한 번 더 나열해줘. 마침표로 끝맺을 것. Vrew에 텍스트로 바로 붙여넣어 자막 셀을 자동 분할시키기 위함이야.

예시 형식:
마케터는요 이 책 안 사요 진짜로요.
괜히 샀다가 끝까지 못 보고 방치되거든요.
딱 세 가지예요 이 느낌 나면 바로 거르세요.
(...이런 식으로 마지막 호흡까지 모두...)

[톤앤매너]
- 친한 동료한테 얘기하는 톤 (~해요, ~거든요, ~더라고요)
- 전문 용어·번역투 금지
- 명사형 키워드 끝맺음(~류, ~함, ~뿐, ~다름, ~중요) 금지. 자연스러운 호흡으로.
- 5초 비트 룰 지키되 억지로 비트 만들지 말고 자연스럽게.

[금지 사항]
- "안녕하세요 구독자 여러분" 같은 인사말
- "오늘은 ~에 대해 알려드릴게요" 같은 메타 멘트 (그냥 본론으로 직진)
- 마지막에 "좋아요 구독 부탁드려요" 같은 닳은 CTA (CTA는 구체적 행동 1개로)
- 출처 없는 통계나 가짜 연구 인용

[Step 2] 대본 보고 스마트폰으로 1분 촬영

Step 1에서 받은 대본을 휴대폰 메모장에 옮긴 뒤, 카메라를 세로(9:16)로 세우고 한 번에 촬영합니다. 대본의 [시간 코드]대로 호흡을 끊으면서 읽으면 편집 시 컷 타이밍이 자연스럽게 잡힙니다. 한 번에 잘 안 되어도 괜찮습니다 — Vrew가 무음 구간을 자동으로 잘라내기 때문에 NG 부분을 잠깐 멈췄다가 다시 말하는 방식으로 이어가면 됩니다.

[Step 3] Vrew로 자막 자동 추출 + 컷 편집

Vrew(vrew.ai)를 설치하고 실행한 뒤, 새로 만들기에서 '영상 파일 불러오기'를 선택해 촬영한 영상을 업로드합니다. Vrew가 자동으로 음성을 분석해 자막을 추출하고, NG 구간(말 안 한 침묵)을 잘라낼지 묻습니다. '무음 구간 자르기'를 적용하면 영상 길이가 한 번에 정리됩니다.

Step 1에서 대사를 8~12자 호흡으로 끊어 말했다면 자막도 그 단위로 자동 분할되어 있을 거예요. 음성 인식 오타만 한 번 훑어보고 손보면 됩니다. 자막 위치는 기본값이 화면 중앙 쪽이라 인스타·틱톡 UI에 안 가려지지만, 혹시 하단 25%에 박혀 있다면 위로 한 번 끌어올려주세요. 마지막에 '내보내기'로 mp4 추출.

3. 결과 (Result)

핵심 수치: 1분 숏폼 1편 제작 시간: 5시간 → 30분
주요 특징:
- 1. ChatGPT가 첫 3초 후킹부터 8~12자 호흡 단위 대사까지 분리된 풀 대본을 한 번에 출력해, 촬영장에서 '뭐라고 말하지'를 고민할 일이 없음
- 2. Vrew가 음성을 자동으로 분석해 자막을 추출하고 무음 구간을 컷 편집해, 자막 타이밍 맞추는 3시간이 통째로 사라짐
- 3. 본인 얼굴·목소리는 그대로 유지되어 AI 자동 생성 영상의 몰개성에서 벗어남
시사점: 숏폼은 'ChatGPT 한 번에 뚝딱' 흐름이 아닙니다. 알고리즘이 보는 룰(첫 3초 후킹·5초 비트·대사 호흡·무음 시청 전제)을 프롬프트에 직접 박아넣어야 평범한 광고 카피가 아닌 진짜 영상이 나오는 대본이 만들어지고, 거기에 Vrew가 자막·편집이라는 진짜 시간 도둑을 자동화해줘야 비로소 5시간이 30분으로 줄어듭니다. 핵심은 'AI에 다 맡기는 것'이 아니라 '손이 가장 많이 가는 부분만 골라서 맡기는 것'입니다.

4. 리뷰 (Review)

📊 AI 활용 비포 & 애프터 비교

왼쪽은 그냥 "숏폼 대본 써줘" 한 줄로 받은 결과, 오른쪽은 첫 3초 후킹·5초 비트·8~12자 호흡까지 박은 마스터 프롬프트로 받은 결과예요. 비트 단위가 12~15초씩 늘어진 평범한 광고 카피와, 정확히 5초마다 흐름이 바뀌고 대사가 호흡 단위로 끊긴 진짜 영상 대본 — 같은 ChatGPT인데 결과물 톤이 완전히 다릅니다.

💡 Master's Secret: 결정적 차이를 만드는 프롬프트의 원리

💡 Master's TIP!

💡 숏폼 대본은 '대본 써줘' 한 줄로는 절대 잘 안 나옵니다. 알고리즘이 어떤 영상을 띄우는지 ChatGPT가 모르기 때문이에요. 그래서 첫 3초 후킹·5초 비트·대사 호흡 8~12자·무음 시청 전제 같은 실제 숏폼 룰을 프롬프트에 박아넣어야 합니다. 핵심 트릭 하나 — 자막 텍스트를 ChatGPT한테 따로 만들게 하지 말고, 대사 자체를 8~12자 호흡으로 끊어 말하게 시키세요. 그래야 Vrew가 음성 분석 단계에서 그 호흡대로 자막을 자동 분할해주고, 결과적으로 자막을 손볼 일이 거의 없어집니다. '구독자 여러분 안녕하세요' 같은 닳은 멘트 금지 항목을 명시한 것도 중요해요 — 이걸 안 쓰면 ChatGPT는 거의 항상 그런 인사말로 시작하거든요.
💡 촬영을 한 번에 완벽하게 할 필요가 없는 게 이 워크플로우의 핵심 트릭입니다. NG가 나도 잠깐 멈췄다가 다시 말하면 됩니다. Vrew가 음성을 분석해서 말 안 한 무음 구간을 자동으로 잘라내기 때문에, 끊어 찍은 영상이 자연스러운 1분짜리로 정리됩니다. 즉 '한 번에 깔끔하게'에 집착하지 말고 '대본대로 끝까지'에만 집중하세요. 일부러 NG 사이에 1~2초 멈춤을 넣어주면 Vrew가 컷 분할하기 더 쉽습니다.
💡 Vrew의 무료 플랜은 음성 분석을 월 120분까지 제공합니다. 1분짜리 영상으로 환산하면 100편이 넘는 분량이라 부업 단위로는 충분합니다. 핵심 트릭은 Step 1에서 대사를 호흡 단위로 끊어 말하게 시켰다는 점이에요 — 그러면 Vrew의 음성 인식이 그 호흡을 그대로 자막 한 줄 단위로 잡아주기 때문에, 자막을 손볼 일이 거의 없습니다. 음성 인식 오타 정도만 한 번 훑어보면 끝이에요. 무료 플랜은 영상 좌측 상단에 작은 워터마크가 붙는데, 본격 발행이 부담스러우면 라이트 플랜으로 올리는 걸 고려해도 좋지만, 일단 워크플로우가 본인한테 맞는지부터 검증하는 게 우선입니다.

💬 윤서영 대리의 한마디

솔직히 처음엔 'AI 자동 생성 도구 쓰면 진짜 30분에 끝나는 거 아니야?' 생각도 했어요. 근데 그렇게 만든 영상은 제 채널이 아니더라고요. 이렇게 ChatGPT한테 대본만 맡기고 제가 직접 찍고, 자막은 Vrew가 자동으로 빼주는 흐름으로 가니까 — 시간도 줄고, 무엇보다 영상에 제 얼굴이 있어요. 어제 올린 거 좋아요 70개 넘었어요. 평소엔 10개도 안 됐는데. 역시 사람들도 직접 얼굴을 보여주는 편이 더 신뢰도가 가나봐요.

▶ NEXT CHAPTER

수요일 밤, 서영 씨는 침대에 엎드려 휴대폰을 보고 있었다. 어제 처음으로 본인 얼굴로 찍은 1분 영상에 좋아요가 70개 넘어 있었다. 평소 10개도 안 되던 채널이었다. 댓글에는 '말투가 친근해서 좋아요', '진짜 정보네요' 같은 반응. 서영 씨는 한참 화면을 보다가 노트에 다음 영상 주제 두 개를 적었다.

서영: "근데 이상해. 영상 자체는 평소보다 잘 나왔는데, 도달 자체가 또 정체야. 좋아요 비율은 높은데 노출이 안 늘어. 추천 피드에서 사람들이 내 영상을 1초 안에 그냥 넘기는 거 같아. 영상 안에 들어오기 전에... 썸네일이랑 첫 멘트에서 이미 결판이 나는 건가?"

영상은 살아났다. 그런데 도달은 여전히 정체였다. 추천 피드에서 1초 만에 결판이 나는 영역이 따로 있다는 걸 서영 씨도 어렴풋이 느끼기 시작했다. 그건 영상 안이 아니라 영상 바깥, 시청자 손가락이 멈출지 말지를 결정하는 그 1초였다.

📂 부록: 함께 읽으면 좋은 레시피 & 용어

◀ 이전 회차 바로가기 : 인스타 캐러셀 하나에 주말 반나절... 카피부터 디자인까지 30분에 끝내는 법

▶ [콘텐츠 부업] "블로그 글 하나 쓰는 데 3시간... SEO 초안을 30분에 뽑는 법"

▶ [게임 QA] "기획서 5건, TC 마감 일주일... 엑셀 앞에서 멘붕 온 QA 테스터의 비장의 무기"

본인 얼굴로 찍는 숏폼이랑 AI 자동 생성 숏폼, 어느 쪽이 더 끌리세요? 그리고 본인 영상 만들 때 가장 시간 많이 잡아먹는 단계가 어디예요? 댓글로 공유해주시면 그 단계에 딱 맞는 팁을 알려드릴게요!

👉 디벨로켓의 새로운 커뮤니티가 생겼어요! →

[콘텐츠 부업] "AI 목소리로 도배된 숏폼은 못 만들겠어요... 내 얼굴로 1분 영상, 30분에 끝내는 법"