Voice
Script
아이디
비밀번호
로그인
Voice
Script
RAM
—
나가기
🎙 STT
🔍 OCR
📋 이력
🎬 자막
⚙️ 설정
👤 관리자
파일 업로드
🎵
탭하거나 드래그하여 선택
음성·영상 복수 선택 가능
mp3 · wav · m4a · ogg · flac · mp4 · webm
+ 더 추가
초기화
STT 엔진
⚡
faster-whisper
로컬 CPU 변환
빠르고 안정적
🦙
+ Ollama 교정
Whisper 후
Ollama 교정
🌐
+ OpenRouter
외부 AI
문장 교정
후처리 모델
설정 기본 모델 사용
OpenRouter 교정 모델
설정 기본 모델 사용
변환 시작
처리 중...
0%
변환 결과
언어
—
길이
—
세그먼트
—
교정
—
전체 텍스트
타임스탬프
📝
파일 업로드 후
변환을 시작하면
결과가 표시됩니다
복사
TXT 저장
새 파일
이미지 업로드
🖼
탭하거나 드래그하여 선택
복수 선택 가능
jpg · png · bmp · tiff · webp · gif
+ 더 추가
초기화
OCR 엔진
🐾
PaddleOCR
로컬 실행
표 구조 분석
🦙
Ollama Vision
자연어 지시
커스텀 프롬프트
🌐
OpenRouter Vision
Claude/GPT-4o
외부 Vision AI
Vision 모델
설정 기본 모델 사용
▶ 커스텀 프롬프트
인식 모드
📄 텍스트 추출
📊 표 구조 분석
일반 텍스트와 글자를 인식합니다
인식 시작
처리 중...
0%
인식 결과
줄
—
모드
—
엔진
—
표
—
전체 텍스트
줄별
표 뷰어
🔍
이미지 업로드 후
인식을 시작하면
결과가 표시됩니다
📊
표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다
복사
TXT
Excel
새 파일
📋 변환 이력
전체
STT
OCR
🎬 자막
🔄
🗑 전체삭제
불러오는 중...
⚙️ 설정
🔄 모델갱신
📊 시스템 리소스
RAM 사용량
—
로딩 중
CPU 사용률
—
로딩 중
Swap
—
—
CPU 스레드
—
worker 재시작 후 반영
🖥️ CPU 스레드
Whisper STT에 사용할 CPU 스레드 수
0 = 자동 (전체 코어 사용)
0 (자동)
⏱️ 변환 타임아웃
STT 변환 타임아웃 (초)
0 = 무제한 · 대용량 파일은 크게 설정
Ollama 응답 타임아웃 (초)
11b 이상 모델은 300+ 권장
자막 LLM 타임아웃 (초)
번역·교정 시 응답 대기 시간
🎙 STT Ollama 후처리 기본 모델
Whisper 변환 후 교정에 사용할 모델
STT 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
🔍 OCR Ollama 기본 모델
OCR Vision 엔진 선택 시 사용할 모델
OCR 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
🌐 OpenRouter 외부 AI 연동
API 키
연결 테스트
API URL
Vision
텍스트
전체
STT/자막 기본 모델
(없음)
OCR 기본 Vision 모델
(없음)
🔑 STT 엔진 API 키
Groq API 키
groq.com에서 무료 발급
OpenAI API 키
기본 STT 엔진
⚡ faster-whisper (로컬)
🟠 Groq API
🔵 OpenAI API
✓ 저장됨 (CPU·타임아웃: worker 재시작 후 반영)
저장
🎬 자막 생성
1
2
3
오디오 추출
음성 인식·교정
번역 (선택)
📁 영상 / 오디오 파일
🎬
탭하거나 드래그하여 선택
mp4 · mkv · h.264/h.265 · mp3 · wav 등
⚙️ 자막 설정
음성 언어 (원어)
🔍 자동 감지 (권장)
🇰🇷 한국어
🇺🇸 English
🇯🇵 日本語
🇨🇳 中文(简体)
🇹🇼 中文(繁體)
🇫🇷 Français
🇩🇪 Deutsch
🇪🇸 Español
🇮🇹 Italiano
🇵🇹 Português
🇷🇺 Русский
🇸🇦 العربية
🇻🇳 Tiếng Việt
🇹🇭 ไทย
🇮🇩 Bahasa Indonesia
🇳🇱 Nederlands
🇵🇱 Polski
🇹🇷 Türkçe
🇸🇪 Svenska
🇮🇳 हिन्दी
자막 포맷
SRT
VTT
둘 다
STT 엔진
⚡ faster-whisper
🟠 Groq API
🔵 OpenAI API
🧠 Step 2 — LLM 교정 (선택)
LLM 교정 사용
교정 엔진
🦙 Ollama
🌐 OpenRouter
교정 모델
설정 기본 사용
🌐 Step 3 — 번역 (선택)
비워두면 원어 자막만 생성됩니다
번역 대상 언어
번역 안 함
🇰🇷 한국어
🇺🇸 English
🇯🇵 日本語
🇨🇳 中文(简体)
🇹🇼 中文(繁體)
🇫🇷 Français
🇩🇪 Deutsch
🇪🇸 Español
🇮🇹 Italiano
🇵🇹 Português
🇷🇺 Русский
🇸🇦 العربية
🇻🇳 Tiếng Việt
🇹🇭 ไทย
🇮🇩 Bahasa Indonesia
🇳🇱 Nederlands
🇵🇱 Polski
🇹🇷 Türkçe
🇸🇪 Svenska
🇮🇳 हिन्दी
번역 엔진
🦙 Ollama
🌐 OpenRouter
번역 모델
설정 기본 사용
자막 생성 시작
⏹ 취소
⏳
Step 1 — 오디오 추출
ffmpeg 오디오 추출 대기
⏳
Step 2 — 음성 인식 · LLM 교정
Whisper 인식 대기
⏳
Step 3 — 번역
번역 대기
✓ 자막 생성 완료
감지 언어
—
재생 시간
—
자막 수
—
번역
—
새 파일
👤 사용자 관리
사용자 목록
새로고침
사용자명
역할
STT
OCR
관리
신규 사용자 추가
아이디
비밀번호
기능 권한
STT 음성변환
OCR 이미지인식
🎬 자막생성
STT Whisper 모델 제한
· 선택 없음 = 모두 허용
OCR Ollama 모델 제한
· 선택 없음 = 모두 허용
사용자 추가
권한 편집 —
새 비밀번호 (변경 시에만)
기능 권한
STT 음성변환
OCR 이미지인식
🎬 자막생성
STT 모델 제한
· 선택 없음 = 모두 허용
OCR 모델 제한
· 선택 없음 = 모두 허용
취소
저장