Voice
Script
아이디
비밀번호
로그인
Voice
Script
RAM
—
나가기
🎙 STT
🔍 OCR
📋 이력
🎬 자막
⚙️ 설정
👤 관리자
파일 업로드
🎵
탭하거나 드래그하여 선택
음성·영상 파일 복수 선택 가능
mp3 · wav · m4a · ogg · flac · mp4 · webm
+ 파일 더 추가
큐 초기화
STT 엔진
⚡
faster-whisper
로컬 CPU 변환
빠르고 안정적
🦙
+ Ollama 교정
Whisper 후
Ollama 교정
후처리 모델
설정 기본 모델 사용
변환 시작
처리 중...
0%
변환 결과
언어
—
길이
—
세그먼트
—
교정
—
전체 텍스트
타임스탬프
📝
파일 업로드 후
변환을 시작하면
결과가 표시됩니다
복사
TXT 저장
새 파일
이미지 업로드
🖼
탭하거나 드래그하여 선택
복수 이미지 동시 선택 가능
jpg · png · bmp · tiff · webp · gif
+ 파일 더 추가
큐 초기화
OCR 엔진
🐾
PaddleOCR
로컬 실행
표 구조 분석
🦙
Ollama Vision
자연어 지시
커스텀 프롬프트
Vision 모델
설정 기본 모델 사용
▶ 커스텀 프롬프트
인식 모드
📄 텍스트 추출
📊 표 구조 분석
일반 텍스트와 글자를 인식합니다
인식 시작
처리 중...
0%
인식 결과
줄
—
모드
—
엔진
—
표
—
전체 텍스트
줄별
표 뷰어
🔍
이미지 업로드 후
인식을 시작하면
결과가 표시됩니다
📊
표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다
복사
TXT
Excel
새 파일
📋 변환 이력
전체
STT
OCR
🔄
🗑 전체삭제
불러오는 중...
⚙️ 설정
🔄 모델갱신
📊 시스템 리소스
RAM 사용량
—
로딩 중
CPU 사용률
—
로딩 중
Swap
—
—
CPU 스레드
—
worker 재시작 후 반영
🖥️ CPU 스레드
Whisper STT에 사용할 CPU 스레드 수
0 = 자동 (전체 코어 사용)
0 (자동)
⏱️ 변환 타임아웃
STT 변환 타임아웃 (초)
0 = 무제한 · 대용량 파일은 크게 설정
Ollama 응답 타임아웃 (초)
11b 이상 모델은 300+ 권장
🎙 STT Ollama 후처리 기본 모델
Whisper 변환 후 교정에 사용할 모델
STT 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
🔍 OCR Ollama 기본 모델
OCR Vision 엔진 선택 시 사용할 모델
OCR 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
✓ 저장됨 (CPU·타임아웃: worker 재시작 후 반영)
저장
🎬 자막 생성
1
2
3
오디오 추출
음성 인식
번역 (선택)
📁 영상 / 오디오 파일
🎬
탭하거나 드래그하여 선택
mp4 · mkv · avi · mov · h.264/h.265 등
⚙️ 자막 설정
음성 언어 (원어)
🔍 자동 감지 (권장)
🇰🇷 한국어
🇺🇸 English
🇯🇵 日本語
🇨🇳 中文(简体)
🇹🇼 中文(繁體)
🇫🇷 Français
🇩🇪 Deutsch
🇪🇸 Español
🇮🇹 Italiano
🇵🇹 Português
🇷🇺 Русский
🇸🇦 العربية
🇻🇳 Tiếng Việt
🇹🇭 ไทย
🇮🇩 Bahasa Indonesia
🇳🇱 Nederlands
🇵🇱 Polski
🇹🇷 Türkçe
🇸🇪 Svenska
🇺🇦 Українська
🇮🇳 हिन्दी
자막 포맷
SRT
VTT
둘 다
🌐 번역 설정 (선택사항)
빈칸으로 두면 원어 자막만 생성합니다
번역 대상 언어
번역 안 함
🇰🇷 한국어
🇺🇸 English
🇯🇵 日本語
🇨🇳 中文(简体)
🇹🇼 中文(繁體)
🇫🇷 Français
🇩🇪 Deutsch
🇪🇸 Español
🇮🇹 Italiano
🇵🇹 Português
🇷🇺 Русский
🇸🇦 العربية
🇻🇳 Tiếng Việt
🇹🇭 ไทย
🇮🇩 Bahasa Indonesia
🇳🇱 Nederlands
🇵🇱 Polski
🇹🇷 Türkçe
🇸🇪 Svenska
🇮🇳 हिन्दी
번역 엔진
🦙 Ollama
🌐 OpenRouter
번역 모델
설정 기본 모델 사용
자막 생성 시작
⏳
Step 1 — 오디오 추출
ffmpeg으로 오디오 트랙 추출
⏳
Step 2 — 음성 인식
Whisper로 자막 생성
⏳
Step 3 — 번역 (선택)
LLM 번역 (미선택 시 건너뜀)
✓ 자막 생성 완료
감지 언어
—
재생 시간
—
자막 수
—
번역
—
새 파일
👤 사용자 관리
사용자 목록
새로고침
사용자명
역할
STT
OCR
관리
신규 사용자 추가
아이디
비밀번호
기능 권한
STT 음성변환
OCR 이미지인식
STT Whisper 모델 제한
· 선택 없음 = 모두 허용
OCR Ollama 모델 제한
· 선택 없음 = 모두 허용
사용자 추가
권한 편집 —
새 비밀번호 (변경 시에만)
기능 권한
STT 음성변환
OCR 이미지인식
STT 모델 제한
· 선택 없음 = 모두 허용
OCR 모델 제한
· 선택 없음 = 모두 허용
취소
저장