VoiceScript

RAM
파일 업로드
🎵
탭하거나 드래그하여 선택
음성·영상 복수 선택 가능
mp3 · wav · m4a · ogg · flac · mp4 · webm
STT 엔진
후처리 모델
OpenRouter 교정 모델
처리 중...0%
변환 결과
언어
길이
세그먼트
📝
파일 업로드 후
변환을 시작하면
결과가 표시됩니다
이미지 업로드
🖼
탭하거나 드래그하여 선택
복수 선택 가능
jpg · png · bmp · tiff · webp · gif
OCR 엔진
Vision 모델
▶ 커스텀 프롬프트
인식 모드
일반 텍스트와 글자를 인식합니다
처리 중...0%
인식 결과
모드
엔진
🔍
이미지 업로드 후
인식을 시작하면
결과가 표시됩니다
📊
표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다

📋 변환 이력

불러오는 중...

⚙️ 설정

📊 시스템 리소스

RAM 사용량
로딩 중
CPU 사용률
로딩 중
Swap
CPU 스레드
worker 재시작 후 반영

🖥️ CPU 스레드

0 (자동)

⏱️ 변환 타임아웃

0 = 무제한 · 대용량 파일은 크게 설정
11b 이상 모델은 300+ 권장
번역·교정 시 응답 대기 시간

🎙 STT Ollama 후처리 기본 모델

🔍 OCR Ollama 기본 모델

🌐 OpenRouter 외부 AI 연동

🔑 STT 엔진 API 키

🎬 자막 생성

1
2
3
오디오 추출 음성 인식·교정 번역 (선택)

📁 영상 / 오디오 파일

🎬
탭하거나 드래그하여 선택
mp4 · mkv · h.264/h.265 · mp3 · wav 등

⚙️ 자막 설정

음성 언어 (원어)
자막 포맷
STT 엔진

🧠 Step 2 — LLM 교정 (선택)

🌐 Step 3 — 번역 (선택)

비워두면 원어 자막만 생성됩니다
번역 대상 언어
Step 1 — 오디오 추출
ffmpeg 오디오 추출 대기
Step 2 — 음성 인식 · LLM 교정
Whisper 인식 대기
Step 3 — 번역
번역 대기
✓ 자막 생성 완료
감지 언어
재생 시간
자막 수
번역

👤 사용자 관리

사용자 목록

사용자명역할STTOCR관리

신규 사용자 추가