VoiceScript

파일 업로드

🎵

탭하거나 드래그하여 선택
음성·영상 파일 복수 선택 가능

mp3 · wav · m4a · ogg · flac · mp4 · webm

STT 엔진

후처리 모델

처리 중...0%

변환 결과

언어 —

길이 —

세그먼트 —

📝

파일 업로드 후
변환을 시작하면
결과가 표시됩니다

이미지 업로드

🖼

탭하거나 드래그하여 선택
복수 이미지 동시 선택 가능

jpg · png · bmp · tiff · webp · gif

OCR 엔진

Vision 모델

▶ 커스텀 프롬프트

인식 모드

일반 텍스트와 글자를 인식합니다

처리 중...0%

인식 결과

줄 —

모드 —

엔진 —

표 —

🔍

이미지 업로드 후
인식을 시작하면
결과가 표시됩니다

📊

표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다

📋 변환 이력

불러오는 중...

⚙️ 설정

📊 시스템 리소스

RAM 사용량

—

로딩 중

CPU 사용률

—

로딩 중

Swap

—

CPU 스레드

—

worker 재시작 후 반영

🖥️ CPU 스레드

Whisper STT에 사용할 CPU 스레드 수0 = 자동 (전체 코어 사용)

0 (자동)

⏱️ 변환 타임아웃

STT 변환 타임아웃 (초)

0 = 무제한 · 대용량 파일은 크게 설정

Ollama 응답 타임아웃 (초)

11b 이상 모델은 300+ 권장

🎙 STT Ollama 후처리 기본 모델

Whisper 변환 후 교정에 사용할 모델STT 페이지에서 미선택 시 이 모델이 사용됩니다

🔍 OCR Ollama 기본 모델

OCR Vision 엔진 선택 시 사용할 모델OCR 페이지에서 미선택 시 이 모델이 사용됩니다

🎬 자막 생성

1

2

3

오디오 추출 음성 인식 번역 (선택)

📁 영상 / 오디오 파일

🎬

탭하거나 드래그하여 선택
mp4 · mkv · avi · mov · h.264/h.265 등

⚙️ 자막 설정

음성 언어 (원어)

자막 포맷

🌐 번역 설정 (선택사항)

빈칸으로 두면 원어 자막만 생성합니다

번역 대상 언어

⏳

Step 1 — 오디오 추출

ffmpeg으로 오디오 트랙 추출

⏳

Step 2 — 음성 인식

Whisper로 자막 생성

⏳

Step 3 — 번역 (선택)

LLM 번역 (미선택 시 건너뜀)

✓ 자막 생성 완료

감지 언어

—

재생 시간

—

자막 수

—

번역

—

👤 사용자 관리

사용자 목록

사용자명	역할	STT	OCR	관리

신규 사용자 추가

아이디

비밀번호

기능 권한

STT 음성변환 OCR 이미지인식