Voice
Script
아이디
비밀번호
로그인
Voice
Script
RAM
—
나가기
🎙 STT
🔍 OCR
📋 이력
⚙️ 설정
👤 관리자
파일 업로드
🎵
탭하거나 드래그하여 선택
음성 또는 영상 파일
mp3 · wav · m4a · ogg · flac · mp4 · webm
STT 엔진
⚡
faster-whisper
로컬 CPU 변환
빠르고 안정적
🦙
+ Ollama 교정
Whisper 후
Ollama 교정
🌐
+ OpenRouter 교정
외부 AI 모델로 문장 부호·맞춤법 교정 (텍스트 전용 모델도 사용 가능)
후처리 모델
설정 기본 모델 사용
OpenRouter 후처리 모델
설정 기본 모델 사용
⚙️ 설정 → OpenRouter에서 API 키 및 기본 모델을 설정하세요
변환 시작
처리 중...
0%
변환 결과
언어
—
길이
—
세그먼트
—
교정
—
전체 텍스트
타임스탬프
📝
파일 업로드 후
변환을 시작하면
결과가 표시됩니다
복사
TXT 저장
새 파일
이미지 업로드
🖼
탭하거나 드래그하여 선택
이미지 파일
jpg · png · bmp · tiff · webp · gif
OCR 엔진
🐾
PaddleOCR
로컬 실행
표 구조 분석
🦙
Ollama Vision
자연어 지시
커스텀 프롬프트
🌐
OpenRouter Vision
Claude / GPT-4o / Gemini 등 외부 Vision 모델 사용
Vision 모델
설정 기본 모델 사용
▶ 커스텀 프롬프트
OpenRouter Vision 모델
설정 기본 모델 사용
▶ 커스텀 프롬프트
⚠️ Vision 기능을 지원하는 모델만 이미지 처리 가능 (Claude-3, GPT-4o, Gemini 등)
인식 모드
📄 텍스트 추출
📊 표 구조 분석
일반 텍스트와 글자를 인식합니다
인식 시작
처리 중...
0%
인식 결과
줄
—
모드
—
엔진
—
표
—
전체 텍스트
줄별
표 뷰어
🔍
이미지 업로드 후
인식을 시작하면
결과가 표시됩니다
📊
표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다
복사
TXT
Excel
새 파일
📋 변환 이력
전체
STT
OCR
🔄
🗑 전체삭제
불러오는 중...
⚙️ 설정
🔄 모델갱신
📊 시스템 리소스
RAM 사용량
—
로딩 중
CPU 사용률
—
로딩 중
Swap
—
—
CPU 스레드
—
worker 재시작 후 반영
🖥️ CPU 스레드
Whisper STT에 사용할 CPU 스레드 수
0 = 자동 (전체 코어 사용)
0 (자동)
⏱️ 변환 타임아웃
STT 변환 타임아웃 (초)
0 = 무제한 · 대용량 파일은 크게 설정
Ollama 응답 타임아웃 (초)
11b 이상 모델은 300+ 권장
🎙 STT Ollama 후처리 기본 모델
Whisper 변환 후 교정에 사용할 모델
STT 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
🔍 OCR Ollama 기본 모델
OCR Vision 엔진 선택 시 사용할 모델
OCR 페이지에서 미선택 시 이 모델이 사용됩니다
(없음)
🌐 OpenRouter 외부 AI 연동
API 키
openrouter.ai에서 발급 — 저장 후 "연결 테스트"로 확인
연결 테스트
API URL
기본값 사용 권장
Vision 모델
텍스트 모델
전체
STT 교정 기본 모델
텍스트 전용 모델도 사용 가능
(없음)
OCR 기본 Vision 모델
반드시 Vision 지원 모델 선택
(없음)
✓ 저장됨 (CPU·타임아웃: worker 재시작 후 반영)
저장
👤 사용자 관리
사용자 목록
새로고침
사용자명
역할
STT
OCR
관리
신규 사용자 추가
아이디
비밀번호
기능 권한
STT 음성변환
OCR 이미지인식
STT Whisper 모델 제한
· 선택 없음 = 모두 허용
OCR Ollama 모델 제한
· 선택 없음 = 모두 허용
사용자 추가
권한 편집 —
새 비밀번호 (변경 시에만)
기능 권한
STT 음성변환
OCR 이미지인식
STT 모델 제한
· 선택 없음 = 모두 허용
OCR 모델 제한
· 선택 없음 = 모두 허용
취소
저장