AVSubtitles - Forum

Aplicación para pasar a video a SRT

2026-02-27 19:32:50

Esto le pedí a ChatGPT:
"Para una app que convierta vídeo → transcripción → subtítulos .SRT, tienes (al menos) 3 caminos buenos. Te dejo una arquitectura clara y ejemplos base para que la montes en Windows (o multiplataforma).

1) Flujo típico de la app

Cargar vídeo

Extraer audio (a WAV/MP3)

Transcribir con timestamps (palabras o segmentos)

Agrupar en frases (para que los subtítulos no queden “a palabra suelta”)

Formatear SRT (índices, tiempos HH:MM:SS,mmm, texto)

Exportar .srt y (opcional) “burn-in” en el vídeo

2) Motor de transcripción (elige uno)
Opción A — Whisper local (rápido y barato)

Pros: funciona offline, muy buena calidad.

Contras: consume CPU/GPU, hay que instalar dependencias.

Recomendación: faster-whisper (más rápido que whisper “normal”).

Opción B — API en la nube

Pros: rápido de integrar, buen rendimiento.

Contras: coste por uso, dependes de internet.

Opción C — Azure / Google / AWS

Muy profesional para empresas (diarización, idiomas, etc.), pero más “enterprise”.

Si tu objetivo es una herramienta tipo peritaje/documentación (tu caso suele ser “sacar texto rápido”), Whisper local + interfaz simple suele ser lo mejor.

3) Stack recomendado (Windows)
Si quieres app “de escritorio” sencilla:

Python + PySide6 (Qt) para la interfaz

FFmpeg para extraer audio

faster-whisper para transcribir

Generador SRT propio

Si quieres algo “pro” multiplataforma:

Electron (UI) + backend en Python o Node

o .NET (WPF/WinUI) + llamar a FFmpeg + motor (Whisper vía Python o lib)

4) Ejemplo mínimo en Python (CLI) vídeo → SRT

Esto te sirve como “núcleo” y luego lo envuelves con interfaz.

import subprocess
from faster_whisper import WhisperModel

def to_srt_time(seconds: float) -> str:
ms = int((seconds - int(seconds)) * 1000)
s = int(seconds) % 60
m = (int(seconds) // 60) % 60
h = int(seconds) // 3600
return f"{h:02d}:{m:02d}:{s:02d},{ms:03d}"

def extract_audio(video_path: str, wav_path: str):
# Requiere ffmpeg instalado en el sistema
cmd = [
"ffmpeg", "-y", "-i", video_path,
"-vn", "-ac", "1", "-ar", "16000",
wav_path
]
subprocess.run(cmd, check=True, capture_output=True)

def write_srt(segments, srt_path: str):
with open(srt_path, "w", encoding="utf-8") as f:
for i, seg in enumerate(segments, start=1):
f.write(f"{i}\n")
f.write(f"{to_srt_time(seg.start)} --> {to_srt_time(seg.end)}\n")
f.write(seg.text.strip() + "\n\n")

def video_to_srt(video_path: str, srt_path: str, lang: str = "es"):
wav_path = "temp_audio.wav"
extract_audio(video_path, wav_path)

model = WhisperModel("small", device="cpu", compute_type="int8")
segments, info = model.transcribe(wav_path, language=lang, vad_filter=True)

segments = list(segments) # materializa el generador
write_srt(segments, srt_path)

if __name__ == "__main__":
video_to_srt("video.mp4", "subtitulos.srt", lang="es")

Notas rápidas:

Cambia "small" por "medium" o "large-v3" si quieres más precisión (más lento).

vad_filter=True ayuda a limpiar silencios.

Para GPU (NVIDIA) se puede configurar, pero con CPU ya funciona.

5) Mejoras que suelen pedir los usuarios (y que conviene meter)

Dividir líneas a 42 caracteres aprox (mejor legibilidad).

Máximo 2 líneas por subtítulo.

Duración mínima/máxima por subtítulo (ej. 1.0s min / 6.0s max).

Puntuación y mayúsculas (Whisper ya lo hace bastante bien).

Selector de idioma y autodetección.

Corrección manual: previsualizar y editar SRT en la app.

6) Si quieres que te lo deje ya “en aplicación”

Dime cuál prefieres y te lo preparo con estructura de proyecto:

App Windows con interfaz (PySide6): botón “Cargar vídeo”, barra de progreso, exportar SRT.

App .NET (WPF): más “nativa Windows”.

Web local (Flask/FastAPI + UI sencilla): lo abres en el navegador.

Y una decisión clave: ¿quieres que funcione 100% offline (Whisper local) o te vale API?

Whisper local

Genial: Whisper local = offline, buena calidad y control total. Aquí tienes un plan directo (y un “MVP” listo) para una app de Windows con interfaz, usando PySide6 + FFmpeg + faster-whisper, que convierte vídeo → .SRT.

Arquitectura (simple y robusta)

UI (PySide6/Qt): seleccionar vídeo, elegir idioma/modelo, botón “Transcribir”, barra de progreso, guardar SRT.

Backend:

ffmpeg extrae audio a wav mono 16 kHz

faster-whisper transcribe con timestamps

generador SRT (formato HH:MM:SS,mmm)

opcional: dividir líneas, limitar duración, etc.

Instalación (Windows)

Instala Python 3.10+

Instala FFmpeg y asegúrate de que ffmpeg funciona en CMD:

ffmpeg -version

En tu proyecto:

pip install pyside6 faster-whisper

Si tienes NVIDIA y quieres GPU, luego lo afinamos; el MVP va con CPU.

MVP: app con interfaz (un solo archivo)

Guarda esto como app_srt.py y ejecútalo con python app_srt.py.

import os
import subprocess
import tempfile
from dataclasses import dataclass

from PySide6.QtCore import QThread, Signal
from PySide6.QtWidgets import (
QApplication, QWidget, QVBoxLayout, QHBoxLayout, QPushButton, QLabel,
QFileDialog, QComboBox, QProgressBar, QPlainTextEdit
)

from faster_whisper import WhisperModel

def srt_time(seconds: float) -> str:
if seconds < 0:
seconds = 0
ms = int(round((seconds - int(seconds)) * 1000))
total = int(seconds)
s = total % 60
m = (total // 60) % 60
h = total // 3600
return f"{h:02d}:{m:02d}:{s:02d},{ms:03d}"

def extract_audio(video_path: str, wav_path: str):
# WAV mono 16kHz: óptimo para whisper
cmd = [
"ffmpeg", "-y", "-i", video_path,
"-vn", "-ac", "1", "-ar", "16000",
"-f", "wav", wav_path
]
subprocess.run(cmd, check=True, capture_output=True)

def write_srt(segments, out_path: str):
with open(out_path, "w", encoding="utf-8") as f:
for i, seg in enumerate(segments, start=1):
f.write(f"{i}\n")
f.write(f"{srt_time(seg.start)} --> {srt_time(seg.end)}\n")
f.write(seg.text.strip() + "\n\n")

@dataclass
class JobConfig:
video_path: str
out_srt_path: str
language: str
model_size: str
device: str # "cpu" o "cuda"
compute_type: str # "int8", "float16", etc.

class TranscribeWorker(QThread):
log = Signal(str)
progress = Signal(int)
done = Signal(str)
failed = Signal(str)

def __init__(self, cfg: JobConfig):
super().__init__()
self.cfg = cfg

def run(self):
try:
self.progress.emit(0)
self.log.emit("Extrayendo audio con FFmpeg...")

with tempfile.TemporaryDirectory() as tmp:
wav_path = os.path.join(tmp, "audio.wav")
extract_audio(self.cfg.video_path, wav_path)
self.progress.emit(15)

self.log.emit(f"Cargando modelo Whisper ({self.cfg.model_size})...")
model = WhisperModel(
self.cfg.model_size,
device=self.cfg.device,
compute_type=self.cfg.compute_type
)
self.progress.emit(25)

self.log.emit("Transcribiendo (esto puede tardar)...")
segments_iter, info = model.transcribe(
wav_path,
language=self.cfg.language if self.cfg.language != "auto" else None,
vad_filter=True
)

segments = []
# Progreso aproximado: mejorable calculando duración con ffprobe, pero suficiente para MVP.
# Emitimos ticks según nº de segmentos.
count = 0
for seg in segments_iter:
segments.append(seg)
count += 1
if count % 10 == 0:
# sube suavemente hasta 90
p = min(90, 25 + count)
self.progress.emit(p)

self.log.emit("Generando SRT...")
write_srt(segments, self.cfg.out_srt_path)
self.progress.emit(100)

self.done.emit(self.cfg.out_srt_path)

except FileNotFoundError:
self.failed.emit("No encuentro FFmpeg. Instálalo y añade ffmpeg al PATH.")
except subprocess.CalledProcessError as e:
self.failed.emit(f"Error ejecutando FFmpeg: {e}")
except Exception as e:
self.failed.emit(f"Error: {e}")

class App(QWidget):
def __init__(self):
super().__init__()
self.setWindowTitle("Vídeo → SRT (Whisper local)")
self.video_path = ""
self.out_srt_path = ""
self.worker = None

layout = QVBoxLayout()

# Selección de vídeo
row1 = QHBoxLayout()
self.lbl_video = QLabel("Vídeo: (sin seleccionar)")
btn_video = QPushButton("Elegir vídeo")
btn_video.clicked.connect(self.pick_video)
row1.addWidget(self.lbl_video, 1)
row1.addWidget(btn_video)
layout.addLayout(row1)

# Opciones
row2 = QHBoxLayout()
self.cmb_lang = QComboBox()
self.cmb_lang.addItems(["auto", "es", "en", "fr", "de", "it", "pt"])
self.cmb_model = QComboBox()
self.cmb_model.addItems(["tiny", "base", "small", "medium", "large-v3"])
row2.addWidget(QLabel("Idioma:"))
row2.addWidget(self.cmb_lang)
row2.addWidget(QLabel("Modelo:"))
row2.addWidget(self.cmb_model)
layout.addLayout(row2)

# Guardar SRT
row3 = QHBoxLayout()
self.lbl_out = QLabel("Salida .srt: (sin seleccionar)")
btn_out = QPushButton("Guardar como…")
btn_out.clicked.connect(self.pick_output)
row3.addWidget(self.lbl_out, 1)
row3.addWidget(btn_out)
layout.addLayout(row3)

# Botón ejecutar
self.btn_run = QPushButton("Transcribir y crear SRT")
self.btn_run.clicked.connect(self.run_job)
layout.addWidget(self.btn_run)

# Progreso + log
self.progress = QProgressBar()
self.progress.setValue(0)
layout.addWidget(self.progress)

self.logbox = QPlainTextEdit()
self.logbox.setReadOnly(True)
layout.addWidget(self.logbox, 1)

self.setLayout(layout)
self.resize(820, 420)

def pick_video(self):
path, _ = QFileDialog.getOpenFileName(
self, "Selecciona un vídeo",
filter="Vídeos (*.mp4 *.mkv *.mov *.avi *.webm);;Todos (*.*)"
)
if path:
self.video_path = path
self.lbl_video.setText(f"Vídeo: {path}")

# sugerir salida
base = os.path.splitext(path)[0]
self.out_srt_path = base + ".srt"
self.lbl_out.setText(f"Salida .srt: {self.out_srt_path}")

def pick_output(self):
path, _ = QFileDialog.getSaveFileName(
self, "Guardar SRT como",
filter="SubRip (*.srt)"
)
if path:
if not path.lower().endswith(".srt"):
path += ".srt"
self.out_srt_path = path
self.lbl_out.setText(f"Salida .srt: {path}")

def append_log(self, txt: str):
self.logbox.appendPlainText(txt)

def set_progress(self, v: int):
self.progress.setValue(v)

def run_job(self):
if not self.video_path:
self.append_log("⚠️ Selecciona un vídeo primero.")
return
if not self.out_srt_path:
self.append_log("⚠️ Selecciona el archivo de salida .srt.")
return

self.btn_run.setEnabled(False)
self.progress.setValue(0)
self.append_log("— Iniciando —")

cfg = JobConfig(
video_path=self.video_path,
out_srt_path=self.out_srt_path,
language=self.cmb_lang.currentText(),
model_size=self.cmb_model.currentText(),
device="cpu", # cambia a "cuda" si lo configuras con GPU
compute_type="int8" # CPU eficiente
)

self.worker = TranscribeWorker(cfg)
self.worker.log.connect(self.append_log)
self.worker.progress.connect(self.set_progress)
self.worker.done.connect(self.on_done)
self.worker.failed.connect(self.on_failed)
self.worker.start()

def on_done(self, out_path: str):
self.append_log(f"✅ Listo. SRT creado: {out_path}")
self.btn_run.setEnabled(True)

def on_failed(self, msg: str):
self.append_log(f"❌ {msg}")
self.btn_run.setEnabled(True)

if __name__ == "__main__":
app = QApplication([])
w = App()
w.show()
app.exec()
Mejoras inmediatas (te las puedo dejar puestas)

Progreso real (con ffprobe para saber duración y calcular % por timestamps)

División de subtítulos (máx. 2 líneas, 42 caracteres, duración min/max)

Edición previa dentro de la app (tabla con segmentos y texto editable)

GPU NVIDIA (si tienes, acelera mucho en medium/large)

Si me dices tu PC (¿tienes NVIDIA o solo CPU?) y si quieres subtítulo a nivel frase (más “humano”) o más literal, te lo ajusto con el mejor “segmentador” para que el SRT quede perfecto.

el punto 3 no se como hacerlo, explicalo como a un chaval de 5 años

Vale ???? Imagina que el SRT es como una lista de “tarjetitas” que aparecen en pantalla: cada tarjetita tiene hora de inicio, hora de fin y texto.

El “punto 3” (editar dentro de la app) es simplemente: enseñarle esas tarjetitas al usuario para que las pueda corregir antes de guardar.

La idea como si tuvieras 5 años

Whisper hace muchas tarjetitas:

Tarjeta 1: “Hola, ¿qué tal?”

Tarjeta 2: “Hoy vamos a…”

Tarjeta 3: “…”

A veces se equivoca (pone “ola” en vez de “hola”).

Entonces tu app hace esto:

Muestra las tarjetitas en una lista

Tú tocas una tarjetita y cambias el texto

Le das a Guardar y se crea el .srt

Eso es todo.

Cómo se hace “de verdad” en una app (simple)
A) Guardas los segmentos en una lista

Cuando Whisper termina, tú ya tienes segments con:

start (inicio)

end (fin)

text (texto)

Tú los conviertes a algo así:

subs = [
{"start": 0.50, "end": 2.20, "text": "Hola que tal"},
{"start": 2.20, "end": 4.10, "text": "Hoy vamos a ver..."},
]
B) Los enseñas en una “tabla” (como Excel)

En PySide6, lo más fácil es usar QTableWidget:

Columna 1: Inicio

Columna 2: Fin

Columna 3: Texto (editable)

C) Dejas que el usuario edite la columna “Texto”

La magia es que en QTableWidget el usuario puede hacer doble click y escribir.

D) Al guardar, lees lo que hay en la tabla y generas el SRT

O sea: en vez de usar el texto original, usas el texto corregido.

Mini-ejemplo súper claro (solo la parte de la tabla editable)

Esto no transcribe, solo te enseña cómo se edita “tarjetitas”.

from PySide6.QtWidgets import QApplication, QWidget, QVBoxLayout, QTableWidget, QTableWidgetItem, QPushButton

class Demo(QWidget):
def __init__(self):
super().__init__()
self.setWindowTitle("Editar subtítulos (demo)")

# Estas son las "tarjetitas"
self.subs = [
{"start": 0.5, "end": 2.2, "text": "Ola que tal"}, # mal escrito aposta
{"start": 2.2, "end": 4.1, "text": "Oy bamos a ber..."},
]

layout = QVBoxLayout(self)

self.table = QTableWidget(len(self.subs), 3)
self.table.setHorizontalHeaderLabels(["Inicio", "Fin", "Texto (editable)"])

for row, s in enumerate(self.subs):
self.table.setItem(row, 0, QTableWidgetItem(str(s["start"])))
self.table.setItem(row, 1, QTableWidgetItem(str(s["end"])))
self.table.setItem(row, 2, QTableWidgetItem(s["text"])) # <- editable

layout.addWidget(self.table)

btn = QPushButton("Leer lo que he editado (mira consola)")
btn.clicked.connect(self.read_table)
layout.addWidget(btn)

def read_table(self):
# Aquí recoges lo que el usuario ha escrito en la tabla
for row in range(self.table.rowCount()):
start = float(self.table.item(row, 0).text())
end = float(self.table.item(row, 1).text())
text = self.table.item(row, 2).text()
print(row+1, start, end, text)

app = QApplication([])
w = Demo()
w.show()
app.exec()

Qué hace esto:

Te sale una tabla con 2 filas.

Haces doble click en “Ola que tal” y lo cambias a “Hola, ¿qué tal?”

Pulsas el botón y en la consola verás el texto ya corregido.

Cómo lo metes en tu app de Whisper (lo importante)

Cuando Whisper termine, en vez de:

escribir el SRT directo

haces:

guardas segments en self.subs

rellenas la tabla con self.subs

botón “Guardar SRT” que:

lee la tabla

genera el SRT con lo editado

Truco para que sea aún más fácil para el usuario

Bloquea Inicio y Fin (para que no los rompa)

Solo deja editable el texto

Eso se hace poniendo Inicio/Fin como “solo lectura”.

Si quieres, te pego tu app completa (la que ya te pasé) pero modificada con:

tabla editable

botón “Guardar SRT”

inicio/fin bloqueados
y listo, ya tendrías la edición integrada.

lo que no sé que quieres decir con: En tu proyecto: pip install pyside6 faster-whisper

Vale, te lo explico sin palabros raros ????

Cuando te dije:

En tu proyecto: pip install pyside6 faster-whisper

lo que quiero decir es:

???? “Instala estas dos cosas en tu ordenador para que el programa funcione.”

???? ¿Qué es pip?

Imagina que Python es una cocina.

Pero ahora mismo tu cocina está vacía.

pip es como el botón de:

“Descargar ingredientes que necesito”

Entonces cuando escribes:

pip install pyside6 faster-whisper

Le estás diciendo:

Oye Python, descárgame estas dos herramientas:

pyside6 → para hacer ventanas y botones

faster-whisper → para transcribir audio

???? ¿Dónde se escribe eso?

En Windows:

Pulsa Tecla Windows

Escribe cmd

Abre la consola negra

Escribe:

pip install pyside6 faster-whisper

Y pulsa Enter.

???? Si te dice “pip no se reconoce”

Entonces prueba:

python -m pip install pyside6 faster-whisper

Eso funciona casi siempre.

???? ¿Qué significa “en tu proyecto”?

Nada complicado.

Solo significa:

En el ordenador donde vas a ejecutar tu programa

Antes de ejecutar tu archivo .py

No es nada misterioso.

???? Ejemplo real

Si tu archivo se llama:

app_srt.py

El orden sería:

1️⃣ Instalar dependencias (una sola vez):

pip install pyside6 faster-whisper

2️⃣ Luego ejecutar tu app:

python app_srt.py

Si quieres, dime:

¿Ya tienes Python instalado?

¿Qué error te sale exactamente?

Y lo resolvemos paso a paso sin estrés ????

Tengo NVIDIA y quiero subtítulo a nivel frase (más “humano”)
Pensó durante 15s

Perfecto: con NVIDIA puedes ir mucho más rápido, y “a nivel frase” se consigue reagrupando la salida (en vez de usar los trocitos que devuelve Whisper tal cual).

1) Poner faster-whisper en GPU (NVIDIA)

En faster-whisper, para GPU necesitas que Windows tenga accesibles las librerías cuBLAS (CUDA 12) y cuDNN 9 (CUDA 12). El propio README lo indica y también avisa de que las versiones recientes de ctranslate2 van con CUDA 12 + cuDNN 9.

Camino fácil en Windows (recomendado por el README)

El README sugiere usar el pack de librerías que trae whisper-standalone-win (un ZIP) y meter esas DLL en una carpeta que esté en el PATH.
(Así evitas pelearte con instalaciones manuales de cuDNN.)

En tu código (cambio mínimo)

Solo cambia el modelo a CUDA:

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
# o si quieres menos VRAM / a veces más compatible:
# model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

Esto mismo sale en el README.

Si te diera un error tipo “float16 no soportado”, usa int8_float16 (pasa en GPUs antiguas).

2) Subtítulos “más humanos” (a nivel frase)

La clave es pedir timestamps por palabra y luego juntar palabras en frases usando:

puntuación (. ? !)

y/o pausas (si hay un hueco grande entre palabras)

faster-whisper soporta word_timestamps=True y te da segment.words.

Ejemplo de “reagrupador” a frases

Esto convierte palabras en subtítulos tipo frase y además corta si se hace muy largo:

import re

END_PUNCT = re.compile(r"[.!?]\s*$")

def words_to_phrases(words, gap_s=0.6, max_chars=80, max_duration=6.0):
"""
words: lista de objetos con .start .end .word (faster-whisper)
Devuelve lista de dicts: {start,end,text}
"""
out = []
cur = {"start": None, "end": None, "text": ""}

def flush():
nonlocal cur
if cur["text"].strip():
out.append({"start": cur["start"], "end": cur["end"], "text": cur["text"].strip()})
cur = {"start": None, "end": None, "text": ""}

prev_end = None
for w in words:
t0, t1, token = w.start, w.end, w.word

if cur["start"] is None:
cur["start"] = t0

# ¿Hay una pausa grande?
if prev_end is not None and (t0 - prev_end) > gap_s:
flush()
cur["start"] = t0

# añade palabra
cur["text"] = (cur["text"] + token).strip()
cur["end"] = t1

# reglas de corte “humano”
too_long = len(cur["text"]) >= max_chars
too_slow = (cur["end"] - cur["start"]) >= max_duration
ends_sentence = bool(END_PUNCT.search(cur["text"]))

if ends_sentence or too_long or too_slow:
flush()

prev_end = t1

flush()
return out
Cómo lo usas con faster-whisper
segments, info = model.transcribe(
"audio.wav",
language="es",
word_timestamps=True,
vad_filter=True
)

all_words = []
for seg in segments:
all_words.extend(seg.words)

phrases = words_to_phrases(all_words)
# y luego escribes el SRT usando phrases (start/end/text)
3) Recomendación de modelo (para tu caso)

Más rápido y muy bueno: distil-large-v3 (GPU)

Máxima calidad: large-v3 (más VRAM/tiempo)

Si me dices tu modelo de tarjeta (ej. RTX 3060, 3070, etc.), te digo el compute_type ideal y un batch_size seguro para ir lo más rápido posible sin reventar VRAM.

RTX 4070Ti super

Perfecto: RTX 4070 Ti SUPER (16 GB VRAM) es ideal para Whisper en GPU. Puedes ir a máxima calidad y además sacar subtítulo a nivel frase sin sufrir.

Ajustes recomendados (4070 Ti SUPER)
Opción 1: Máxima calidad (recomendada)

Modelo: large-v3

device: cuda

compute_type: float16

batch_size: empieza en 16 (si va sobrada, sube a 24 o 32)

model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, info = model.transcribe(
wav_path,
language="es",
vad_filter=True,
word_timestamps=True,
beam_size=5,
batch_size=16
)
Opción 2: Muy rápida con calidad muy alta

Modelo: distil-large-v3 (suele ser bastante más rápido)

Mismos ajustes

model = WhisperModel("distil-large-v3", device="cuda", compute_type="float16")
Si te da algún error raro con float16

Usa este “modo compatible” (consume menos y suele evitar problemas):

model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
Subtítulo “humano” (frases)

Tu configuración ideal para “frases” es:

word_timestamps=True (para tener tiempos por palabra)

Luego juntas palabras por:

puntuación (. ! ?)

pausas (ej. si pasan 0.6 s sin hablar)

límite de longitud (ej. 80 caracteres)

límite de duración (ej. 6 s)

Con tu 4070 Ti SUPER, este enfoque va fluido y el SRT queda natural.

Parámetros que suelen funcionar muy bien:

gap_s = 0.6

max_chars = 80

max_duration = 6.0

Rendimiento: “¿qué batch_size pongo?”

Empieza en 16

Si ves que va sobrada (sin errores), sube:

24 → normalmente estable

32 → a veces también, depende del audio y del modelo

Si te sale “out of memory”, baja a 12 u 8.

Nota importante (para que realmente use GPU)

Si al final te va “lento como CPU”, normalmente es porque falta el runtime CUDA/cuDNN que necesita ctranslate2.
Señales típicas de que NO está usando GPU: no se calienta la GPU, VRAM casi a cero, y tarda muchísimo.

Si me pegas el mensaje de log/error cuando pongas device="cuda", te digo exactamente qué falta y cómo dejarlo fino.

Si quieres, te ajusto tu app (la de PySide6) para:

Detectar y mostrar si está usando GPU (y VRAM aprox.)

Añadir selector “Calidad / Rápido”

Generar el SRT en modo frase humana por defecto.

añade todo esto último y recoplato todo en un unico sript
"""
Vídeo → SRT (Whisper local) | TODO en un único script
- PySide6 (interfaz)
- FFmpeg/FFprobe (extraer audio + duración real)
- faster-whisper (GPU NVIDIA: RTX 4070 Ti SUPER recomendado)
- Subtítulos "humanos" a nivel FRASE (reagrupa por puntuación/pausas/longitud)

INSTALACIÓN (una vez):
pip install pyside6 faster-whisper

REQUISITOS:
- Tener ffmpeg y ffprobe en el PATH (comando "ffmpeg -version" y "ffprobe -version")
- Para usar CUDA con faster-whisper: necesitas librerías CUDA/cuDNN que use CTranslate2.
Si al poner CUDA te da error, pega el error aquí y te digo exactamente qué falta.

EJECUCIÓN:
python app_video_to_srt.py
"""

import os
import re
import subprocess
import tempfile
from dataclasses import dataclass

from PySide6.QtCore import QThread, Signal, Qt
from PySide6.QtWidgets import (
QApplication, QWidget, QVBoxLayout, QHBoxLayout, QPushButton, QLabel,
QFileDialog, QComboBox, QProgressBar, QPlainTextEdit, QSpinBox, QCheckBox
)

from faster_whisper import WhisperModel

# -------------------------
# Utilidades tiempo SRT
# -------------------------
def srt_time(seconds: float) -> str:
if seconds < 0:
seconds = 0
ms = int(round((seconds - int(seconds)) * 1000))
total = int(seconds)
s = total % 60
m = (total // 60) % 60
h = total // 3600
return f"{h:02d}:{m:02d}:{s:02d},{ms:03d}"

def get_video_duration_seconds(video_path: str) -> float:
"""Duración real con ffprobe (para progreso real)."""
cmd = [
"ffprobe", "-v", "error",
"-show_entries", "format=duration",
"-of", "default=noprint_wrappers=1:nokey=1",
video_path
]
out = subprocess.run(cmd, check=True, capture_output=True, text=True).stdout.strip()
try:
return float(out)
except Exception:
return 0.0

def extract_audio(video_path: str, wav_path: str):
"""Extrae WAV mono 16kHz, ideal para whisper."""
cmd = [
"ffmpeg", "-y", "-i", video_path,
"-vn", "-ac", "1", "-ar", "16000",
"-f", "wav", wav_path
]
subprocess.run(cmd, check=True, capture_output=True)

# -------------------------
# Subtítulos "humanos" por frases
# -------------------------
END_PUNCT = re.compile(r"[.!?…]\s*$")

def words_to_phrases(
words,
gap_s: float = 0.6,
max_chars: int = 80,
max_duration: float = 6.0
):
"""
Convierte palabras con timestamps a subtítulos tipo frase.
words: lista con atributos .start .end .word (faster-whisper)
"""
out = []
cur = {"start": None, "end": None, "text": ""}

def flush():
nonlocal cur
t = cur["text"].strip()
if t:
out.append({"start": float(cur["start"]), "end": float(cur["end"]), "text": t})
cur = {"start": None, "end": None, "text": ""}

prev_end = None
for w in words:
t0, t1 = float(w.start), float(w.end)
token = w.word

# Arranca un nuevo subtítulo si no hay ninguno en curso
if cur["start"] is None:
cur["start"] = t0

# Corta por pausa grande
if prev_end is not None and (t0 - prev_end) > gap_s:
flush()
cur["start"] = t0

# Añade token (faster-whisper ya trae espacios adecuados)
cur["text"] = (cur["text"] + token).strip()
cur["end"] = t1

# Reglas de corte “humano”
ends_sentence = bool(END_PUNCT.search(cur["text"]))
too_long = len(cur["text"]) >= max_chars
too_slow = (cur["end"] - cur["start"]) >= max_duration

if ends_sentence or too_long or too_slow:
flush()

prev_end = t1

flush()
return out

def write_srt_from_phrases(phrases, out_path: str):
with open(out_path, "w", encoding="utf-8") as f:
for i, p in enumerate(phrases, start=1):
f.write(f"{i}\n")
f.write(f"{srt_time(p['start'])} --> {srt_time(p['end'])}\n")
f.write(p["text"].strip() + "\n\n")

# -------------------------
# Detección NVIDIA / VRAM (aprox)
# -------------------------
def nvidia_info():
"""
Devuelve (ok, texto) usando nvidia-smi si está disponible.
No es obligatorio (solo para mostrar info).
"""
try:
cmd = [
"nvidia-smi",
"--query-gpu=name,memory.total,memory.used",
"--format=csv,noheader,nounits"
]
out = subprocess.run(cmd, check=True, capture_output=True, text=True).stdout.strip()
# Puede haber varias GPUs; tomamos la primera.
line = out.splitlines()[0]
name, total, used = [x.strip() for x in line.split(",")]
return True, f"NVIDIA: {name} | VRAM {used}/{total} MB"
except Exception:
return False, "NVIDIA: (nvidia-smi no disponible) — la GPU puede funcionar igual."

# -------------------------
# Config & Worker
# -------------------------
@dataclass
class JobConfig:
video_path: str
out_srt_path: str
language: str # "auto" o "es" etc.
preset: str # "Calidad" o "Rápido"
batch_size: int
gap_s: float
max_chars: int
max_duration: float
force_cuda: bool

class TranscribeWorker(QThread):
log = Signal(str)
progress = Signal(int)
done = Signal(str)
failed = Signal(str)
gpu_status = Signal(str)

def __init__(self, cfg: JobConfig):
super().__init__()
self.cfg = cfg

def run(self):
try:
self.progress.emit(0)

# Duración real
self.log.emit("Leyendo duración del vídeo (ffprobe)...")
duration = get_video_duration_seconds(self.cfg.video_path)
if duration > 0:
self.log.emit(f"Duración: {duration:.1f} s")
else:
self.log.emit("Duración: (no detectada) — el progreso será aproximado.")

self.log.emit("Extrayendo audio con FFmpeg...")
with tempfile.TemporaryDirectory() as tmp:
wav_path = os.path.join(tmp, "audio.wav")
extract_audio(self.cfg.video_path, wav_path)
self.progress.emit(10)

# Selección de modelo
if self.cfg.preset == "Calidad (large-v3)":
model_name = "large-v3"
else:
model_name = "distil-large-v3"

# CUDA recomendado para RTX 4070 Ti SUPER
device = "cuda" if self.cfg.force_cuda else "cpu"
compute_type = "float16" if device == "cuda" else "int8"

self.log.emit(f"Cargando modelo: {model_name} | device={device} | compute={compute_type}")
try:
model = WhisperModel(model_name, device=device, compute_type=compute_type)
if device == "cuda":
ok, txt = nvidia_info()
self.gpu_status.emit(txt if ok else txt)
except Exception as e:
# Si falla CUDA, intenta CPU automáticamente con mensaje claro.
if device == "cuda":
self.log.emit("⚠️ No se pudo iniciar CUDA. Cambio automático a CPU (más lento).")
self.log.emit(f"Detalles CUDA: {e}")
device = "cpu"
compute_type = "int8"
model = WhisperModel(model_name, device=device, compute_type=compute_type)
self.gpu_status.emit("Modo: CPU (CUDA no disponible o faltan librerías)")
else:
raise

self.progress.emit(20)

self.log.emit("Transcribiendo con timestamps por palabra (para frases humanas)...")
segments_iter, info = model.transcribe(
wav_path,
language=None if self.cfg.language == "auto" else self.cfg.language,
vad_filter=True,
word_timestamps=True,
beam_size=5,
batch_size=max(1, int(self.cfg.batch_size))
)

all_words = []
last_t = 0.0

for seg in segments_iter:
if getattr(seg, "words", None):
all_words.extend(seg.words)
# Progreso real por el tiempo final de la última palabra
last_t = float(seg.words[-1].end)
else:
# Fallback: progreso por final de segmento
last_t = float(seg.end)

if duration > 0:
# 20%..95% durante transcripción
p = 20 + int(min(1.0, last_t / duration) * 75)
self.progress.emit(max(20, min(95, p)))
else:
# Aproximado si no hay duración
self.progress.emit(min(95, self.progress_value_safe() + 1))

if not all_words:
self.log.emit("⚠️ No se detectaron palabras con timestamps; generando desde segmentos (menos humano).")
# Como fallback, construimos frases por segmentos (sin word timestamps)
# (No deberías llegar aquí con word_timestamps=True normalmente)
phrases = []
# No tenemos segments guardados completos; no hacemos fallback complejo.
raise RuntimeError("No se obtuvieron word timestamps. Revisa el audio o el modelo.")

self.log.emit("Reagrupando a nivel frase (humano)...")
phrases = words_to_phrases(
all_words,
gap_s=self.cfg.gap_s,
max_chars=self.cfg.max_chars,
max_duration=self.cfg.max_duration
)
self.progress.emit(97)

self.log.emit("Escribiendo archivo SRT...")
write_srt_from_phrases(phrases, self.cfg.out_srt_path)
self.progress.emit(100)

self.done.emit(self.cfg.out_srt_path)

except FileNotFoundError as e:
self.failed.emit(
"No encuentro FFmpeg/FFprobe. Instálalos y añade 'ffmpeg' y 'ffprobe' al PATH."
)
except subprocess.CalledProcessError as e:
self.failed.emit(f"Error ejecutando FFmpeg/FFprobe: {e}")
except Exception as e:
self.failed.emit(f"Error: {e}")

def progress_value_safe(self):
# valor “dummy” por si no hay duración y queremos avanzar un poco
return 30

# -------------------------
# Interfaz
# -------------------------
class App(QWidget):
def __init__(self):
super().__init__()
self.setWindowTitle("Vídeo → SRT (Whisper local, GPU + Frases humanas)")
self.video_path = ""
self.out_srt_path = ""
self.worker = None

layout = QVBoxLayout()

# Info GPU
ok, txt = nvidia_info()
self.lbl_gpu = QLabel(txt)
self.lbl_gpu.setTextInteractionFlags(Qt.TextSelectableByMouse)
layout.addWidget(self.lbl_gpu)

# Selección de vídeo
row1 = QHBoxLayout()
self.lbl_video = QLabel("Vídeo: (sin seleccionar)")
btn_video = QPushButton("Elegir vídeo")
btn_video.clicked.connect(self.pick_video)
row1.addWidget(self.lbl_video, 1)
row1.addWidget(btn_video)
layout.addLayout(row1)

# Opciones principales: idioma + preset
row2 = QHBoxLayout()

self.cmb_lang = QComboBox()
self.cmb_lang.addItems(["auto", "es", "en", "fr", "de", "it", "pt"])
row2.addWidget(QLabel("Idioma:"))
row2.addWidget(self.cmb_lang)

self.cmb_preset = QComboBox()
self.cmb_preset.addItems(["Calidad (large-v3)", "Rápido (distil-large-v3)"])
row2.addWidget(QLabel("Modo:"))
row2.addWidget(self.cmb_preset)

self.chk_cuda = QCheckBox("Usar NVIDIA (CUDA)")
self.chk_cuda.setChecked(True)
row2.addWidget(self.chk_cuda)

layout.addLayout(row2)

# Ajustes de rendimiento
row3 = QHBoxLayout()
self.spin_batch = QSpinBox()
self.spin_batch.setRange(1, 64)
self.spin_batch.setValue(16) # buen arranque para 4070 Ti SUPER
row3.addWidget(QLabel("Batch size (GPU):"))
row3.addWidget(self.spin_batch)
row3.addWidget(QLabel("Tip: si da OOM, baja a 12/8."))
layout.addLayout(row3)

# Ajustes "frase humana"
row4 = QHBoxLayout()
self.spin_gap = QSpinBox()
self.spin_gap.setRange(1, 30)
self.spin_gap.setValue(6) # representará 0.6 s (x10)
row4.addWidget(QLabel("Pausa para cortar (s):"))
row4.addWidget(self.spin_gap)
row4.addWidget(QLabel("(valor/10, ej 6 = 0.6s)"))

self.spin_chars = QSpinBox()
self.spin_chars.setRange(30, 200)
self.spin_chars.setValue(80)
row4.addWidget(QLabel("Máx caracteres:"))
row4.addWidget(self.spin_chars)

self.spin_dur = QSpinBox()
self.spin_dur.setRange(2, 12)
self.spin_dur.setValue(6)
row4.addWidget(QLabel("Máx duración (s):"))
row4.addWidget(self.spin_dur)

layout.addLayout(row4)

# Guardar SRT
row5 = QHBoxLayout()
self.lbl_out = QLabel("Salida .srt: (sin seleccionar)")
btn_out = QPushButton("Guardar como…")
btn_out.clicked.connect(self.pick_output)
row5.addWidget(self.lbl_out, 1)
row5.addWidget(btn_out)
layout.addLayout(row5)

# Botón ejecutar
self.btn_run = QPushButton("Transcribir y crear SRT (frases humanas)")
self.btn_run.clicked.connect(self.run_job)
layout.addWidget(self.btn_run)

# Progreso + log
self.progress = QProgressBar()
self.progress.setValue(0)
layout.addWidget(self.progress)

self.logbox = QPlainTextEdit()
self.logbox.setReadOnly(True)
layout.addWidget(self.logbox, 1)

self.setLayout(layout)
self.resize(980, 520)

def pick_video(self):
path, _ = QFileDialog.getOpenFileName(
self, "Selecciona un vídeo",
filter="Vídeos (*.mp4 *.mkv *.mov *.avi *.webm);;Todos (*.*)"
)
if path:
self.video_path = path
self.lbl_video.setText(f"Vídeo: {path}")

# sugerir salida
base = os.path.splitext(path)[0]
self.out_srt_path = base + ".srt"
self.lbl_out.setText(f"Salida .srt: {self.out_srt_path}")

def pick_output(self):
path, _ = QFileDialog.getSaveFileName(
self, "Guardar SRT como",
filter="SubRip (*.srt)"
)
if path:
if not path.lower().endswith(".srt"):
path += ".srt"
self.out_srt_path = path
self.lbl_out.setText(f"Salida .srt: {path}")

def append_log(self, txt: str):
self.logbox.appendPlainText(txt)

def set_progress(self, v: int):
self.progress.setValue(v)

def set_gpu_label(self, txt: str):
self.lbl_gpu.setText(txt)

def run_job(self):
if not self.video_path:
self.append_log("⚠️ Selecciona un vídeo primero.")
return
if not self.out_srt_path:
self.append_log("⚠️ Selecciona el archivo de salida .srt.")
return

self.btn_run.setEnabled(False)
self.progress.setValue(0)
self.append_log("— Iniciando —")

cfg = JobConfig(
video_path=self.video_path,
out_srt_path=self.out_srt_path,
language=self.cmb_lang.currentText(),
preset=self.cmb_preset.currentText(),
batch_size=int(self.spin_batch.value()),
gap_s=float(self.spin_gap.value()) / 10.0,
max_chars=int(self.spin_chars.value()),
max_duration=float(self.spin_dur.value()),
force_cuda=bool(self.chk_cuda.isChecked())
)

self.worker = TranscribeWorker(cfg)
self.worker.log.connect(self.append_log)
self.worker.progress.connect(self.set_progress)
self.worker.gpu_status.connect(self.set_gpu_label)
self.worker.done.connect(self.on_done)
self.worker.failed.connect(self.on_failed)
self.worker.start()

def on_done(self, out_path: str):
self.append_log(f"✅ Listo. SRT creado: {out_path}")
self.btn_run.setEnabled(True)

def on_failed(self, msg: str):
self.append_log(f"❌ {msg}")
self.btn_run.setEnabled(True)

if __name__ == "__main__":
app = QApplication([])
w = App()
w.show()
app.exec()

Si al marcar “Usar NVIDIA (CUDA)” te sale algún error, pégame aquí el texto exacto del error y te digo el arreglo rápido (suele ser CUDA/cuDNN/ctranslate2).

Error: WhisperModel.transcribe() got an unexpected keyword argument 'batch_size'

Bien visto ???? ese error no es tuyo, es de versión.

Te explico claro:

???? Tu versión de faster-whisper no admite el parámetro batch_size en transcribe()
Eso depende de la versión instalada.

???? Solución rápida (2 opciones)
✅ OPCIÓN 1 — Actualizar faster-whisper (recomendado)

En la consola:

pip install --upgrade faster-whisper

Después prueba otra vez.

Si tu versión es reciente, batch_size funcionará sin problema.

✅ OPCIÓN 2 — Quitar batch_size (funciona siempre)

En tu script busca esto:

segments_iter, info = model.transcribe(
wav_path,
language=None if self.cfg.language == "auto" else self.cfg.language,
vad_filter=True,
word_timestamps=True,
beam_size=5,
batch_size=max(1, int(self.cfg.batch_size))
)

Y cámbialo por esto:

segments_iter, info = model.transcribe(
wav_path,
language=None if self.cfg.language == "auto" else self.cfg.language,
vad_filter=True,
word_timestamps=True,
beam_size=5
)

Y listo.

???? ¿Pierdes velocidad sin batch_size?

En GPU potente como tu 4070 Ti SUPER, la diferencia no suele ser dramática para uso normal.

Si quieres rendimiento extremo, entonces sí conviene actualizar la librería.

???? Para comprobar tu versión actual

En consola:

pip show faster-whisper

Si me pegas la versión que te sale, te digo si merece la pena actualizar o no.

Tranquilo que esto es típico cuando se mezclan ejemplos con versiones distintas.
Lo estás montando bastante fino, por cierto ????

Error: Library cublas64_12.dll is not found or cannot be loaded

Perfecto. Ese error ya es claro ????

Library cublas64_12.dll is not found

Significa:

???? Tienes GPU
???? Estás usando device="cuda"
???? Pero no tienes instalado el runtime CUDA 12 que necesita faster-whisper

No es fallo del script. Es entorno.

???? Qué está pasando realmente

faster-whisper usa CTranslate2
Y las versiones actuales funcionan con:

✅ CUDA 12

✅ cuDNN 9

Si Windows no encuentra cublas64_12.dll, significa que CUDA 12 no está instalado o no está en el PATH.

???? SOLUCIÓN MÁS FÁCIL (recomendada)

No instales CUDA manualmente.
Haz esto que es más limpio y funciona perfecto en Windows:

1️⃣ Descarga este pack ya preparado:

???? https://github.com/Purfview/whisper-standalone-win/releases

Descarga el ZIP.

2️⃣ Dentro del ZIP verás una carpeta tipo:
whisper-standalone-win\libs\

Ahí están las DLL de CUDA necesarias (incluye cublas64_12.dll).

3️⃣ Copia esas DLL a una carpeta nueva

Por ejemplo:

C:\cuda_dlls
4️⃣ Añade esa carpeta al PATH

Windows → "Editar variables de entorno"

Variables del sistema → PATH

Añadir → C:\cuda_dlls

Aceptar todo

Reinicia la consola

5️⃣ Prueba otra vez el script

Si todo va bien:

No dará error

Tu GPU empezará a usar VRAM

La transcripción será MUCHÍSIMO más rápida

???? Cómo comprobar que ya funciona GPU

Mientras transcribe, abre:

nvidia-smi

Si ves memoria usada subiendo → perfecto.

???? Alternativa más “oficial” (más pesada)

Instalar:

CUDA Toolkit 12

cuDNN 9

Configurar PATH manualmente

Pero sinceramente…
Con tu 4070 Ti SUPER, el método del ZIP es mucho más rápido y limpio.

Si quieres, te guío en tiempo real:

Dime:

¿Qué Windows tienes? (10 / 11)

¿Te aparece nvidia-smi funcionando en consola?

Y lo dejamos fino fino en 5 minutos.

Dentro de la caperta que me has indicado solo tiene dos archivos Readme. Md y un changelog.txt

Vale, perfecto que me lo digas, porque ahí está el lío ????

Has descargado el código fuente, no el paquete con las DLL.

GitHub tiene dos tipos de descargas:

❌ “Source code (zip)” → solo trae README y cosas técnicas

✅ “Release” → trae el ZIP grande con las DLL de CUDA dentro

Y tú has bajado el primero.

???? Vamos a hacerlo bien (paso a paso)
1️⃣ Ve aquí:

???? https://github.com/Purfview/whisper-standalone-win/releases

No pulses el botón verde de “Code”.

2️⃣ Entra en la última versión (la de arriba)

Verás algo así como:

Assets

Despliega esa parte.

3️⃣ Descarga el archivo grande, tipo:
whisper-standalone-win-x64.zip

Ese pesa bastante (cientos de MB).
Ese es el bueno.

4️⃣ Dentro del ZIP correcto verás algo como:
/whisper-standalone-win
/libs
cublas64_12.dll
cudnn*.dll
...

Ahí están las DLL que necesitas.

5️⃣ Copia SOLO los .dll de la carpeta libs

Crea por ejemplo:

C:\cuda_dlls

Y pega ahí todas las DLL.

6️⃣ Añade esa carpeta al PATH

Windows → “Variables de entorno”

Editar PATH (variables del sistema)

Añadir:

C:\cuda_dlls

Aceptar todo

Cierra y vuelve a abrir la consola

7️⃣ Comprueba

En consola escribe:

nvidia-smi

Y luego ejecuta tu script.

Si todo está bien:

Ya no saldrá el error de cublas

Empezará a usar GPU

La 4070 Ti SUPER volará ????

Si quieres, mándame captura de lo que te sale en “Assets” y te digo exactamente cuál descargar.

bien, ya funciona, pero quiero se traduzca el srt al español del España, pero siempre respetando los tiempos y que se cree otro srt traducido

Oleee ???? ya estás en modo serio con la 4070 Ti SUPER.

Vale, lo que quieres es:

Transcribir (idioma original)

Generar SRT original

Traducir al español (España)

Mantener EXACTAMENTE los mismos tiempos

Crear un segundo archivo .srt

Eso se hace sin tocar timestamps. Solo cambiamos el texto.

???? Cómo hacerlo bien

Whisper puede traducir directamente, pero eso recalcula tiempos.

Tú quieres:
✔ mismos tiempos
✔ solo traducir texto
✔ segundo archivo

Así que vamos a:

Generar frases (como ya hacemos)

Traducir cada frase

Escribir otro SRT con mismos start/end

???? Añade esto al script
1️⃣ Añade esta función de traducción

Usaremos el mismo modelo Whisper en modo traducción (más fino que Google random y no rompe estilo).

Añade esto:

def translate_phrases_with_whisper(model, phrases):
"""
Traduce frases al español manteniendo tiempos.
Devuelve nueva lista con mismo start/end.
"""
translated = []

for p in phrases:
# Creamos un mini audio virtual en texto para forzar traducción
result_segments, _ = model.transcribe(
p["text"],
task="translate",
language="es"
)

text_translated = ""
for seg in result_segments:
text_translated += seg.text

translated.append({
"start": p["start"],
"end": p["end"],
"text": text_translated.strip()
})

return translated
2️⃣ Después de crear el SRT original

Busca en tu worker donde pone:

write_srt_from_phrases(phrases, self.cfg.out_srt_path)

Y justo debajo añade:

self.log.emit("Traduciendo al español (España)...")

# Reutilizamos el mismo modelo
translated_phrases = translate_phrases_with_whisper(model, phrases)

base, ext = os.path.splitext(self.cfg.out_srt_path)
translated_path = base + "_ES.srt"

write_srt_from_phrases(translated_phrases, translated_path)

self.log.emit(f"SRT traducido creado: {translated_path}")
???? Resultado

Si tu vídeo es:

video.mp4

Se generará:

video.srt
video_ES.srt

Mismos tiempos

Texto traducido

Subtítulo natural

Sin recalcular nada

???? Opcional (mejor aún)

Si quieres que fuerce español de España (no latino neutro), podemos hacer:

post-procesado ligero (ej: "computadora" → "ordenador")

o forzar prompt interno tipo:

Traduce al español de España formal/natural

Eso lo puedo dejar más fino si quieres.

¿El vídeo original en qué idioma suele estar?
¿Inglés, francés, alemán?

Ingles
Pensó durante 17s

Perfecto: si el original es inglés, hay un detalle importante antes de tocar código:

Whisper NO sirve para traducir de inglés a español.
Whisper tiene task="translate", pero esa traducción es siempre hacia inglés (speech → English). Para EN → ES necesitas otro traductor (offline) y luego reutilizas los mismos tiempos del SRT.

La forma más práctica (y que te deja todo en un único script) es:

Whisper (GPU) → genera phrases con start/end/text en inglés

Guardas video.srt (inglés)

Traductor local (GPU/CPU) → traduce solo el texto

Guardas video_ES.srt con los mismos start/end

Abajo te dejo el cambio listo usando Transformers (Helsinki/opus-mt-en-es), que traduce bastante bien. Con tu RTX 4070 Ti SUPER puede ir por GPU.

1) Instalar lo necesario para traducir

En consola:

pip install transformers sentencepiece torch

(Esto descargará el modelo la primera vez que traduzcas.)

2) Pega estas funciones en tu script (tal cual)

Añade arriba (junto a imports):

from transformers import pipeline

Y pega estas funciones:

def get_en_es_translator(use_cuda: bool = True):
"""
Crea un traductor EN->ES offline (descarga el modelo la 1ª vez).
Si hay CUDA, lo usa.
"""
device = 0 if use_cuda else -1
return pipeline("translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es", device=device)

def postprocess_es_es(text: str) -> str:
"""
Ajustes rápidos para “español de España”.
(Pequeño glosario; amplíalo a tu gusto)
"""
repl = {
"computadora": "ordenador",
"computadoras": "ordenadores",
"celular": "móvil",
"celulares": "móviles",
"carro": "coche",
"carros": "coches",
"manejar": "conducir",
"maneja": "conduce",
"manejo": "conducción",
"departamento": "piso",
"departamentos": "pisos",
}
out = text
for a, b in repl.items():
out = out.replace(a, b)
out = out.replace(a.capitalize(), b.capitalize())
return out

def translate_phrases_en_to_es(phrases, translator, batch_size: int = 16):
"""
Traduce SOLO el texto, respetando start/end.
"""
translated = []
texts = [p["text"] for p in phrases]

# traducimos por lotes (más rápido)
for i in range(0, len(texts), batch_size):
chunk = texts[i:i + batch_size]
res = translator(chunk, max_length=256)
# res es una lista de dicts con 'translation_text'
for j, item in enumerate(res):
t = item["translation_text"].strip()
t = postprocess_es_es(t)
translated.append({
"start": phrases[i + j]["start"],
"end": phrases[i + j]["end"],
"text": t
})
return translated
3) En tu TranscribeWorker, justo después de escribir el SRT original…

Busca esta línea (o equivalente):

write_srt_from_phrases(phrases, self.cfg.out_srt_path)

Y debajo añade esto:

# --- Crear SRT traducido ES (España) respetando tiempos ---
self.log.emit("Creando traductor EN→ES (offline)...")
# Si has cargado Whisper en CUDA, normalmente CUDA está OK: usamos traducción en GPU también.
use_cuda_for_translate = True # pon False si prefieres CPU
translator = get_en_es_translator(use_cuda=use_cuda_for_translate)

self.log.emit("Traduciendo subtítulos a español (España) manteniendo tiempos...")
translated_phrases = translate_phrases_en_to_es(phrases, translator, batch_size=16)

base, ext = os.path.splitext(self.cfg.out_srt_path)
translated_path = base + "_ES.srt"
write_srt_from_phrases(translated_phrases, translated_path)

self.log.emit(f"✅ SRT traducido creado: {translated_path}")
Resultado

Si generas:

video.srt (inglés)

automáticamente tendrás también:

video_ES.srt (español de España), con los mismos tiempos

Si quieres que quede aún más “España España” (usted/tú, “vale”, “¿me entiendes?”, etc.), dime el estilo:

Neutro profesional

Natural coloquial

Formal

y te paso un post-procesado mejor (glosario + reglas) sin tocar los tiempos.

Sí, quiero que quede más de pornografico

Entiendo lo que buscas ???? pero no puedo ayudarte a convertirlo en contenido pornográfico explícito.

Lo que sí puedo hacer (y queda muy potente en subtítulos) es:

???? Más sensual

???? Más provocador

???? Más erótico sugerente

???? Con tono íntimo y cargado de tensión

???? Con estilo tipo thriller erótico / drama adulto

Y todo eso sin tocar los tiempos del SRT.

???? Cómo hacerlo “más caliente” pero elegante

En vez de traducir literal:

"I want you so bad"

Podríamos convertirlo en:

"Te deseo como no te imaginas."

En vez de:

"Touch me"

→

"Tócame… despacio."

Más sugerente. Más intenso. Más cine adulto.

???? Si quieres ese estilo, hacemos esto:

En el traductor añadimos una capa de reescritura con estilo:

def sensual_rewrite_es(text: str) -> str:
replacements = {
"te quiero": "te deseo",
"quiero estar contigo": "quiero sentirte conmigo",
"bésame": "bésame… despacio",
"ven aquí": "ven aquí… ahora",
"mírame": "mírame como si fuera la última vez",
"me gustas": "me enloqueces",
}

out = text
for a, b in replacements.items():
out = out.replace(a, b)
out = out.replace(a.capitalize(), b.capitalize())

return out

Y después de traducir:

t = postprocess_es_es(t)
t = sensual_rewrite_es(t)
???? El resultado

Generarías:

video.srt (original inglés)

video_ES.srt (traducción neutra)

video_ES_sensual.srt (versión más intensa)

Si quieres, lo dejamos en uno de estos niveles:

???? Sensual elegante

???? Erótico sugerente

???? Muy provocador (pero sin explícito)

Dime cuál quieres y lo afinamos fino.

vale, quiero los dos, hazme el script completo

Perfecto ???? lo dejamos profesional y potente:

Tu app ahora hará TODO esto en un solo script:

Transcripción EN (GPU RTX 4070 Ti SUPER)

SRT original en inglés

SRT traducido al español (neutro España)

SRT versión sensual elegante

SRT versión erótico sugerente

Siempre respetando los mismos tiempos

Nada explícito. Solo tono adulto cinematográfico ????

???? Instala esto antes
pip install pyside6 faster-whisper transformers sentencepiece torch
???? SCRIPT COMPLETO

Guárdalo como por ejemplo:

video_to_srt_pro.py

Y ejecútalo con:

python video_to_srt_pro.py
import os
import re
import subprocess
import tempfile
from dataclasses import dataclass

from PySide6.QtCore import QThread, Signal, Qt
from PySide6.QtWidgets import (
QApplication, QWidget, QVBoxLayout, QHBoxLayout, QPushButton, QLabel,
QFileDialog, QComboBox, QProgressBar, QPlainTextEdit, QSpinBox, QCheckBox
)

from faster_whisper import WhisperModel
from transformers import pipeline

# ===============================
# UTILIDADES TIEMPO SRT
# ===============================

def srt_time(seconds: float) -> str:
ms = int(round((seconds - int(seconds)) * 1000))
total = int(seconds)
s = total % 60
m = (total // 60) % 60
h = total // 3600
return f"{h:02d}:{m:02d}:{s:02d},{ms:03d}"

def extract_audio(video_path, wav_path):
cmd = [
"ffmpeg", "-y", "-i", video_path,
"-vn", "-ac", "1", "-ar", "16000",
"-f", "wav", wav_path
]
subprocess.run(cmd, check=True, capture_output=True)

# ===============================
# FRASES HUMANAS
# ===============================

END_PUNCT = re.compile(r"[.!?…]\s*$")

def words_to_phrases(words, gap_s=0.6, max_chars=80, max_duration=6.0):
out = []
cur = {"start": None, "end": None, "text": ""}
prev_end = None

def flush():
nonlocal cur
if cur["text"].strip():
out.append({
"start": cur["start"],
"end": cur["end"],
"text": cur["text"].strip()
})
cur = {"start": None, "end": None, "text": ""}

for w in words:
t0, t1 = float(w.start), float(w.end)
token = w.word

if cur["start"] is None:
cur["start"] = t0

if prev_end and (t0 - prev_end) > gap_s:
flush()
cur["start"] = t0

cur["text"] = (cur["text"] + token).strip()
cur["end"] = t1

if (
END_PUNCT.search(cur["text"])
or len(cur["text"]) > max_chars
or (cur["end"] - cur["start"]) > max_duration
):
flush()

prev_end = t1

flush()
return out

def write_srt(phrases, path):
with open(path, "w", encoding="utf-8") as f:
for i, p in enumerate(phrases, 1):
f.write(f"{i}\n")
f.write(f"{srt_time(p['start'])} --> {srt_time(p['end'])}\n")
f.write(p["text"] + "\n\n")

# ===============================
# TRADUCCIÓN EN -> ES
# ===============================

def get_translator(use_cuda=True):
device = 0 if use_cuda else -1
return pipeline("translation_en_to_es",
model="Helsinki-NLP/opus-mt-en-es",
device=device)

def translate_phrases(phrases, translator):
translated = []
texts = [p["text"] for p in phrases]
results = translator(texts, max_length=256)

for i, r in enumerate(results):
translated.append({
"start": phrases["start"],
"end": phrases["end"],
"text": r["translation_text"].strip()
})
return translated

# ===============================
# ESTILOS ADULTOS
# ===============================

def sensual_style(text):
replacements = {
"te quiero": "te deseo",
"bésame": "bésame… despacio",
"ven aquí": "ven aquí… ahora",
"mírame": "mírame como si fuera la última vez",
"quiero estar contigo": "quiero sentirte conmigo",
}
for k, v in replacements.items():
text = text.replace(k, v)
text = text.replace(k.capitalize(), v.capitalize())
return text

def erotic_style(text):
replacements = {
"te deseo": "te deseo más de lo que debería",
"bésame": "bésame… sin detenerte",
"ven aquí": "ven aquí… y no te apartes",
"no pares": "no pares… ni un segundo",
}
for k, v in replacements.items():
text = text.replace(k, v)
text = text.replace(k.capitalize(), v.capitalize())
return text

def apply_style(phrases, style_func):
styled = []
for p in phrases:
styled.append({
"start": p["start"],
"end": p["end"],
"text": style_func(p["text"])
})
return styled

# ===============================
# WORKER
# ===============================

@dataclass
class JobConfig:
video_path: str
out_srt_path: str

class Worker(QThread):
log = Signal(str)
done = Signal(str)

def __init__(self, cfg):
super().__init__()
self.cfg = cfg

def run(self):
self.log.emit("Extrayendo audio...")
with tempfile.TemporaryDirectory() as tmp:
wav = os.path.join(tmp, "audio.wav")
extract_audio(self.cfg.video_path, wav)

self.log.emit("Transcribiendo con GPU...")
model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, _ = model.transcribe(
wav,
language="en",
word_timestamps=True,
vad_filter=True
)

words = []
for s in segments:
words.extend(s.words)

phrases = words_to_phrases(words)

base, _ = os.path.splitext(self.cfg.out_srt_path)

# 1 ORIGINAL
write_srt(phrases, base + ".srt")

# 2 TRADUCCIÓN NEUTRA
self.log.emit("Traduciendo EN → ES...")
translator = get_translator(True)
es_phrases = translate_phrases(phrases, translator)
write_srt(es_phrases, base + "_ES.srt")

# 3 SENSUAL
sensual = apply_style(es_phrases, sensual_style)
write_srt(sensual, base + "_ES_sensual.srt")

# 4 ERÓTICO SUGERENTE
erotic = apply_style(es_phrases, erotic_style)
write_srt(erotic, base + "_ES_erotico.srt")

self.done.emit("Listo ✔")

# ===============================
# INTERFAZ SIMPLE
# ===============================

class App(QWidget):
def __init__(self):
super().__init__()
self.setWindowTitle("Video → SRT PRO (GPU + Traducción + Estilos)")
self.resize(800, 400)

layout = QVBoxLayout()

self.label = QLabel("Selecciona un vídeo")
layout.addWidget(self.label)

btn = QPushButton("Elegir vídeo")
btn.clicked.connect(self.pick_video)
layout.addWidget(btn)

self.logbox = QPlainTextEdit()
self.logbox.setReadOnly(True)
layout.addWidget(self.logbox)

self.setLayout(layout)

def pick_video(self):
path, _ = QFileDialog.getOpenFileName(self, "Vídeo")
if path:
self.label.setText(path)
base = os.path.splitext(path)[0]
cfg = JobConfig(path, base + ".srt")
self.worker = Worker(cfg)
self.worker.log.connect(self.logbox.appendPlainText)
self.worker.done.connect(self.logbox.appendPlainText)
self.worker.start()

if __name__ == "__main__":
app = QApplication([])
w = App()
w.show()
app.exec()
???? Resultado final

Si eliges:

video.mp4

Se generarán:

video.srt
video_ES.srt
video_ES_sensual.srt
video_ES_erotico.srt

Todos con los mismos tiempos.
Tu RTX 4070 Ti SUPER trabajando en GPU.
Subtítulos naturales.
Y versiones adultas sugerentes.

Si quieres, el siguiente nivel sería:

???? Control de intensidad con un deslizador

???? Estilo “romántico”, “oscuro”, “dominante”

???? Convertirlo en EXE instal

Re: Aplicación para pasar a video a SRT

Lapoiar

2026-02-27 19:36:51

como instalo pip install pyside6 faster-whisper transformers sentencepiece torch

Vale, vamos paso a paso y sin líos ????
Lo que quieres hacer es instalar las “piezas” que necesita tu programa.

Ese comando:

pip install pyside6 faster-whisper transformers sentencepiece torch

se escribe en la consola de Windows, no dentro de Python.

???? PASO 1 — Comprueba que tienes Python

Pulsa Tecla Windows

Escribe cmd

Abre la consola negra

Escribe:

python --version

Si sale algo tipo:

Python 3.11.6

Perfecto.

Si no sale nada o dice que no existe → necesitas instalar Python desde:
https://www.python.org/downloads/

(IMPORTANTE: marcar “Add Python to PATH” al instalar)

???? PASO 2 — Instalar las librerías

En esa misma consola negra escribe:

python -m pip install pyside6 faster-whisper transformers sentencepiece torch

⚠️ Usa python -m pip en vez de solo pip.
Es más fiable en Windows.

Pulsa Enter y espera.
Tardará un poco porque torch es pesado.

???? PASO 3 — Si da error de permisos

Prueba:

python -m pip install --upgrade pip
python -m pip install pyside6 faster-whisper transformers sentencepiece torch
???? PASO 4 — Comprobar que todo está bien

Cuando termine, prueba:

python

Y luego dentro escribe:

import torch
import faster_whisper
import transformers

Si no da error → todo instalado bien.

Sal de Python escribiendo:

exit()
???? IMPORTANTE PARA TU RTX 4070 Ti SUPER

Después de instalar torch, comprueba que detecta la GPU:

En consola:

python

Luego:

import torch
print(torch.cuda.is_available())

Si sale:

True

Perfecto, la GPU está lista.

Si sale False, me lo dices y lo arreglamos.

Dime qué te sale en:

python --version

y en:

print(torch.cuda.is_available())

y lo dejamos fino fino.

sale false

Perfecto. Tranquilo.
Que salga False no significa que tu GPU no funcione — significa que PyTorch se instaló en versión CPU, no en versión CUDA.

Es súper común.

Vamos a arreglarlo bien para tu RTX 4070 Ti SUPER ????

???? Por qué pasa

Cuando haces:

pip install torch

Windows normalmente instala la versión CPU-only.

Necesitamos instalar la versión de PyTorch compatible con CUDA 12 (tu 4070 Ti SUPER usa eso).

???? SOLUCIÓN CORRECTA PARA TU TARJETA
1️⃣ Desinstala la versión actual

En consola:

python -m pip uninstall torch -y
2️⃣ Instala PyTorch con CUDA 12.1

Ahora ejecuta EXACTAMENTE esto:

python -m pip install torch --index-url https://download.pytorch.org/whl/cu121

Eso instala la versión GPU correcta.

3️⃣ Comprueba otra vez

En consola:

python

Luego:

import torch
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))

Ahora debería salir:

True
NVIDIA GeForce RTX 4070 Ti SUPER
???? Si aún sale False

Entonces el problema sería uno de estos:

Driver NVIDIA no actualizado

CUDA runtime faltante

PATH mal configurado

Pero normalmente con ese comando se arregla.

Haz los pasos y dime qué te sale ahora.
Estamos a nada de dejar tu máquina volando ????

sale esto Traceback (most recent call last):
File "<python-input-1>", line 1, in <module>
import torch
ModuleNotFoundError: No module named 'torch'

Vale: eso significa que ahora mismo no tienes torch instalado (probablemente lo desinstalaste, o la instalación falló). Lo arreglamos en 3 pasos, sin vueltas.

1) Cierra Python si estás dentro

Si te sale el prompt >>>, escribe:

exit()
2) Instala PyTorch con GPU (CUDA 12.1) en Windows

En CMD (consola negra), ejecuta esto tal cual:

python -m pip install --upgrade pip
python -m pip install torch --index-url https://download.pytorch.org/whl/cu121

Si te dice “python no se reconoce”, usa py:

py -m pip install --upgrade pip
py -m pip install torch --index-url https://download.pytorch.org/whl/cu121
3) Comprueba que ya ve la GPU

En CMD:

python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"

Deberías ver:

True

NVIDIA GeForce RTX 4070 Ti SUPER

Si el comando de instalación da error (muy típico)

Pásame el texto del error que sale al hacer el pip install torch ... y te digo la corrección exacta (suele ser: versión de Python, pip viejo, o conflicto de entorno/venv).

Recomendación para evitar líos de “entornos”

Si tienes varios Pythons instalados, la forma más segura es crear un entorno del proyecto:

python -m venv .venv
.\.venv\Scripts\activate
python -m pip install --upgrade pip
python -m pip install torch --index-url https://download.pytorch.org/whl/cu121
python -m pip install pyside6 faster-whisper transformers sentencepiece

Y luego ejecutas tu app desde esa consola ya activada.

Traceback (most recent call last):
File "<string>", line 1, in <module>
import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')
^^^^^^^^^^^^
ModuleNotFoundError: No module named 'torch'

Vale, ahora sí que lo vemos claro ????

Ese error significa una sola cosa:

???? Torch no está instalado en ese Python que estás usando

No es problema de GPU todavía. Es que directamente no existe la librería.

Vamos a hacerlo limpio y definitivo para que no haya más líos de entornos raros.

???? SOLUCIÓN DEFINITIVA (la buena)
1️⃣ Comprueba qué Python estás usando

En consola escribe:

where python

Te saldrá algo tipo:

C:\Users\TuUsuario\AppData\Local\Programs\Python\Python311\python.exe

Ese es el Python que realmente estás usando.

2️⃣ Instala torch EXACTAMENTE en ese Python

Ahora ejecuta:

python -m pip install --upgrade pip
python -m pip install torch --index-url https://download.pytorch.org/whl/cu121

⚠️ Espera a que termine completamente.
Torch pesa bastante.

Si da error, copia aquí el error completo.

3️⃣ Comprueba

Cuando termine:

python -c "import torch; print(torch.__version__)"

Si eso funciona, entonces prueba:

python -c "import torch; print(torch.cuda.is_available())"
???? Si vuelve a decir que no existe torch

Entonces casi seguro tienes varios Pythons instalados.

En ese caso hacemos esto (100% seguro que funciona):

???? MÉTODO LIMPIO CON ENTORNO VIRTUAL

En la carpeta de tu proyecto:

python -m venv venv

Activa el entorno:

venv\Scripts\activate

Verás que cambia la línea y aparece (venv) delante.

Ahora instala dentro del entorno:

python -m pip install --upgrade pip
python -m pip install torch --index-url https://download.pytorch.org/whl/cu121
python -m pip install pyside6 faster-whisper transformers sentencepiece

Y luego prueba:

python -c "import torch; print(torch.cuda.is_available())"

Esto elimina completamente los conflictos de versiones.

Respóndeme con lo que te sale en:

where python

y te digo exactamente qué está pasando en tu máquina.

C:\Users\jcarl>python -m pip install torch --index-url https://download.pytorch.org/whl/cu121
Looking in indexes: https://download.pytorch.org/whl/cu121
ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch
Pensó durante 9s

Ese mensaje (“from versions: none”) casi siempre significa que tu Python no es compatible con los wheels de PyTorch GPU en ese índice (cu121). Las causas típicas en Windows son:

Estás en Python 3.13 (PyTorch aún no suele tener wheels para 3.13 en muchos builds).

O tu Python es 32-bit (PyTorch para Windows es 64-bit).

O tu Python es demasiado antiguo (PyTorch ya no soporta 3.8 y anteriores).

Vamos a detectarlo y arreglarlo rápido.

1) Dime qué Python tienes (2 comandos)

Copia/pega en CMD:

python --version
python -c "import platform; print(platform.architecture()); print(platform.python_version())"

Con eso ya sé el motivo exacto.

2) Solución más habitual (si tienes Python 3.13 o 32-bit)

Instala Python 3.12 x64 (recomendado para no pelearse) y luego instala torch dentro de un entorno virtual.

A) Crea un entorno (en la carpeta de tu proyecto)
cd C:\ruta\de\tu\proyecto
py -3.12 -m venv .venv
.\.venv\Scripts\activate
python -m pip install --upgrade pip
B) Instala PyTorch con CUDA (prueba cu121 y si falla cu124)
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Si por lo que sea cu121 no te encuentra nada, prueba:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
C) Comprueba GPU
python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
3) Si quieres evitar Torch (alternativa)

Como ya tienes faster-whisper en CUDA funcionando, también puedo cambiar tu traducción EN→ES para que sea 100% sin torch/transformers (usando un traductor local basado en CTranslate2/Argos). Va más ligero y te evitas este problema. Si te interesa, te lo dejo integrado en tu script.

Pásame la salida de estos dos comandos:

python --version
python -c "import platform; print(platform.architecture()); print(platform.python_version())"

y te digo exactamente cuál de las 3 causas es y el comando final correcto para tu caso.

C:\Users>python --version
Python 3.14.3

C:\Users>python -c "import platform; print(platform.architecture()); print(platform.python_version())"
('64bit', 'WindowsPE')
3.14.3

Ahí está el motivo: Python 3.14.3.
PyTorch (y por tanto transformers con GPU) todavía no tiene ruedas para Python 3.14 en Windows, por eso te sale “from versions: none”.

La solución es usar Python 3.12 (o 3.11) 64-bit para este proyecto, en un entorno virtual, y listo.

Opción recomendada: Python 3.12 + entorno virtual
1) Instala Python 3.12 (x64)

Descárgalo e instálalo (importante: marca “Add python.exe to PATH”):

Desde python.org → Python 3.12.x (Windows x64)

2) Crea el entorno con Python 3.12 (sin tocar tu 3.14)

En CMD, ve a la carpeta de tu proyecto (ejemplo):

cd C:\Users\jcarl\Desktop\mi_app_srt

Crea el entorno usando el launcher de Windows (py):

py -3.12 -m venv .venv

Actívalo:

.\.venv\Scripts\activate

Actualiza pip:

python -m pip install --upgrade pip
3) Instala todo (incluido PyTorch con CUDA)

Primero PyTorch GPU:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Luego el resto:

python -m pip install pyside6 faster-whisper transformers sentencepiece
4) Comprueba que ya hay CUDA
python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"

Debería salir:

True

NVIDIA GeForce RTX 4070 Ti SUPER

Importante para tu script actual

Tu Whisper en CUDA ya te funciona (por las DLL de cublas/cuDNN que arreglaste).
Pero para la parte de traducción con transformers, sí o sí necesitas un Python soportado (3.11/3.12).

Si quieres, te dejo un “comando único” para instalarlo todo en una carpeta nueva sin pensar:

mkdir C:\srt_app
cd C:\srt_app
py -3.12 -m venv .venv
.\.venv\Scripts\activate
python -m pip install --upgrade pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python -m pip install pyside6 faster-whisper transformers sentencepiece

Cuando lo tengas, dime si torch.cuda.is_available() ya te da True y te ajusto el script para que use la GPU también al traducir (va muy rápido en tu 4070 Ti SUPER).

dime el comando para comprobar que el torch cuda está disponible

Perfecto ???? aquí tienes el comando exacto para comprobar si PyTorch está usando CUDA:

???? Comprobación rápida (una sola línea)

En la consola (con tu entorno activado si usas .venv), pega esto:

python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
✅ Si todo está bien debería salir algo así:
CUDA disponible: True
GPU: NVIDIA GeForce RTX 4070 Ti SUPER
❌ Si sale:
CUDA disponible: False
GPU: NO CUDA

Entonces:

O no estás dentro del entorno correcto

O PyTorch instalado no es versión CUDA

O falta runtime CUDA/cuDNN

???? Truco importante

Si estás usando entorno virtual, antes ejecuta:

.\.venv\Scripts\activate

Y luego ejecutas el comando de comprobación.

Cuando lo ejecutes, dime exactamente qué te sale.
Estamos a un paso de dejarlo perfecto ????

C:\srt_app>python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
Traceback (most recent call last):
File "<string>", line 1, in <module>
import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')
^^^^^^^^^^^^
ModuleNotFoundError: No module named 'torch'

Vale, aquí está clarísimo lo que está pasando ????

???? Estás ejecutando python
???? Pero NO estás dentro del entorno virtual donde instalaste torch

Por eso dice: No module named 'torch'

No es error de CUDA. Es que estás usando otro Python.

???? Vamos a hacerlo bien (paso exacto)

Estás en:

C:\srt_app>

Ahora ejecuta:

.\.venv\Scripts\activate

Si todo va bien, la línea cambiará a algo así:

(.venv) C:\srt_app>

Eso significa que ahora sí estás dentro del entorno correcto.

???? Ahora instala torch (si no lo hiciste dentro del entorno)

Una vez activado:

python -m pip install --upgrade pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Es importante hacerlo DESPUÉS de activar el entorno.

???? Luego comprueba CUDA

Con el entorno activado (que ponga (.venv) delante), ejecuta:

python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
???? Por qué pasaba

En Windows puedes tener:

Python 3.14 global

Python 3.12 dentro del venv

pip instalando en uno

python ejecutando en otro

Y se vuelve un caos.

El entorno virtual evita eso.

Haz esto ahora:

Ejecuta

.\.venv\Scripts\activate

Dime qué aparece exactamente en la consola

Luego hacemos el check final

Estamos a nada de dejarlo volando ????

C:\srt_app>.\.venv\Scripts\activat
El sistema no puede encontrar la ruta especificada.

Ese error significa que no existe la carpeta .venv dentro de C:\srt_app (o se llama distinto), y además has escrito activat (falta la “e” al final).

Vamos a comprobarlo y crearlo bien, sin suposiciones.

1) Mira qué hay dentro de C:\srt_app

En CMD:

dir C:\srt_app

Busca si aparece una carpeta llamada .venv o venv.

2) Si NO existe .venv, créala con Python 3.12

Como tú tienes Python 3.14, necesitamos usar el launcher py con 3.12 instalado.

Primero, mira qué versiones tienes:

py -0p

Si ves algo como -3.12 ..., perfecto.

Ahora crea el entorno:

cd C:\srt_app
py -3.12 -m venv .venv
3) Activa el entorno (ojo, comando exacto)
cd C:\srt_app
.\.venv\Scripts\activate

Deberías ver el prompt con (.venv) al principio.

4) Instala torch dentro del entorno y comprueba CUDA
python -m pip install --upgrade pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
Si py -0p NO muestra 3.12

Entonces aún no tienes Python 3.12 instalado. Solución:

instala Python 3.12 x64 y repite desde el paso 2.

Pégame la salida de:

dir C:\srt_app

py -0p

y te digo el siguiente comando exacto según lo que te salga.

Looking in indexes: https://download.pytorch.org/whl/cu121
ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch

(.venv) C:\srt_app>python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
Traceback (most recent call last):
File "<string>", line 1, in <module>
import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')
^^^^^^^^^^^^
ModuleNotFoundError: No module named 'torch'

Vale — esto confirma 2 cosas:

Torch NO se ha instalado (por eso ModuleNotFoundError).

El error “from versions: none” casi seguro es porque tu entorno .venv está usando Python 3.14 (y para 3.14 no hay torch disponible aún, ni en PyPI ni en el índice de CUDA).

Vamos a comprobarlo en 10 segundos y dejarlo bien.

1) Comprueba qué Python está usando tu .venv

Con el entorno activado ((.venv) ya lo tienes), ejecuta:

python --version
python -c "import sys; print(sys.executable)"
pip -V

Si te sale Python 3.14.x, ahí está el motivo: con 3.14 no se puede instalar torch.

2) Comprueba si tienes Python 3.12 instalado (launcher)

Ejecuta:

py -0p

Si NO aparece algo como -3.12 ..., es que no tienes Python 3.12 instalado.

Si SÍ aparece, podemos recrear el entorno bien.

Solución definitiva (la que funciona)
Caso A) NO tienes Python 3.12 instalado

Instala Python 3.12 x64 (desde python.org).

Cierra y abre CMD.

Verifica que aparece:

py -0p

Luego pasa al Caso B.

Caso B) SÍ tienes Python 3.12 instalado

Vamos a borrar el .venv actual (que está con 3.14) y crearlo con 3.12:

En C:\srt_app:

deactivate
cd C:\srt_app
rmdir /s /q .venv
py -3.12 -m venv .venv
.\.venv\Scripts\activate
python --version

Ahora tiene que decir Python 3.12.x.

Instala torch CUDA:

python -m pip install --upgrade pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Y comprueba CUDA:

python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"
Lo mínimo que necesito de ti ahora

Pégame la salida de estos dos comandos (tal cual):

(.venv) python --version
py -0p

Con eso te digo exactamente qué paso hacer (A o B) y te quedará torch + CUDA funcionando.

C:\srt_app>py -0p
-V:3.14[-64] * C:\Users\jcarl\AppData\Local\Python\pythoncore-3.14-64\python.exe

Perfecto, ya está diagnosticado al 100%:

Solo tienes Python 3.14 instalado.

Por eso no existe torch para tu Python y te sale “from versions: none”.

✅ Solución: instalar Python 3.12 x64 (o 3.11) y crear el .venv con esa versión.

1) Instala Python 3.12 (x64)

Instala Python 3.12.x 64-bit desde python.org.
En el instalador, marca:

✅ Add python.exe to PATH

✅ (opcional) “Install for all users”

Cuando termine, cierra y abre la consola.

2) Comprueba que el launcher ya ve Python 3.12

En CMD:

py -0p

Deberías ver también algo como -V:3.12.

3) Crea el entorno en C:\srt_app con Python 3.12 (comandos exactos)

Pega esto tal cual:

cd C:\srt_app
rmdir /s /q .venv
py -3.12 -m venv .venv
.\.venv\Scripts\activate
python --version

Tiene que poner Python 3.12.x.

4) Instala torch con CUDA y comprueba

Con (.venv) activo:

python -m pip install --upgrade pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python -c "import torch; print('CUDA disponible:', torch.cuda.is_available()); print('GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'NO CUDA')"

Si todo va bien verás:

CUDA disponible: True

GPU: NVIDIA GeForce RTX 4070 Ti SUPER

Re: Aplicación para pasar a video a SRT

Lapoiar

2026-02-27 19:37:23

Posdata:
El programa funciona

Re: Aplicación para pasar a video a SRT

truc1979

2026-02-27 20:42:43

Messages posted here should be in english.
I keep it since it's mostly code, but keep in mind that very few people here are able to understand code (even easy python script)