Vídeo accesible

Nos vamos a centrar en vídeo accesible. Casi todo lo que indiquemos para vídeo es aplicable para audio o para una galería de imágenes con transiciones automáticas.

Planificación

Si hay tiempo, la preparación se vuelve fundamental en este caso. El sentido común ya nos dice que para poder crear un vídeo accesible tengo que disponer de subtítulos. A esto se le añaden otras necesidades como disponer de la transcripción del vídeo, una audiodescripción que añada el contexto en voz de lo que se ve, que el reproductor de vídeo tenga controles adecuados e incluso si es conveniente disponer de una versión en lenguaje de los signos.

La siguiente cuestión es que no es lo mismo un crear un vídeo de cero y publicarlo que un vídeo que se emite en directo.

Por eso es conveniente preparar bien la fase de planificación. Es esencial para definir y delimitar el producto final deseado y establecer las condiciones necesarias para su creación. Por ejemplo:

Establecimiento del objetivo del mensaje que se quiere transmitir. Esto normalmente es evidente. Si necesitamos un vídeo es por una razón previa.
Planificación del proceso o creación de la estructura temporal correspondiente. Esto es más complejo, pero muy importante. Un vídeo largo pregrabado nadie lo reproduce. Es mejor dividirlo en capítulos y buscar el foco de atención en cada uno de ellos. Esto además nos va a servir para prepararlo y subirlo a la plataforma de reproducción (YouTube, Vimeo, etcétera) con mayor comodidad.
Evaluación de la viabilidad en cuanto a tiempo, recursos y presupuesto. Esto lo hacemos sí o sí, pero al considerar la accesibilidad podemos necesitar aumentar presupuesto para los vídeos.
Si se puede, hacer un guion o al menos un pequeño hilo de lo que se va a tratar antes de grabar, donde se determinan las imágenes y contenidos de audio que compondrán el vídeo. Este es un momento crucial para prever los recursos de accesibilidad que el vídeo debe incluir. Mucho cuidado con el audio, es crítico que se oiga bien.

Se puede optar por mostrar a la persona que habla de frente y en primer plano para facilitar la lectura de labios, lo que puede ayudar a reducir las dificultades para ciertos colectivos.

Considerar la inclusión de una grabación simultánea de una persona utilizando lengua de signos, visible en una pequeña ventana del vídeo. Esta técnica proporciona una vía más natural para personas con deficiencias auditivas pero lectoras de signos.

Es importante analizar las condiciones de las imágenes, como luminosidad y contraste y prever el espacio que van a usar los subtítulos.
Pedir los permisos de grabación y publicación. Especialmente las autorizaciones relevantes para personas, instituciones y entidades que deban ser consideradas, y es necesario determinar el tipo de licencia que se utilizará para proteger el vídeo creado teniendo en cuenta la licencia general de reutilización determinada por la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público y el Real Decreto 1495/2011, de 24 de octubre, que desarrolla la Ley.

A ese respecto recordar que es necesario tener el consentimiento por derechos de imagen y protección de datos de las personas que aparezcan en el vídeo con especial cuidado de los menores que obliga necesariamente a disponer del consentimiento de los padres o responsables legales para usar su imagen.

Si es una emisión en directo que se graba para ser publicada en la web, esta no se debe guardar en un archivo único, sino hacer grabaciones diferentes aprovechando pausas o cambios de tema que se produzcan en la emisión. Si esa posibilidad no es viable y se guarda en un archivo único, se debe prever que se dispone de herramienta de posproducción para generar las divisiones o capítulos. Además, debe ser posible obtener la transcripción escrita de cada archivo.
Si es una emisión en directo debe poder ofrecer subtitulado en tiempo real. También es recomendable disponer de una persona signante que traduzca al lenguaje de los signos la emisión en directo.
Siempre disponer de una transcripción descriptiva. Debe incluir el texto de los diálogos, voces en off y otros elementos contextuales a ser posible de forma paralela a la grabación en vídeo. Si no, se obtiene y edita a posteriori y se incluye en la post-producción.
Para alcanzar el nivel AA del nuevo WCAG 2.2 se debe incluir una audiodescripción. Televisión española es un buen ejemplo de uso de audio descripciones.

Grabación de vídeo

Aquí entramos en modo cineastas. Si es posible seguir estas consideraciones:

Es importante asegurarse de que las tomas sean estables, tengan buena iluminación y representen bien la realidad (desde planos muy cercanos hasta planos generales). Al grabar los planos, usar un trípode siempre que se pueda. Las imágenes inestables en un mensaje audiovisual dificultan la atención.
También hay que verificar la calidad del sonido directo si está en el guion. Al ver los planos grabados, se puede comprobar si se ajustan al guion y al objetivo y si son accesibles.
Repetir tomas o hacer planos alternativos ayuda a elegir los más adecuados durante la edición.
Es útil grabar cada plano más tiempo del que indica el guion técnico. Se recomienda dejar de 4 a 8 segundos antes de que empiece la acción y de 4 a 8 segundos después de que termine. Este tiempo extra da margen para unir los planos sin que se superpongan los mensajes y facilita la incorporación de la audiodescripción.
En el caso de secuencias largas, como entrevistas o escenas continuas, es buena idea combinar diferentes tipos de planos o incluir imágenes relacionadas para evitar la monotonía y dar ritmo al vídeo final.
Es fundamental mantener la continuidad, para que el espectador siga cómodamente el mensaje. Algunas reglas para asegurar la continuidad incluyen:
- La posición de dos personajes que dialogan debe grabarse siempre desde el mismo lado. El personaje A debe aparecer siempre a la derecha y el personaje B a la izquierda (ley de los 180 grados).
- Mantener la iluminación, vestuario y escenario similares en nuevas tomas para completar grabaciones anteriores. Las condiciones deben ser lo más parecidas posible a las de la primera grabación. Esto incluye la luz (momento del día, época del año en exteriores), características del espacio (interior o exterior, escenografía), similitud de planos y ángulos de cámara. Ser cuidadosos con la continuidad asegura un visionado fluido sin rupturas visuales que distraigan del mensaje.
Si se va a capturar sonido directo, considera usar un micrófono conectado a la cámara o grabar en condiciones que permitan distinguir claramente los sonidos importantes. La grabación del sonido ambiental ayuda a las personas con discapacidad visual a situar la acción en una escena específica. Sin embargo, cuando se quiera capturar un sonido concreto o un diálogo, el sonido ambiental puede interferir. En este caso, un micrófono conectado a la cámara proporciona la calidad necesaria para el vídeo final.

Subtitulado

Nos interesa que los subtítulos estén diseñados para personas con dificultades auditivas. En este caso, no solo deben transcribir el diálogo, sino que también deben incluir las voces en off, información sobre personajes, efectos sonoros como música que sea significativa y elementos supralingüísticos. Estos elementos incluyen aspectos como el tono de voz, el estado de ánimo, el ritmo, el volumen y las pausas, que pueden transmitir emociones o intenciones que no están explícitas en las palabras.

Existe una norma estandarizada española para el subtitulado, la UNE 153010:2012: Subtitulado para personas sordas y personas con discapacidad auditiva. Establece cómo deben elaborarse los subtítulos para asegurar que sean accesibles, comprensibles y efectivos, proporcionando pautas sobre aspectos como la sincronización, la presentación, el uso de colores para diferenciar personajes, la inclusión de información contextual y efectos sonoros.

Para facilitar esta información, deben seguirse las buenas prácticas de la norma UNE 153010. De ese modo:

Es importante considerar que la persona que utiliza los subtítulos está simultáneamente leyéndolos y viendo el video, por lo que se debe evitar interferencias en la lectura, como cuando el video contiene texto para leer.
Los subtítulos deben ser fieles al texto hablado y estar sincronizados con el sonido para coincidir con el movimiento labial. También deben reflejar el idioma hablado por los personajes.
Si es necesario dividir un subtítulo entre escenas, debe hacerse lógicamente, utilizando conjunciones o pausas en el diálogo y nunca cortando una palabra.
La ubicación de los elementos está pautada: el texto principal debe ir en el inferior centrado de la pantalla, ocupando dos líneas o excepcionalmente tres, con 35 a 37 caracteres cada una.
La información contextual debe aparecer entre paréntesis, en mayúsculas y en la misma línea que el subtítulo.
Los efectos sonoros van entre paréntesis, con la primera letra en mayúscula y en la parte superior derecha.
Los personajes se distinguen con diferentes colores en los subtítulos. Los principales tienen un contraste fuerte con el fondo (amarillo, verde y cian sobre negro, en ese orden).
Si hay una voz en off, se marca con el color del personaje que la dice.
Cada personaje ocupa una línea.
Idealmente, no deberían superarse los 12 caracteres por segundo (máximo hasta 19 caracteres por segundo).
Los números del 0 al 10 se escriben con letras y los demás con cifras.
La tipografía debe ser legible, de tipo palo como Verdana o Calibri o similar.
Mientras que en otras situaciones no se deben usar abreviaturas aquí no se deben desarrollar; se recomienda usar siglas y acrónimos o formas cortas de entidades y organismos.
Es mejor usar paréntesis que corchetes.
Se deben omitir las muletillas del lenguaje oral.
Es necesario usar pronombres.
En algunos contenidos audiovisuales, la recomendación de fidelidad puede entrar en conflicto con la de velocidad, por lo que es necesario tomar una decisión basada en el tipo de recurso y el público objetivo.

Se recomienda visitar el Centro Español del Subtitulado y la Audiodescripción , centro dependiente del Real Patronato sobre Discapacidad (Ministerio de Derechos Sociales y Agenda 2030)

Herramientas para la obtención de subtítulos y transcripciones

OpenAI Whisper

Whisper es un modelo de inteligencia artificial de reconocimiento de voz de propósito general y abierto, con lo que se puede instalar en un sistema o plataforma sin coste económico. Se forma en un gran conjunto de datos de audio diverso y también es un modelo multitarea que puede realizar reconocimiento de voz multilingue, traducción de la voz e identificación del lenguaje.

No es una herramienta que en sí misma una persona pueda usar sin más. Es bueno conocer que existe porque puede instalarse en servidores locales y mantener la privacidad al máximo. Lo bueno es que sí que existen aplicaciones que la usan de manera sencilla.

Whisper entrena sus modelos mayoritariamente en inglés, pero también tiene modelos multilingües. Curiosamente, el idioma que menor tasa de error tiene por palabras y caracteres es el español, mucho mejor que el inglés, con lo que es una herramienta muy potente. Como extra, en los modelos multilingües incluye el catalán.

Vibe

Es una aplicación libre multiplataforma que transcribe audio/video en post- producción usando OpenAI Whisper. Como es open source disponemos de licencias para instalarlo en nuestros equipos. A esa gran ventaja se le une que trabaja en local y que no se entrena con nuestro trabajo con lo que respeta la mormativa de protección de datos.

Sus características son increíbles:

Transcribe hasta 100 idiomas, incluido el español y el catalán.
Exporta las transcripciones o subtítulos en su formato preferido, incluyendo SRT, VTT, TXT, HTML, etcétera.
Transcribe fácilmente videos de sitios web populares como YouTube simplemente pegando la URL. Esto nos permite obtener los subtítulos sin tener que disponer del vídeo.
Soporta formatos de audio y vídeo más frecuentes como MP4, MKV, MP3, WAV.
Convierte palabras habladas a texto directamente del micrófono o altavoces.
Transcripción totalmente fuera de línea, ningún dato sale de nuestro dispositivo con lo que la privacidad está asegurada.
Se pueden personalizar los modelos utilizados con lo que podemos mejorar los resultados desde nuestra propia experiencia.

Se puede descargar la última versión en los assets de sus lanzamientos en la plataforma de desarrollo Github o en su propia página web de Vibe . Una vez descargado nos pedirá en el proceso de instalación o en cada uso la descarga del modelo de inteligencia artificial para que podamos usarlo.

OBS Studio

OBS Studio es un programa de código abierto para grabación de vídeo y transmisión en vivo. Es muy potente y es una auténtica navaja suiza como estudio de vídeo. Los streamers e influencers de redes sociales más célebres a nivel mundial lo utilizan para sus emisiones en vivo en plataformas como YouTube o Twitch.

Sin embargo, por sí solo no aporta la posibilidad de disponer de subtítulos en tiempo real. Se requiere descargar e instalar el programa y posteriormente descargar e instalar un añadido o plugin, LocalVocal, que permite transcribir, subtitular y traducir simultáneamente a varios idiomas, manteniendo todos los datos en local lo que asegura nuestra privacidad.

Se puede obtener OBS Studio en su web o en su Github. Para descargar LocalVocal nos debemos de dirigir a sus assetts en la publicaciones de Github.

KDEnLive

Ese un editor de vídeo de código abierto muy potente. Permite la edición de vídeo a un nivel cercano a lo que consideraríamos profesional. Puede descargarse directamente de su página web . Dispone también a característica de Voz a texto de Kdenlive, así como para administrar los distintos modelos de los dos sistemas de reconocimiento de voz disponibles: VOSK y Whisper.

Shotcut

Otro editor de vídeo de código abierto muy interesante, y semejante a KDEnLive. También se puede descargar en su página web oficial .

Handbrake

Herramienta fundamental. Un vídeo máster grabado en máxima calidad ocupa mucho espacio. Subirlo a una plataforma como YouTube puede consumir muchos recursos de la máquina y de la red corporativa. Si se va a subir a Internet esta calidad y peso no tienen sentido.

Por favor, todos los que subáis vídeos a YouTube, Vimeo o cualquier mediateca utilizar Handbrake y su opción de optimizado para la web. El resultado devuelve un vídeo de calidad similar pero de tan solo un 10% o un 20% de tamaño.

Se puede descargar el programa en la página web de Handbrake .

Tenacity

Es un proyecto de código abierto alternativo a un viejo conocido de la edición de audio, Audacity, pero respetando la privacidad. Se trata de un editor de audio multipista de fácil uso y multiplataforma. Tiene características de manejo accesible como la edición a través del teclado, soporte del lector de pantalla y asistencia a la narración.

Las descargas se obtienen desde la página de publicaciones en su repositorio de desarrollo.

Ardour

Ardour es un software libre de grabación multipista de audio y MIDI a disco duro. Este programa es principalmente utilizado como entorno de masterización de audio, pero funciona como un estudio de grabación digital completo. Se considera uno de los mejores softwares de grabación y edición disponibles actualmente, destacándose tanto en el ámbito open source como en general, y compite directamente con Pro Tools, el estándar profesional mundial.