Cursos

Actividades Académicas

Herramientas digitales para la filología hispánica: de la paleografía al análisis computacional.

Información General

Matrícula

Consultas académicas
y administrativas: Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Incidencias técnicas
de acceso a la aplicación: Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

PROGRAMA

Código
66B4
Horas
30

Fecha
03 Ago 2026
07 Ago 2026
Precio
157,5 € Tarifa C

Tipo
CURSO AVANZADO DE ESPAÑOL
Temática
Sin definir
ECTS
2.5

Sede donde se gestiona

Santander

Lugar de impartición

Santander - Campus de Las Llamas

Dirección

Francisco Gago Jover
College of the Holy Cross

Descripción de la actividad

DESTINATARIOS

Estudiantes de Filología Hispánica, Lengua Española, Literatura Española o Lingüística de último año de grado, posgrado o doctorado, con interés en: edición crítica digital de textos históricos, lingüística histórica del español, humanidades digitales aplicadas a corpus textuales y paleografía y gestión de archivos documentales.

OBJETIVOS

1. Dominar el ciclo completo de trabajo con HTR: desde la obtención y optimización de imágenes de manuscritos hasta la exportación de transcripciones en formatos estructurados reutilizables.

2. Integrar teoría filológica tradicional y herramientas digitales: combinar principios de ecdótica, paleografía y crítica textual con tecnologías de reconocimiento automático y análisis computacional.

3. Desarrollar competencias en construcción y explotación de corpus lingüísticos: seleccionar materiales adecuados, aplicar criterios de transcripción rigurosos y extraer datos para investigación lingüística.

4. Diseñar flujos de trabajo realistas para proyectos de humanidades digitales que articulen roles interdisciplinares entre humanistas, informáticos y archivistas.

CONTENIDOS

BLOQUE 1. Fundamentos de paleografía y transcripción

1.1. Paleografía: definición, objetivos y utilidad para la filología hispánica

• Historia de la escritura en español: del manuscrito medieval al documento moderno

• Principales tipos de letra: gótica, procesal, humanística, cortesana, etc.

• Abreviaturas, nexos y signos especiales en la escritura antigua

1.2. Tipos de transcripción según objetivos filológicos

• Transcripción alográfica (paleográfica estricta)

• Transcripción diplomática (conservadora)

• Transcripción regularizada (crítica)

• Transcripción interpretativa

• Criterios de elección según el tipo de proyecto

1.3. Normas de transcripción: criterios y estándares

• Desarrollo de abreviaturas

• Tratamiento de grafías, puntuación y mayúsculas

• Anotación de lecturas dudosas, adiciones y tachaduras

• Estándares internacionales: TEI (Text Encoding Initiative), HSMS, CHARTA

1.4. Taller práctico: Buenas prácticas en la edición de textos medievales y clásicos

• Ejercicios de lectura paleográfica

• Práctica de transcripción con criterios diferenciados

• Discusión de casos problemáticos

BLOQUE 2. Corpus lingüísticos del español: teoría y tipología

2.1. ¿Qué es un corpus lingüístico? Definición y criterios de clasificación

• Corpus general vs. especializado

• Corpus sincrónico vs. diacrónico

• Corpus anotado: niveles de anotación (morfológico, sintáctico, semántico)

• Corpus equilibrado: criterios de representatividad

2.2. Principales corpus del español histórico y contemporáneo

• CORDE, CREA, CORPES XXI

• CODEA (oralidad y tradiciones discursivas)

• Old Spanish Textual Archive (OSTA)

• CORDIAM (documentos de Hispanoamérica)

• Corpus del Español (Mark Davies)

2.3. Evaluación de la fiabilidad filológica de los corpus

• Criterios de selección de textos

• Calidad de las transcripciones

• Metadatos y contextualización

• Sesgos y limitaciones

BLOQUE 3. Introducción al HTR: conceptos y diferencias con OCR

3.1. ¿Qué es el HTR (Handwritten Text Recognition)?

• Del reconocimiento óptico (OCR) al neuronal (HTR)

• Diferencias técnicas y conceptuales entre OCR y HTR

• Arquitecturas neuronales: redes recurrentes (LSTM) y transformers

3.2. Contextos de aplicación del HTR

• Digitalización de patrimonio histórico

• Archivos administrativos y empresariales

• Proyectos de investigación en humanidades

• Casos de éxito y lecciones aprendidas

3.3. Ventajas, limitaciones y sesgos del HTR

• Factores que afectan la precisión: tipo de letra, calidad de imagen, lengua

• La importancia de la cantidad y calidad de los datos de entrenamiento

• Sesgos: sobrerrepresentación de ciertas escrituras y lenguas

• Realismo en las expectativas: el HTR como herramienta de apoyo, no sustituto

BLOQUE 4. Plataformas HTR: Transkribus y eScriptorium

4.1. Transkribus: presentación e interfaz

• Registro, instalación y configuración

• Estructura de la plataforma: colecciones, documentos, páginas

• Modelos públicos disponibles y criterios de selección

4.2. eScriptorium: presentación e interfaz

• Características diferenciales respecto a Transkribus

• Instalación y primeros pasos

• Modelos públicos y repositorios

4.3. Flujo de trabajo estándar con modelo preexistente

• Paso 1: Obtención y selección de imágenes de manuscritos

• Paso 2: Optimización de imágenes (resolución, contraste, formato)

• Paso 3: Carga de imágenes en la plataforma

• Paso 4: Segmentación automática de regiones y líneas de texto

• Paso 5: Lanzamiento del reconocimiento automático con modelo preentrenado

• Paso 6: Revisión y corrección manual de transcripciones

• Paso 7: Exportación en diferentes formatos (TXT, PDF, PAGE XML, TEI)

4.4. Taller práctico: Transcripción con modelo existente

• Ejercicio guiado de transcripción de un documento manuscrito

• Evaluación de la calidad del reconocimiento

• Estrategias de corrección eficiente

BLOQUE 5. Preparación de datos y entrenamiento de modelos HTR

5.1. Preparación y anotación de datos de entrenamiento

• ¿Qué es el ground truth? Requisitos de calidad

• Segmentación manual vs. automática

• Cantidad mínima de datos para entrenar un modelo

• Criterios de transcripción coherentes: la importancia de la consistencia

5.2. Conceptos básicos del entrenamiento de modelos

• Conjunto de entrenamiento, validación y test

• Épocas, iteraciones y curvas de aprendizaje

• Overfitting (sobreajuste) y estrategias para evitarlo

• Métricas de evaluación: CER (Character Error Rate) y WER (Word Error Rate)

5.3. Creación de un modelo personalizado

• Entrenamiento desde cero vs. fine-tuning (ajuste fino) de modelos existentes

• Selección de hiperparámetros

• Proceso de entrenamiento en Transkribus o eScriptorium

5.4. Taller práctico: Entrenamiento de un modelo propio

• Preparación de un pequeño conjunto de ground truth

• Lanzamiento del entrenamiento

• Evaluación de resultados y posibles mejoras

BLOQUE 6. Explotación de corpus para estudios lingüísticos

6.1. Técnicas básicas de explotación de corpus

• Frecuencias léxicas absolutas y relativas

• Búsquedas contextuales: concordancias y palabras clave en contexto (KWIC)

• Colocaciones y n-gramas

• Extracción de variantes morfológicas y sintácticas

6.2. Herramientas de lectura distante

• Voyant Tools: exploración de patrones, tendencias, nubes de palabras, grafos de colocaciones

• NotebookLM: comprensión de ideas complejas, argumentos y conexiones entre documentos

6.3. Taller práctico: Old Spanish Textual Archive (OSTA)

• Navegación y consulta del OSTA

• Ejercicios de búsqueda y extracción de datos

• Análisis de un fenómeno lingüístico en perspectiva diacrónica

BLOQUE 7. Visualización de datos lingüísticos

7.1. Introducción a R para humanistas

• Instalación de R y RStudio

• Conceptos básicos: variables, vectores, data frames

• Carga y manipulación de datos tabulares

7.2. Creación de gráficos

• Gráficos de barras, líneas y dispersión

• Representación de tendencias diacrónicas

• Mapas lingüísticos básicos

7.3. Taller práctico: Creación de un gráfico propio

• Ejercicio guiado: representar la evolución de una variable lingüística en el tiempo.

PERFIL DEL PROFESORADO PARTICIPANTE

Francisco Gago-Jover, catedrático de español en el College of the Holy Cross, es autor de numerosas obras sobre lexicografía y creación de corpus lingüísticos, además de un importante número de transcripciones paleográficas de textos medievales. Ha impartido cursos de doctorado en diversas universidades de Europa y Estados Unidos, y talleres sobre humanidades digitales en áreas como paleografía y diseño de corpus lingüísticos. Es también co-editor del Old Spanish Textual Archive.

José Manuel Fradejas Rueda, catedrático de lengua española en la Universidad de Valladolid. Actualmente su investigación se centra en la edición digital de textos medievales (etiquetado semántico y morfológico), la aplicación de sistemas HTR para la transcripción de textos manuscritos e impresos antiguos y la minería de textos (y estilometría) con R. Es colaborador del Old Spanish Textual Archive.

Miguel Calderón Campos, catedrático de Lengua Española de la Universidad de Granada, profesor de Historia de la Lengua Española, codirector del corpus Oralia diacrónica del español (ODE, http://corpora.ugr.es/ode), un corpus de inventarios de bienes y declaraciones de testigos de los siglos XVI a XIX, elaborado en la plataforma TEITOK; investigador del proyecto I+D+i «Vita Verborum. Los peritajes de las Chancillerías castellanas en la historia del español (1650 - 1833)» (PID2022-136256NB-I00). Interés principal: lingüística de corpus diacrónicos y, a partir de ahí, el análisis cuantitativo y el cartografiado de los datos histórico-lingüísticos y dialectales.

Gael Vaamonde dos Santos, doctor en Lingüística por la Universidad de Vigo (2011). Actualmente, trabaja como profesor contratado doctor en el Departamento de Lengua Española de la Universidad de Granada y es miembro del Grupo de Investigación DiLEs: Diacronía de la Lengua Española, centrado en las humanidades digitales y la recuperación de patrimonio documental hispánico. Está especialmente interesado en el estudio de la lengua española a partir de corpus y en la aplicación de técnicas computacionales orientadas a la investigación lingüística. Sus líneas de investigación principales son la lingüística de corpus, la gramática española, las humanidades digitales y la historia del español.

HORARIO PROPUESTO

El curso consta de 30 horas lectivas de lunes a jueves (mañana y tarde) y viernes por la mañana, en horario aún por determinar.

We use cookies to improve our service for you. You can find more information from our privacy policy

Herramientas digitales para la filología hispánica: de la paleografía al análisis computacional.

Información General

Matrícula

PROGRAMA

Sede donde se gestiona

Lugar de impartición

Dirección

Descripción de la actividad

Administración Electrónica

Servicios para el Estudiante