Spanish Historical Web Corpus
Corpus Web Histórico en Español

The Spanish NLP dataset
that didn't exist.

El dataset NLP en español
que no existía.

40+ categories. 15+ AI-enriched metadata fields. Historical Spanish web content from 2002–2023 — medical, legal, regional, cultural and unique. Custom corpus on demand.

Más de 40 categorías. 15+ campos de metadatos enriquecidos con IA. Veinte años de internet en español — medicina, derecho, cultura regional y categorías únicas. Corpus personalizado bajo demanda.

Browse datasets → Ver datasets → Request custom corpus Solicitar corpus personalizado
Documents & growing
Documentos y creciendo
Datasets published
Datasets publicados
2002
Earliest content
Contenido más antiguo
15+
Metadata fields
Campos de metadatos
MB of Spanish text
MB de texto en español
What's inside
Qué contiene

40+ categories.
Zero competition.

Más de 40 categorías.
Sin competencia.

From medical specialties to regional dialects, legal texts to conspiracy content — categories that power real NLP applications in Spanish.

Desde especialidades médicas hasta dialectos regionales, textos legales o contenido conspirativo — categorías que impulsan aplicaciones NLP reales en español.

🏥 Medical & Health — high commercial value
🏥 Médico y Salud — alto valor comercial
🩺
General Medicine
Medicina General
Premium
🧠
Psychology
Psicología
Premium
❤️
Cardiology
Cardiología
Premium
🧬
Neurology
Neurología
Premium
🎗️
Oncology
Oncología
Premium
💊
Pharmacy & AEMPS
Farmacia y AEMPS
Premium
👶
Pediatrics
Pediatría
Premium
👴
Geriatrics
Geriatría
Premium
🥗
Nutrition & Dietetics
Nutrición y Dietética
Premium
🚑
Emergency Medicine
Urgencias y Emergencias
Premium
💉
Nursing
Enfermería
Premium
🦴
Traumatology
Traumatología
Premium
🐾
Veterinary (5 subcats)
Veterinaria (5 subcats)
Premium
🏛️
Official Health Sources
Fuentes Sanitarias Oficiales
Premium
🦠
Epidemiology
Epidemiología
Premium
🍽️
Food Safety
Seguridad Alimentaria
Premium
⚖️ Legal & Official
⚖️ Legal y Oficial
📜
BOE Legal Texts
Textos Legales BOE
Official Spanish gazette — formal legal and administrative Spanish back to 2004.
Boletín Oficial del Estado — español jurídico y administrativo formal desde 2004.
High value
📚
Oposiciones Materials
Materiales de Oposiciones
Spanish civil service exam preparation — formal academic Spanish across all disciplines.
Temarios y tests de oposiciones — español académico formal en todas las disciplinas.
High value
🌐
Wikipedia ES
Wikipedia ES
High-quality encyclopedic Spanish across history, science, culture and geography.
Español enciclopédico de alta calidad en historia, ciencia, cultura y geografía.
High value
📍 Regional — 9 autonomous communities (unique granularity)
📍 Regional — 9 comunidades autónomas (granularidad única)
🌻
Andalucía
🏔️
Cataluña
🌊
Valencia
País Vasco
🐚
Galicia
🏰
Aragón & Navarra
🌴
Canarias & Baleares
🏟️
Castilla & Extremadura
🌿
Murcia, Rioja & Asturias
🔥 Unique — not available anywhere else
🔥 Únicos — no disponibles en ningún otro corpus
🕯️
Religion & Traditions
Religión y Tradiciones
Catholic content, Semana Santa, regional fiestas, pilgrimage routes.
Contenido católico, Semana Santa, fiestas regionales, rutas de peregrinación.
Unique
🌙
Folklore & Legends
Folclore y Leyendas
Celtic myths, Galician meigas, Basque basajaun, regional legends.
Mitos celtas, meigas gallegas, basajaun vasco, leyendas regionales.
Unique
Esotericism & Mysticism
Esoterismo y Misticismo
Astrology, tarot, occult — a large underrepresented segment of Spanish internet.
Astrología, tarot, prácticas ocultas — segmento infrarrepresentado del internet español.
Unique
⚠️
Conspiracies & Pseudoscience
Conspiraciones y Pseudociencia
Critical for misinformation detection. Spanish conspiracy content 2005–2023.
Fundamental para modelos de detección de desinformación. 2005–2023.
Unique
👻
Mystery & Paranormal
Misterio y Paranormal
UFOs, paranormal, unexplained phenomena in Spanish from major sites.
OVNIs, fenómenos paranormales e inexplicados en español desde los principales sitios.
Unique
🍳
Spanish Gastronomy
Gastronomía Española
Recipes, culinary traditions, regional cuisine — rich cultural vocabulary.
Recetas, tradiciones culinarias, cocina regional — vocabulario cultural rico.
Unique
📰 General & Sports
📰 General y Deportes
📰
National News
Noticias Nacionales
El País, El Mundo, La Vanguardia, ABC and more — 2004–2023.
El País, El Mundo, La Vanguardia, ABC y más — 2004–2023.
💬
Forums & Communities
Foros y Comunidades
Colloquial Spanish, slang evolution, informal register 2003–2022.
Español coloquial, evolución del argot, registro informal 2003–2022.
Sports (national & local)
Deportes (nacional y local)
Marca, AS, Sport, Mundo Deportivo + regional sports media.
Marca, AS, Sport, Mundo Deportivo + medios deportivos regionales.

15+ fields.
Per document.

15+ campos.
Por documento.

Every document is processed by Claude AI to extract structured metadata. Two fields computed locally at zero cost: content hash and source reliability score.

Cada documento es procesado por Claude IA para extraer metadatos estructurados. Dos campos calculados localmente sin coste: hash de contenido y score de fiabilidad de la fuente.

AI summary

Resumen IA

2–3 sentence summary of the document's main content

Resumen de 2–3 frases del contenido principal

Language variety

Variedad lingüística

es-ES / es-MX / es-AR / es-neutral / other

es-ES / es-MX / es-AR / es-neutral / otro

Formality score

Puntuación de formalidad

Numeric 1–10 scale from very colloquial to very formal

Escala numérica 1–10 de muy coloquial a muy formal

Named entities

Entidades nombradas

Persons, organizations and places extracted per document

Personas, organizaciones y lugares extraídos por documento

PII detection

Detección de PII

has_pii flag + type (email, phone, id, address) — compliance ready

Flag has_pii + tipo — listo para cumplimiento normativo

Keywords & use cases

Keywords y casos de uso

5 keywords + suggested NLP use cases per document

5 palabras clave + casos de uso NLP sugeridos por documento

Source reliability score

Score de fiabilidad de fuente

0–100 score based on domain (El País=95, BOE=100, blog=45...)

Score 0–100 basado en el dominio fuente

Content hash (SHA-256)

Hash de contenido (SHA-256)

Guaranteed deduplication across batches and dataset versions

Deduplicación garantizada entre lotes y versiones

{
  "id": "medicina_general_20180312_a3f2b1",
  "category": "medicina_general",
  "source_domain": "webconsultas.com",
  "captured_at": "2018-03-12",
  "quality_score": 82,
  "summary": "Artículo sobre síntomas de hipertensión...",
  "language_variety": "es-ES",
  "formality_score": 8,
  "domain": "academic",
  "register": "técnico",
  "content_type": "divulgativo",
  "text_complexity": "medium",
  "geographic_scope": "national",
  "named_entities": {
    "persons": [],
    "orgs": ["OMS", "Sanidad"],
    "places": ["España"]
  },
  "keywords": ["hipertensión", "tensión arterial", ...],
  "use_cases": ["text-classification", "RAG", "NER"],
  "has_pii": false,
  "credibility": "alta",
  "source_reliability": 82,
  "content_hash": "sha256:4a3f...",
  "enriched_version": "2.0"
}

Custom corpus
Corpus personalizado

Need something specific?
We build it for you.

¿Necesitas algo específico?
Lo construimos para ti.

We produce custom corpora on demand — you define the domain, time range, volume and metadata schema. Delivery in JSONL with full README documentation.

Producimos corpus personalizados bajo demanda — tú defines el dominio, rango de fechas, volumen y esquema de metadatos. Entrega en JSONL con README completo.

01

Tell us what you need

Cuéntanos qué necesitas

Domain, time range, volume, language variety, any specific sources.

Dominio, rango de fechas, volumen, variedad lingüística, fuentes específicas.

02

We configure and run the pipeline

Configuramos y ejecutamos el pipeline

Scraping from Wayback Machine + AI enrichment with your required metadata fields.

Scraping de Wayback Machine + enriquecimiento IA con los campos de metadatos que necesitas.

03

Delivery + quality report

Entrega + informe de calidad

JSONL file + README + quality stats. Typically 5–10 business days depending on volume.

Archivo JSONL + README + estadísticas de calidad. Normalmente 5–10 días laborables según volumen.

Request a quote → Solicitar presupuesto →
Example requests
Ejemplos de peticiones
Child psychology corpus Corpus de psicología infantil 10,000 documents · 2010–2020 · es-ES · clinical register 10.000 documentos · 2010–2020 · es-ES · registro clínico
LATAM Spanish e-commerce reviews Reseñas e-commerce español latinoamericano 5,000 documents · es-MX + es-AR · sentiment labeled 5.000 documentos · es-MX + es-AR · etiquetado por sentimiento
Spanish labor law texts Textos de derecho laboral español BOE + legal sources · 2000–2024 · NER + classification ready BOE + fuentes legales · 2000–2024 · listo para NER y clasificación
Regional Basque press (Spanish) Prensa vasca regional (español) Diariovasco, El Correo · 2005–2022 · regional dialect tagged Diariovasco, El Correo · 2005–2022 · dialecto regional etiquetado

Licensing
Licencias

Flexible pricing
for every need.

Precios flexibles
para cada necesidad.

Single dataset
Dataset individual
One Category
Una categoría
Access to one specific category — medical, legal, regional, cultural.
Acceso a una categoría — médica, legal, regional o cultural.
Contact us
Consúltanos
  • JSONL + README
  • JSONL + README
  • 15+ metadata fields
  • 15+ campos de metadatos
  • Research license
  • Licencia investigación
Custom
Personalizado
Custom Corpus
Corpus a medida
We build exactly what you need — domain, time range, volume, metadata schema.
Construimos exactamente lo que necesitas — dominio, fechas, volumen, esquema de metadatos.
Get a quote
Solicitar presupuesto
  • Custom domain list
  • Lista de dominios propia
  • Custom metadata schema
  • Esquema de metadatos propio
  • 5–10 business days
  • 5–10 días laborables
  • Quality report included
  • Informe de calidad incluido
Enterprise
Empresa
Recurring Supply
Suministro recurrente
Monthly corpus updates with new content, custom categories, dedicated support.
Actualizaciones mensuales con nuevo contenido, categorías personalizadas, soporte dedicado.
Contact us
Consúltanos
  • Monthly delivery
  • Entrega mensual
  • Dedicated support
  • Soporte dedicado
  • API access (roadmap)
  • Acceso API (en desarrollo)
  • SLA available
  • SLA disponible

Get in touch
Contacto

Let's talk data.

Hablemos de datos.

Whether you need a single dataset, a custom corpus or a recurring data supply — we're happy to discuss your needs. Typical response within 24h.

Tanto si necesitas un dataset individual, un corpus personalizado o un suministro recurrente — estaremos encantados de hablar. Respuesta en menos de 24h.

Arnaud
Founder & Chief Data Digger 🕳️
Building the internet's memory, one snapshot at a time.
Founder & Chief Data Digger 🕳️
Construyendo la memoria de internet, un snapshot a la vez.