Spanish Corpus AI — NLP Datasets for AI Training

What's inside

Qué contiene

40+ categories.
Zero competition.

Más de 40 categorías.
Sin competencia.

From medical specialties to regional dialects, legal texts to conspiracy content — categories that power real NLP applications in Spanish.

Desde especialidades médicas hasta dialectos regionales, textos legales o contenido conspirativo — categorías que impulsan aplicaciones NLP reales en español.

🏥 Medical & Health — high commercial value

🏥 Médico y Salud — alto valor comercial

🩺

General Medicine

Medicina General

Premium

🧠

Psychology

Psicología

Premium

❤️

Cardiology

Cardiología

Premium

🧬

Neurology

Neurología

Premium

🎗️

Oncology

Oncología

Premium

💊

Pharmacy & AEMPS

Farmacia y AEMPS

Premium

👶

Pediatrics

Pediatría

Premium

👴

Geriatrics

Geriatría

Premium

🥗

Nutrition & Dietetics

Nutrición y Dietética

Premium

🚑

Emergency Medicine

Urgencias y Emergencias

Premium

💉

Nursing

Enfermería

Premium

🦴

Traumatology

Traumatología

Premium

🐾

Veterinary (5 subcats)

Veterinaria (5 subcats)

Premium

🏛️

Official Health Sources

Fuentes Sanitarias Oficiales

Premium

🦠

Epidemiology

Epidemiología

Premium

🍽️

Food Safety

Seguridad Alimentaria

Premium

⚖️ Legal & Official

⚖️ Legal y Oficial

📜

BOE Legal Texts

Textos Legales BOE

Official Spanish gazette — formal legal and administrative Spanish back to 2004.

Boletín Oficial del Estado — español jurídico y administrativo formal desde 2004.

High value

📚

Oposiciones Materials

Materiales de Oposiciones

Spanish civil service exam preparation — formal academic Spanish across all disciplines.

Temarios y tests de oposiciones — español académico formal en todas las disciplinas.

High value

🌐

Wikipedia ES

High-quality encyclopedic Spanish across history, science, culture and geography.

Español enciclopédico de alta calidad en historia, ciencia, cultura y geografía.

High value

📍 Regional — 9 autonomous communities (unique granularity)

📍 Regional — 9 comunidades autónomas (granularidad única)

🌻

Andalucía

🏔️

Cataluña

🌊

Valencia

⚓

País Vasco

🐚

Galicia

🏰

Aragón & Navarra

🌴

Canarias & Baleares

🏟️

Castilla & Extremadura

🌿

Murcia, Rioja & Asturias

🔥 Unique — not available anywhere else

🔥 Únicos — no disponibles en ningún otro corpus

🕯️
Religion & Traditions
Religión y Tradiciones
Catholic content, Semana Santa, regional fiestas, pilgrimage routes.
Contenido católico, Semana Santa, fiestas regionales, rutas de peregrinación.
Unique

🌙
Folklore & Legends
Folclore y Leyendas
Celtic myths, Galician meigas, Basque basajaun, regional legends.
Mitos celtas, meigas gallegas, basajaun vasco, leyendas regionales.
Unique

⭐
Esotericism & Mysticism
Esoterismo y Misticismo
Astrology, tarot, occult — a large underrepresented segment of Spanish internet.
Astrología, tarot, prácticas ocultas — segmento infrarrepresentado del internet español.
Unique

⚠️
Conspiracies & Pseudoscience
Conspiraciones y Pseudociencia
Critical for misinformation detection. Spanish conspiracy content 2005–2023.
Fundamental para modelos de detección de desinformación. 2005–2023.
Unique

👻
Mystery & Paranormal
Misterio y Paranormal
UFOs, paranormal, unexplained phenomena in Spanish from major sites.
OVNIs, fenómenos paranormales e inexplicados en español desde los principales sitios.
Unique

🍳
Spanish Gastronomy
Gastronomía Española
Recipes, culinary traditions, regional cuisine — rich cultural vocabulary.
Recetas, tradiciones culinarias, cocina regional — vocabulario cultural rico.
Unique

📰 General & Sports

📰 General y Deportes

📰

National News

Noticias Nacionales

El País, El Mundo, La Vanguardia, ABC and more — 2004–2023.

El País, El Mundo, La Vanguardia, ABC y más — 2004–2023.

💬

Forums & Communities

Foros y Comunidades

Colloquial Spanish, slang evolution, informal register 2003–2022.

Español coloquial, evolución del argot, registro informal 2003–2022.

⚽

Sports (national & local)

Deportes (nacional y local)

Marca, AS, Sport, Mundo Deportivo + regional sports media.

Marca, AS, Sport, Mundo Deportivo + medios deportivos regionales.

AI-enriched metadata

Metadatos enriquecidos con IA

15+ fields.
Per document.

15+ campos.
Por documento.

Every document is processed by Claude AI to extract structured metadata. Two fields computed locally at zero cost: content hash and source reliability score.

Cada documento es procesado por Claude IA para extraer metadatos estructurados. Dos campos calculados localmente sin coste: hash de contenido y score de fiabilidad de la fuente.

AI summary

Resumen IA

2–3 sentence summary of the document's main content

Resumen de 2–3 frases del contenido principal

Language variety

Variedad lingüística

es-ES / es-MX / es-AR / es-neutral / other

es-ES / es-MX / es-AR / es-neutral / otro

Formality score

Puntuación de formalidad

Numeric 1–10 scale from very colloquial to very formal

Escala numérica 1–10 de muy coloquial a muy formal

Named entities

Entidades nombradas

Persons, organizations and places extracted per document

Personas, organizaciones y lugares extraídos por documento

PII detection

Detección de PII

has_pii flag + type (email, phone, id, address) — compliance ready

Flag has_pii + tipo — listo para cumplimiento normativo

Keywords & use cases

Keywords y casos de uso

5 keywords + suggested NLP use cases per document

5 palabras clave + casos de uso NLP sugeridos por documento

Source reliability score

Score de fiabilidad de fuente

0–100 score based on domain (El País=95, BOE=100, blog=45...)

Score 0–100 basado en el dominio fuente

Content hash (SHA-256)

Hash de contenido (SHA-256)

Guaranteed deduplication across batches and dataset versions

Deduplicación garantizada entre lotes y versiones

{

  "id": "medicina_general_20180312_a3f2b1",

  "category": "medicina_general",

  "source_domain": "webconsultas.com",

  "captured_at": "2018-03-12",

  "quality_score": 82,

  "summary": "Artículo sobre síntomas de hipertensión...",

  "language_variety": "es-ES",

  "formality_score": 8,

  "domain": "academic",

  "register": "técnico",

  "content_type": "divulgativo",

  "text_complexity": "medium",

  "geographic_scope": "national",

  "named_entities": {

    "persons": [],

    "orgs": ["OMS", "Sanidad"],

    "places": ["España"]

  },

  "keywords": ["hipertensión", "tensión arterial", ...],

  "use_cases": ["text-classification", "RAG", "NER"],

  "has_pii": false,

  "credibility": "alta",

  "source_reliability": 82,

  "content_hash": "sha256:4a3f...",

  "enriched_version": "2.0"

}

Custom corpus

Corpus personalizado

Need something specific?
We build it for you.

¿Necesitas algo específico?
Lo construimos para ti.

We produce custom corpora on demand — you define the domain, time range, volume and metadata schema. Delivery in JSONL with full README documentation.

Producimos corpus personalizados bajo demanda — tú defines el dominio, rango de fechas, volumen y esquema de metadatos. Entrega en JSONL con README completo.

Tell us what you need

Cuéntanos qué necesitas

Domain, time range, volume, language variety, any specific sources.

Dominio, rango de fechas, volumen, variedad lingüística, fuentes específicas.

We configure and run the pipeline

Configuramos y ejecutamos el pipeline

Scraping from Wayback Machine + AI enrichment with your required metadata fields.

Scraping de Wayback Machine + enriquecimiento IA con los campos de metadatos que necesitas.

Delivery + quality report

Entrega + informe de calidad

JSONL file + README + quality stats. Typically 5–10 business days depending on volume.

Archivo JSONL + README + estadísticas de calidad. Normalmente 5–10 días laborables según volumen.

Request a quote → Solicitar presupuesto →

Example requests

Ejemplos de peticiones

Child psychology corpus Corpus de psicología infantil 10,000 documents · 2010–2020 · es-ES · clinical register 10.000 documentos · 2010–2020 · es-ES · registro clínico

LATAM Spanish e-commerce reviews Reseñas e-commerce español latinoamericano 5,000 documents · es-MX + es-AR · sentiment labeled 5.000 documentos · es-MX + es-AR · etiquetado por sentimiento

Spanish labor law texts Textos de derecho laboral español BOE + legal sources · 2000–2024 · NER + classification ready BOE + fuentes legales · 2000–2024 · listo para NER y clasificación

Regional Basque press (Spanish) Prensa vasca regional (español) Diariovasco, El Correo · 2005–2022 · regional dialect tagged Diariovasco, El Correo · 2005–2022 · dialecto regional etiquetado

Licensing

Licencias

Flexible pricing
for every need.

Precios flexibles
para cada necesidad.

Single dataset

Dataset individual

One Category

Una categoría

Access to one specific category — medical, legal, regional, cultural.

Acceso a una categoría — médica, legal, regional o cultural.

Consúltanos

JSONL + README
JSONL + README
15+ metadata fields
15+ campos de metadatos
Research license
Licencia investigación

Popular

Full Corpus

Corpus completo

All 40+ categories in one unified dataset — the complete Spanish historical web corpus.

Más de 40 categorías en un dataset unificado — el corpus web histórico español completo.

Consúltanos

All categories included
Todas las categorías
Unified JSONL + README
JSONL unificado + README
Priority support
Soporte prioritario
Commercial license
Licencia comercial

Custom

Personalizado

Custom Corpus

Corpus a medida

We build exactly what you need — domain, time range, volume, metadata schema.

Construimos exactamente lo que necesitas — dominio, fechas, volumen, esquema de metadatos.

Get a quote

Solicitar presupuesto

Custom domain list
Lista de dominios propia
Custom metadata schema
Esquema de metadatos propio
5–10 business days
5–10 días laborables
Quality report included
Informe de calidad incluido

Enterprise

Empresa

Recurring Supply

Suministro recurrente

Monthly corpus updates with new content, custom categories, dedicated support.

Actualizaciones mensuales con nuevo contenido, categorías personalizadas, soporte dedicado.

Consúltanos

Monthly delivery
Entrega mensual
Dedicated support
Soporte dedicado
API access (roadmap)
Acceso API (en desarrollo)
SLA available
SLA disponible

The Spanish NLP dataset
that didn't exist.

El dataset NLP en español
que no existía.

40+ categories.
Zero competition.

Más de 40 categorías.
Sin competencia.

15+ fields.
Per document.

15+ campos.
Por documento.

AI summary

Resumen IA

Language variety

Variedad lingüística

Formality score

Puntuación de formalidad

Named entities

Entidades nombradas

PII detection

Detección de PII

Keywords & use cases

Keywords y casos de uso

Source reliability score

Score de fiabilidad de fuente

Content hash (SHA-256)

Hash de contenido (SHA-256)

Need something specific?
We build it for you.

¿Necesitas algo específico?
Lo construimos para ti.

Tell us what you need

Cuéntanos qué necesitas

We configure and run the pipeline

Configuramos y ejecutamos el pipeline

Delivery + quality report

Entrega + informe de calidad

Flexible pricing
for every need.

Precios flexibles
para cada necesidad.

Let's talk data.

Hablemos de datos.

The Spanish NLP datasetthat didn't exist.

El dataset NLP en españolque no existía.

40+ categories.Zero competition.

Más de 40 categorías.Sin competencia.

15+ fields.Per document.

15+ campos.Por documento.

AI summary

Resumen IA

Language variety

Variedad lingüística

Formality score

Puntuación de formalidad

Named entities

Entidades nombradas

PII detection

Detección de PII

Keywords & use cases

Keywords y casos de uso

Source reliability score

Score de fiabilidad de fuente

Content hash (SHA-256)

Hash de contenido (SHA-256)

Need something specific?We build it for you.

¿Necesitas algo específico?Lo construimos para ti.

Tell us what you need

Cuéntanos qué necesitas

We configure and run the pipeline

Configuramos y ejecutamos el pipeline

Delivery + quality report

Entrega + informe de calidad

Flexible pricingfor every need.

Precios flexiblespara cada necesidad.

Let's talk data.

Hablemos de datos.

The Spanish NLP dataset
that didn't exist.

El dataset NLP en español
que no existía.

40+ categories.
Zero competition.

Más de 40 categorías.
Sin competencia.

15+ fields.
Per document.

15+ campos.
Por documento.

Need something specific?
We build it for you.

¿Necesitas algo específico?
Lo construimos para ti.

Flexible pricing
for every need.

Precios flexibles
para cada necesidad.