Spanish Historical Web Corpus
Corpus Web Histórico en Español

The Spanish NLP dataset
that didn't exist.

El dataset NLP en español
que no existía.

Historical Spanish web content from 2002–2023, automatically labeled with topics, sentiment, region, quality score and linguistic era. Unique categories not found anywhere else.

Veinte años de internet en español, capturados y etiquetados automáticamente. Religión, folclore, misticismo, conspiraciones, BOE y mucho más — categorías que no existen en ningún otro corpus público.

Browse datasets → Ver datasets → Get in touch Contactar
2002
Earliest content
Contenido más antiguo
100+
Domains crawled
Dominios rastreados
75+
Avg quality score
Calidad media
12+
Labels per document
Etiquetas por documento
What's inside
Qué contiene

Unique categories.
Zero competition.

Categorías únicas.
Sin competencia.

While everyone else is scraping Wikipedia and news, we went deeper. These are the categories that power cultural understanding in Spanish.

Mientras otros rascan Wikipedia y noticias, nosotros fuimos más lejos. Estas son las categorías que impulsan la comprensión cultural en español.

Religion & Traditions
Religión y Tradiciones
Catholic content, Semana Santa, regional fiestas, pilgrimage routes — the spiritual backbone of Spanish culture.
Contenido católico, Semana Santa, fiestas regionales, rutas de peregrinación — la columna vertebral espiritual de la cultura española.
Unique
Folklore & Legends
Folclore y Leyendas
Celtic myths, Galician meigas, Basque basajaun, regional legends — pre-Christian Spanish mythology.
Mitos celtas, meigas gallegas, basajaun vasco, leyendas regionales — mitología española precristiana.
Unique
Esotericism & Mysticism
Esoterismo y Misticismo
Astrology, tarot, occult practices — a large and underrepresented segment of Spanish internet.
Astrología, tarot, prácticas ocultas — un segmento amplio e infrarrepresentado del internet español.
Unique
Conspiracies & Pseudoscience
Conspiraciones y Pseudociencia
Critical for misinformation detection models. Spanish conspiracy content from 2005–2023.
Fundamental para modelos de detección de desinformación. Contenido conspirativo en español de 2005 a 2023.
Unique
BOE Legal Texts
Textos Legales BOE
Official Spanish gazette — formal legal and administrative Spanish going back to 2004.
Boletín Oficial del Estado — español jurídico y administrativo formal desde 2004.
High value
Oposiciones Materials
Materiales de Oposiciones
Spanish civil service exam preparation content — formal academic Spanish across all disciplines.
Temarios y tests de oposiciones — español académico formal en todas las disciplinas.
High value
Regional News
Noticias Regionales
All 17 autonomous communities covered — dialect variation, regional vocabulary, local culture.
Las 17 comunidades autónomas cubiertas — variación dialectal, vocabulario regional, cultura local.
Wikipedia ES
Wikipedia ES
High-quality encyclopedic Spanish across history, science, culture and geography.
Español enciclopédico de alta calidad en historia, ciencia, cultura y geografía.
Forums & Communities
Foros y Comunidades
Colloquial Spanish from major forums — informal register, slang evolution 2003–2022.
Español coloquial de los principales foros — registro informal, evolución del argot 2003–2022.

Every document.
Fully labeled.

Cada documento.
Completamente etiquetado.

Topics

Tópicos

15+ topic categories detected automatically per document

Más de 15 categorías temáticas detectadas automáticamente

Geographic region

Región geográfica

Andalucía, Cataluña, Madrid, País Vasco, Galicia and more

Andalucía, Cataluña, Madrid, País Vasco, Galicia y más

Linguistic era

Época lingüística

web_1_0 → pre_social → social_media → movil_first → ia_era

web_1_0 → pre_social → social_media → movil_first → ia_era

Sentiment + score

Sentimiento + puntuación

positivo / neutro / negativo with numeric intensity -1.0 to +1.0

positivo / neutro / negativo con intensidad numérica -1.0 a +1.0

Quality score & readability

Calidad y legibilidad

0–100 quality score + Flesch readability adapted for Spanish

Puntuación de calidad 0–100 + legibilidad Flesch adaptada al español

Deduplication

Deduplicación

MD5 content hash — zero duplicates guaranteed

Hash MD5 del contenido — cero duplicados garantizados

{
  "id": "religion_20130415_a3f2b1",
  "category": "religion",
  "source_domain": "religionenlibertad.com",
  "captured_at": "2013-04-15",
  "era": "social_media",
  "topics": ["religión", "sociedad"],
  "region": "espana_general",
  "sentiment": "positivo",
  "sentiment_score": 0.412,
  "quality_score": 84,
  "readability_score": 67.3,
  "lexical_density": 0.71,
  "word_count": 1240,
  "language": "es",
  "schema_version": "3.0"
}
Licensing
Licencias

Flexible licensing
for every need.

Licencias flexibles
para cada necesidad.

Individual dataset
Dataset individual
Single Category
Categoría única
Access to one specific category — news, religion, folklore, BOE, etc.
Acceso a una categoría específica — noticias, religión, folclore, BOE, etc.
Contact us
Consúltanos
  • JSONL format
  • Formato JSONL
  • Full labeling included
  • Etiquetado completo incluido
  • README / dataset card
  • README / ficha de dataset
Enterprise
Empresa
Custom & Recurring
Personalizado y recurrente
Monthly data delivery, custom categories, domain-specific extraction for your use case.
Entrega mensual de datos, categorías personalizadas, extracción específica para tu caso de uso.
Contact us
Consúltanos
  • Monthly corpus updates
  • Actualizaciones mensuales del corpus
  • Custom domain lists
  • Listas de dominios personalizadas
  • Dedicated support
  • Soporte dedicado
  • API access (roadmap)
  • Acceso API (en desarrollo)
Get in touch
Contacto

Let's talk data.

Hablemos de datos.

Whether you need a single dataset, a custom extraction, or a recurring data supply — we're happy to discuss your needs.

Tanto si necesitas un dataset individual, una extracción personalizada o un suministro recurrente de datos — estaremos encantados de hablar.

EMAIL info@spanishcorpusai.tech
DATASETS huggingface.co/Pepere45
TWITTER @SpanishCorpusAI