40+ categories. 15+ AI-enriched metadata fields. Historical Spanish web content from 2002–2023 — medical, legal, regional, cultural and unique. Custom corpus on demand.
Más de 40 categorías. 15+ campos de metadatos enriquecidos con IA. Veinte años de internet en español — medicina, derecho, cultura regional y categorías únicas. Corpus personalizado bajo demanda.
From medical specialties to regional dialects, legal texts to conspiracy content — categories that power real NLP applications in Spanish.
Desde especialidades médicas hasta dialectos regionales, textos legales o contenido conspirativo — categorías que impulsan aplicaciones NLP reales en español.
Every document is processed by Claude AI to extract structured metadata. Two fields computed locally at zero cost: content hash and source reliability score.
Cada documento es procesado por Claude IA para extraer metadatos estructurados. Dos campos calculados localmente sin coste: hash de contenido y score de fiabilidad de la fuente.
2–3 sentence summary of the document's main content
Resumen de 2–3 frases del contenido principal
es-ES / es-MX / es-AR / es-neutral / other
es-ES / es-MX / es-AR / es-neutral / otro
Numeric 1–10 scale from very colloquial to very formal
Escala numérica 1–10 de muy coloquial a muy formal
Persons, organizations and places extracted per document
Personas, organizaciones y lugares extraídos por documento
has_pii flag + type (email, phone, id, address) — compliance ready
Flag has_pii + tipo — listo para cumplimiento normativo
5 keywords + suggested NLP use cases per document
5 palabras clave + casos de uso NLP sugeridos por documento
0–100 score based on domain (El País=95, BOE=100, blog=45...)
Score 0–100 basado en el dominio fuente
Guaranteed deduplication across batches and dataset versions
Deduplicación garantizada entre lotes y versiones
We produce custom corpora on demand — you define the domain, time range, volume and metadata schema. Delivery in JSONL with full README documentation.
Producimos corpus personalizados bajo demanda — tú defines el dominio, rango de fechas, volumen y esquema de metadatos. Entrega en JSONL con README completo.
Domain, time range, volume, language variety, any specific sources.
Dominio, rango de fechas, volumen, variedad lingüística, fuentes específicas.
Scraping from Wayback Machine + AI enrichment with your required metadata fields.
Scraping de Wayback Machine + enriquecimiento IA con los campos de metadatos que necesitas.
JSONL file + README + quality stats. Typically 5–10 business days depending on volume.
Archivo JSONL + README + estadísticas de calidad. Normalmente 5–10 días laborables según volumen.
Whether you need a single dataset, a custom corpus or a recurring data supply — we're happy to discuss your needs. Typical response within 24h.
Tanto si necesitas un dataset individual, un corpus personalizado o un suministro recurrente — estaremos encantados de hablar. Respuesta en menos de 24h.