commoncrawl.org

Revisión web de commoncrawl.org

Common Crawl - Open Repository of Web Crawl Data

 Generado el 04 Marzo 2026 18:03 PM

Resultados antiguos? ACTUALIZAR !

La puntuación es 67/100

Contenido SEO

Título

Common Crawl - Open Repository of Web Crawl Data

Longitud : 48

Perfecto, tu título contiene entre 10 y 70 caracteres.

Descripción

We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.

Longitud : 103

Genial, tu descripción meta contiene entre 70 y 160 caracteres.

Palabras Claves (Keywords)

Muy mal. No hemos encontrado palabras clave (meta keywords) en tu página. Usa este generador de meta tags gratuito para crear tus palabras clave.

Propiedades Meta Og

Bien. Tu página usa propiedades Og (etiquetas og).

Propiedad Contenido
type website

Titulos

H1 H2 H3 H4 H5 H6
1 10 37 0 8 0
  • [H1] Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.
  • [H2] Common Crawl is a 501(c)(3) non–profit founded in 2007.‍We make wholesale extraction, transformation and analysis of open web data accessible to researchers.
  • [H2] Over 300 billion pages spanning 15 years.
  • [H2] Free and open corpus since 2007.
  • [H2] Cited in over 10,000 research papers.
  • [H2] 3–5 billion new pages added each month.
  • [H2] Measuring Web Accessibility from Crawl Archives
  • [H2] The Data
  • [H2] Resources
  • [H2] Community
  • [H2] About
  • [H3] Featured Papers
  • [H3] A geolocated dataset of German news articles
  • [H3] Web Crawl Refusals: Insights From Common Crawl
  • [H3] Banned Books: Analysis of Censorship on Amazon.com
  • [H3] Harmony in the Australian Domain Space
  • [H3] Hyperlink Hijacking: Exploiting Erroneous URL Links to Phantom Domains
  • [H3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  • [H3] esCorpius: A Massive Spanish Crawling Corpus
  • [H3] BacklinkDB: A Purpose-Built Backlink Database Management System
  • [H3] Latest Blog Post
  • [H3] Overview
  • [H3] CDXJ Index
  • [H3] Columnar Index
  • [H3] Web Graphs
  • [H3] Latest Crawl
  • [H3] Crawl Stats
  • [H3] Graph Stats
  • [H3] Errata
  • [H3] Get Started
  • [H3] AI Agent
  • [H3] Blog
  • [H3] Examples
  • [H3] CCBot
  • [H3] Infra Status
  • [H3] Opt-Out Registry
  • [H3] FAQ
  • [H3] Research Papers
  • [H3] Mailing List Archive
  • [H3] Hugging Face
  • [H3] Discord
  • [H3] Collaborators
  • [H3] Team
  • [H3] Jobs
  • [H3] Mission
  • [H3] Impact
  • [H3] Privacy Policy
  • [H3] Terms of Use
  • [H5] Lukas Kriesch, Sebastian Losacker
  • [H5] Mostafa Ansar, Anna Sperotto, Ralph Holz
  • [H5] Jeffrey Knockel, Jakub Dalek, Noura Aljizawi, Mohamed Ahmed, Levi Meletti, and Justin Lau
  • [H5] Xian Gong, Paul X. McCarthy, Marian-Andrei Rizoiu, Paolo Boldi
  • [H5] Kevin Saric, Felix Savins, Gowri Sankar Ramachandran, Raja Jurdak, Surya Nepal
  • [H5] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
  • [H5] Asier Gutiérrez-Fandiño, David Pérez-Fernández, Jordi Armengol-Estapé, David Griol, Zoraida Callejas
  • [H5] Marius Løvold Jørgensen, UiT Norges Arktiske Universitet

Imagenes

Hemos encontrado 7 imágenes en esta web.

1 atributos alt están vacios o no existen. Agrega texto alternativo para que los motores de búsqueda puedan entender las imágenes.

Ratio Texto/HTML

Ratio : 13%

El ratio entre texto y código HTML de esta página es menor que el 15 por ciento, esto significa que tu web posiblemente necesite más contenido en texto.

Flash

Perfecto, no se ha detectado contenido Flash en la página.

Iframe

Genial, no se han detectado Iframes en la página.

Reescritura URL

Bien. Tus enlaces parecen amigables

Guiones bajos en las URLs

Perfecto! No hemos detectado guiones bajos en tus URLs

Enlaces en página

Hemos encontrado un total de 30 enlaces incluyendo 0 enlace(s) a ficheros

Ancla Tipo Jugo
Overview Interna Pasando Jugo
CDXJ Index Interna Pasando Jugo
Columnar Index Interna Pasando Jugo
Web Graphs Interna Pasando Jugo
Latest Crawl Interna Pasando Jugo
Crawl Stats Externo Pasando Jugo
Graph Stats Externo Pasando Jugo
Errata Interna Pasando Jugo
Get Started Interna Pasando Jugo
AI Agent Interna Pasando Jugo
Blog Interna Pasando Jugo
Examples Externo Pasando Jugo
CCBot Interna Pasando Jugo
Infra Status Interna Pasando Jugo
Opt-Out Registry Interna Pasando Jugo
FAQ Interna Pasando Jugo
Research Papers Interna Pasando Jugo
Mailing List Archive Externo Pasando Jugo
Hugging Face Externo Pasando Jugo
Discord Externo Pasando Jugo
Collaborators Interna Pasando Jugo
Team Interna Pasando Jugo
Jobs Interna Pasando Jugo
Mission Interna Pasando Jugo
Impact Interna Pasando Jugo
Privacy Policy Interna Pasando Jugo
Terms of Use Interna Pasando Jugo
Contact Us Interna Pasando Jugo
More on Google Scholar Externo Pasando Jugo
Curated BibTeX Dataset Externo Pasando Jugo

Palabras Clave SEO

Nube de Palabras Clave

latest common data web research analysis stats papers crawl open

Consistencia de las Palabras Clave

Palabra Clave (Keyword) Contenido Título Palabras Claves (Keywords) Descripción Titulos
crawl 12
web 10
common 6
analysis 5
data 4

Usabilidad

Url

Dominio : commoncrawl.org

Longitud : 15

Favicon

Genial, tu web tiene un favicon.

Imprimibilidad

No hemos encontrado una hoja de estilos CSS para impresión.

Idioma

Genial. Has declarado el idioma en.

Dublin Core

Esta página no usa Dublin Core.

Documento

Tipo de documento (Doctype)

HTML 5

Codificación

Perfecto. Has declarado como codificación UTF-8.

Validez W3C

Errores : 0

Avisos : 0

Privacidad de los Emails

Genial. No hay ninguna dirección de email como texto plano!

HTML obsoleto

Genial, no hemos detectado ninguna etiqueta HTML obsoleta.

Consejos de Velocidad

Excelente, esta web no usa tablas.
Muy mal, tu web está usando estilos embenidos (inline CSS).
Genial, tu página web usa muy pocos ficheros CSS.
Perfecto, tu web usa pocos ficheros JavaScript.
Su sitio web se beneficia del tipo de compresión gzip. ¡Perfecto!

Movil

Optimización Móvil

Icono para Apple
Etiqueta Meta Viewport
Contenido Flash

Optimización

Mapa del sitio XML

¡Perfecto! Su sitio tiene un mapa del sitio en XML.

https://commoncrawl.org/sitemap.xml

Robots.txt

https://commoncrawl.org/robots.txt

¡Estupendo! Su sitio web tiene un archivo robots.txt.

Herramientas de Analítica

No disponible

No hemos encontrado ninguna herramienta de analítica en esta web.

La analítica Web le permite medir la actividad de los visitantes de su sitio web. Debería tener instalada al menos una herramienta de analítica y se recomienda instalar otra más para obtener una confirmación de los resultados.

PageSpeed Insights


Dispositivo
Categorias

Free SEO Testing Tool

Free SEO Testing Tool es una herramienta seo gratuita que te ayuda a analizar tu web