commoncrawl.org

Avaliação do site commoncrawl.org

Common Crawl - Open Repository of Web Crawl Data

 Gerado a 04 de Março de 2026 18:03 PM

Estatísticas desatualizadas? ATUALIZE !

O resultado é de 67/100

Conteúdo SEO

Título

Common Crawl - Open Repository of Web Crawl Data

Cumprimento : 48

Perfeito, o Título contém entre 10 e 70 caracteres.

Descrição

We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.

Cumprimento : 103

Perfeito, a Descrição META contém entre 70 e 160 caracteres.

Palavras-chave

Mau. Não detetámos palavras-chave META na sua página.

Propriedades Og Meta

Boa! Esta página tira vantagens das propriedades Og.

Propriedade Conteúdo
type website

Cabeçalhos

H1 H2 H3 H4 H5 H6
1 10 37 0 8 0
  • [H1] Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.
  • [H2] Common Crawl is a 501(c)(3) non–profit founded in 2007.‍We make wholesale extraction, transformation and analysis of open web data accessible to researchers.
  • [H2] Over 300 billion pages spanning 15 years.
  • [H2] Free and open corpus since 2007.
  • [H2] Cited in over 10,000 research papers.
  • [H2] 3–5 billion new pages added each month.
  • [H2] Measuring Web Accessibility from Crawl Archives
  • [H2] The Data
  • [H2] Resources
  • [H2] Community
  • [H2] About
  • [H3] Featured Papers
  • [H3] A geolocated dataset of German news articles
  • [H3] Web Crawl Refusals: Insights From Common Crawl
  • [H3] Banned Books: Analysis of Censorship on Amazon.com
  • [H3] Harmony in the Australian Domain Space
  • [H3] Hyperlink Hijacking: Exploiting Erroneous URL Links to Phantom Domains
  • [H3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  • [H3] esCorpius: A Massive Spanish Crawling Corpus
  • [H3] BacklinkDB: A Purpose-Built Backlink Database Management System
  • [H3] Latest Blog Post
  • [H3] Overview
  • [H3] CDXJ Index
  • [H3] Columnar Index
  • [H3] Web Graphs
  • [H3] Latest Crawl
  • [H3] Crawl Stats
  • [H3] Graph Stats
  • [H3] Errata
  • [H3] Get Started
  • [H3] AI Agent
  • [H3] Blog
  • [H3] Examples
  • [H3] CCBot
  • [H3] Infra Status
  • [H3] Opt-Out Registry
  • [H3] FAQ
  • [H3] Research Papers
  • [H3] Mailing List Archive
  • [H3] Hugging Face
  • [H3] Discord
  • [H3] Collaborators
  • [H3] Team
  • [H3] Jobs
  • [H3] Mission
  • [H3] Impact
  • [H3] Privacy Policy
  • [H3] Terms of Use
  • [H5] Lukas Kriesch, Sebastian Losacker
  • [H5] Mostafa Ansar, Anna Sperotto, Ralph Holz
  • [H5] Jeffrey Knockel, Jakub Dalek, Noura Aljizawi, Mohamed Ahmed, Levi Meletti, and Justin Lau
  • [H5] Xian Gong, Paul X. McCarthy, Marian-Andrei Rizoiu, Paolo Boldi
  • [H5] Kevin Saric, Felix Savins, Gowri Sankar Ramachandran, Raja Jurdak, Surya Nepal
  • [H5] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
  • [H5] Asier Gutiérrez-Fandiño, David Pérez-Fernández, Jordi Armengol-Estapé, David Griol, Zoraida Callejas
  • [H5] Marius Løvold Jørgensen, UiT Norges Arktiske Universitet

Imagens

Encontrámos 7 imagens nesta página.

1 atributos ALT estão vazios ou em falta. É recomendado adicionar texto alternativo de modo a que os motores de busca identifiquem melhor o conteúdo das suas imagens.

Rácio Texto/HTML

Rácio : 13%

O rácio de texto para código HTML desta página é menor que 15 porcento, o que significa que provavelmente é necessário de adicionar mais conteúdos em forma de texto.

Flash

Perfeito, não foi encontrado conteúdo Flash nesta página.

Iframe

Excelente, não foram detetadas Iframes nesta página.

Reescrita de URL

Perfeito. As ligações aparentam ser limpas!

Underscores (traços inferiores) nas URLs

Perfeito. Não foram encontrados 'underscores' (traços inferiores) nas suas URLs.

Ligações para a própria página

Encontrámos um total de 30 ligações incluindo 0 ligações a ficheiros

Âncoras Tipo Sumo
Overview Internas Passa sumo
CDXJ Index Internas Passa sumo
Columnar Index Internas Passa sumo
Web Graphs Internas Passa sumo
Latest Crawl Internas Passa sumo
Crawl Stats Externas Passa sumo
Graph Stats Externas Passa sumo
Errata Internas Passa sumo
Get Started Internas Passa sumo
AI Agent Internas Passa sumo
Blog Internas Passa sumo
Examples Externas Passa sumo
CCBot Internas Passa sumo
Infra Status Internas Passa sumo
Opt-Out Registry Internas Passa sumo
FAQ Internas Passa sumo
Research Papers Internas Passa sumo
Mailing List Archive Externas Passa sumo
Hugging Face Externas Passa sumo
Discord Externas Passa sumo
Collaborators Internas Passa sumo
Team Internas Passa sumo
Jobs Internas Passa sumo
Mission Internas Passa sumo
Impact Internas Passa sumo
Privacy Policy Internas Passa sumo
Terms of Use Internas Passa sumo
Contact Us Internas Passa sumo
More on Google Scholar Externas Passa sumo
Curated BibTeX Dataset Externas Passa sumo

Palavras-chave SEO

Núvem de palavras-chave

analysis latest common web data open papers stats crawl research

Consistência das Palavras-chave

Palavra-chave Conteúdo Título Palavras-chave Descrição Cabeçalhos
crawl 12
web 10
common 6
analysis 5
data 4

Usabilidade

Url

Domínio : commoncrawl.org

Cumprimento : 15

Favicon

Ótimo, o site tem um favicon.

Facilidade de Impressão

Não encontrámos CSS apropriado para impressão.

Língua

Otimo! A língua declarada deste site é en.

Dublin Core

Esta página não tira vantagens do Dublin Core.

Documento

Tipo de Documento

HTML 5

Codificação

Perfeito. O conjunto de caracteres UTF-8 está declarado.

Validação W3C

Erros : 0

Avisos : 0

Privacidade do Email

Boa! Nenhum endereço de email está declarado sob a forma de texto!

HTML obsoleto

Fantástico! Não detetámos etiquetas HTML obsoletas.

Dicas de Velocidade

Excelente, este site não usa tablelas dentro de tabelas.
Oh não, o site usa estilos CSS nas etiquetas HTML.
Boa, o site usa poucos ficheiros CSS.
Perfeito, o site usa poucos ficheiros JavaScript.
Perfeito, o site tira vantagens da compressão gzip.

Dispositivos Móveis

Otimização para dispositivos móveis

Icon Apple
Meta Viewport Tag
Conteúdo Flash

Otimização

XML Sitemap

Perfeito, o site tem um mapa XML do site (sitemap).

https://commoncrawl.org/sitemap.xml

Robots.txt

https://commoncrawl.org/robots.txt

Perfeito, o seu site tem um ficheiro robots.txt.

Analytics

Em falta

Não detetámos nenhuma ferramenta analítica de análise de atividade.

Este tipo de ferramentas (como por exemplo o Google Analytics) permite perceber o comportamento dos visitantes e o tipo de atividade que fazem. No mínimo, uma ferramenta deve estar instalada, sendo que em algumas situações mais do que uma pode ser útil.

PageSpeed Insights


Dispositivo
Categorias

Free SEO Testing Tool

Free SEO Testing Tool é uma ferramenta gratuita que o ajuda a avaliar o seu site