commoncrawl.org

Evaluation du site commoncrawl.org

Common Crawl - Open Repository of Web Crawl Data

 Généré le 04 Mars 2026 18:03

Vieilles statistiques? UPDATE !

Le score est de 67/100

Optimisation du contenu

Titre

Common Crawl - Open Repository of Web Crawl Data

Longueur : 48

Parfait, votre titre contient entre 10 et 70 caractères.

Description

We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.

Longueur : 103

Génial, votre balise META description contient entre 70 et 160 caractères.

Mots-clefs

Très mauvais. Nous n'avons pas trouvé de balise META keywords sur votre page. Utilisez ce générateur gratuit de balises META en ligne pour créer des mots-clés.

Propriétés Open Graph

Bien, cette page profite des balises META Open Graph.

Propriété Contenu
type website

Niveaux de titre

H1 H2 H3 H4 H5 H6
1 10 37 0 8 0
  • [H1] Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.
  • [H2] Common Crawl is a 501(c)(3) non–profit founded in 2007.‍We make wholesale extraction, transformation and analysis of open web data accessible to researchers.
  • [H2] Over 300 billion pages spanning 15 years.
  • [H2] Free and open corpus since 2007.
  • [H2] Cited in over 10,000 research papers.
  • [H2] 3–5 billion new pages added each month.
  • [H2] Measuring Web Accessibility from Crawl Archives
  • [H2] The Data
  • [H2] Resources
  • [H2] Community
  • [H2] About
  • [H3] Featured Papers
  • [H3] A geolocated dataset of German news articles
  • [H3] Web Crawl Refusals: Insights From Common Crawl
  • [H3] Banned Books: Analysis of Censorship on Amazon.com
  • [H3] Harmony in the Australian Domain Space
  • [H3] Hyperlink Hijacking: Exploiting Erroneous URL Links to Phantom Domains
  • [H3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  • [H3] esCorpius: A Massive Spanish Crawling Corpus
  • [H3] BacklinkDB: A Purpose-Built Backlink Database Management System
  • [H3] Latest Blog Post
  • [H3] Overview
  • [H3] CDXJ Index
  • [H3] Columnar Index
  • [H3] Web Graphs
  • [H3] Latest Crawl
  • [H3] Crawl Stats
  • [H3] Graph Stats
  • [H3] Errata
  • [H3] Get Started
  • [H3] AI Agent
  • [H3] Blog
  • [H3] Examples
  • [H3] CCBot
  • [H3] Infra Status
  • [H3] Opt-Out Registry
  • [H3] FAQ
  • [H3] Research Papers
  • [H3] Mailing List Archive
  • [H3] Hugging Face
  • [H3] Discord
  • [H3] Collaborators
  • [H3] Team
  • [H3] Jobs
  • [H3] Mission
  • [H3] Impact
  • [H3] Privacy Policy
  • [H3] Terms of Use
  • [H5] Lukas Kriesch, Sebastian Losacker
  • [H5] Mostafa Ansar, Anna Sperotto, Ralph Holz
  • [H5] Jeffrey Knockel, Jakub Dalek, Noura Aljizawi, Mohamed Ahmed, Levi Meletti, and Justin Lau
  • [H5] Xian Gong, Paul X. McCarthy, Marian-Andrei Rizoiu, Paolo Boldi
  • [H5] Kevin Saric, Felix Savins, Gowri Sankar Ramachandran, Raja Jurdak, Surya Nepal
  • [H5] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
  • [H5] Asier Gutiérrez-Fandiño, David Pérez-Fernández, Jordi Armengol-Estapé, David Griol, Zoraida Callejas
  • [H5] Marius Løvold Jørgensen, UiT Norges Arktiske Universitet

Images

Nous avons trouvé 7 image(s) sur cette page Web.

1 attribut(s) alt sont vides ou manquants. Ajouter un texte alternatif permet aux moteurs de recherche de mieux comprendre le contenu de vos images.

Ratio texte/HTML

Ratio : 13%

le ratio de cette page texte/HTML est au-dessous de 15 pour cent, ce qui signifie que votre site manque de contenu textuel.

Flash

Parfait, aucun contenu FLASH n'a été détecté sur cette page.

Iframe

Génial, il n'y a pas d'Iframes détectés sur cette page.

Réécriture d'URLs

Bien. Vos liens sont optimisés!

Tiret bas dans les URLs

Parfait! Aucuns soulignements détectés dans vos URLs.

Liens dans la page

Nous avons trouvé un total de 30 lien(s) dont 0 lien(s) vers des fichiers

Texte d'ancre Type Juice
Overview Interne Passing Juice
CDXJ Index Interne Passing Juice
Columnar Index Interne Passing Juice
Web Graphs Interne Passing Juice
Latest Crawl Interne Passing Juice
Crawl Stats Externe Passing Juice
Graph Stats Externe Passing Juice
Errata Interne Passing Juice
Get Started Interne Passing Juice
AI Agent Interne Passing Juice
Blog Interne Passing Juice
Examples Externe Passing Juice
CCBot Interne Passing Juice
Infra Status Interne Passing Juice
Opt-Out Registry Interne Passing Juice
FAQ Interne Passing Juice
Research Papers Interne Passing Juice
Mailing List Archive Externe Passing Juice
Hugging Face Externe Passing Juice
Discord Externe Passing Juice
Collaborators Interne Passing Juice
Team Interne Passing Juice
Jobs Interne Passing Juice
Mission Interne Passing Juice
Impact Interne Passing Juice
Privacy Policy Interne Passing Juice
Terms of Use Interne Passing Juice
Contact Us Interne Passing Juice
More on Google Scholar Externe Passing Juice
Curated BibTeX Dataset Externe Passing Juice

Mots-clefs

Nuage de mots-clefs

papers research analysis crawl common web open latest data stats

Cohérence des mots-clefs

Mot-clef Contenu Titre Mots-clefs Description Niveaux de titre
crawl 12
web 10
common 6
analysis 5
data 4

Ergonomie

Url

Domaine : commoncrawl.org

Longueur : 15

Favicon

Génial, votre site web dispose d'un favicon.

Imprimabilité

Aucun style CSS pour optimiser l'impression n'a pu être trouvé.

Langue

Bien. Votre langue est : en.

Dublin Core

Cette page ne profite pas des métadonnées Dublin Core.

Document

Doctype

HTML 5

Encodage

Parfait. Votre charset est UTF-8.

Validité W3C

Erreurs : 0

Avertissements : 0

E-mail confidentialité

Génial, aucune adresse e-mail n'a été trouvé sous forme de texte!

HTML obsolètes

Génial! Nous n'avons pas trouvé de balises HTML obsolètes dans votre code.

Astuces vitesse

Excellent, votre site n'utilise pas de tableaux imbriqués.
Mauvais, votre site web utilise des styles css inline.
Génial, votre site web contient peu de fichiers CSS.
Parfait, votre site web contient peu de fichiers javascript.
Parfait : votre site tire parti de gzip.

Mobile

Optimisation mobile

Icône Apple
Méta tags viewport
Contenu FLASH

Optimisation

Sitemap XML

Votre site web dispose d’une sitemap XML, ce qui est optimal.

https://commoncrawl.org/sitemap.xml

Robots.txt

https://commoncrawl.org/robots.txt

Votre site dispose d’un fichier robots.txt, ce qui est optimal.

Mesures d'audience

Manquant

Nous n'avons trouvé aucun outil d'analytics sur ce site.

Un outil de mesure d'audience vous permet d'analyser l’activité des visiteurs sur votre site. Vous devriez installer au moins un outil Analytics. Il est souvent utile d’en rajouter un second, afin de confirmer les résultats du premier.

PageSpeed Insights


Dispositif
Les catégories

Free SEO Testing Tool

Free SEO Testing Tool est un outil gratuit de référencement qui vous aidera à analyser vos pages web