SEO: Exactitude des données des mots clés et manipulation des données par les outils de référencement [In-Depth Study]

SEO: Exactitude des données des mots clés et manipulation des données par les outils de référencement [In-Depth Study]

Le travail d’un consultant en optimisation de moteur de recherche () s’articule autour d’un thème central:

Les données.

Surtout des données de mots clés.

Nous les collectons à partir de diverses sources tierces et tierces, peut-être même via des outils de suivi auto-fabriqués, pour ensuite commencer à chiffrer les chiffres et éventuellement fournir des informations précieuses à nos patrons, clients ou prospects.

Cependant, ne faire fonctionner que quelques outils et utiliser de la magie analytique ne suffira pas.

Nous devons également réfléchir à la façon dont nous interprétons les données des outils de mots clés et traitons les inexactitudes ou les incohérences.

Comme tout logiciel, chaque outil de mot-clé a un mécanisme caractéristique en place pour collecter, agréger et manipuler les données.

De même, le fonctionnement des outils affecte la façon dont ils gèrent les requêtes et présentent les données des mots clés en sortie.

Un élément essentiel de la fonction d’un responsable marketing consiste à valider si les valeurs de données stockées pour ces mots clés sont représentées sous une forme cohérente et non ambiguë.

Autrement dit, les données de mots clés avec lesquelles je travaille sont-elles exactes?

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

La réponse simple:

Non.

La comparaison des valeurs de données de différents fournisseurs d’outils pour un ensemble de mots clés s’avère déjà contenir de grandes incohérences – non seulement dans les valeurs de données, mais aussi dans si et comment vos données de sortie sont présentées.

Cette étude, par mon entreprise, OAK, tente de trouver de la clarté en explorant l’exactitude et la fiabilité des données en ce qui concerne les données de mot-clé de second et de tiers.

Plus précisément, cette étude examine les sujets suivants:

  • Collecte de données: Comment les outils de mots clés collectent-ils leurs données?
  • Le traitement des données: Comment les outils de mots clés manipulent-ils les données?
  • La validation des données: Validation des valeurs des données de mots clés.
  • Rôle en tant que consultant .

Le but principal de cette étude est de faire prendre conscience de la complexité des valeurs des données de mots clés et des mécanismes de collecte et de traitement des données des fournisseurs d’outils.

Google Search Console

Commençons par le début: Google Search Console.

Il s’agit d’un outil tiers de Google qui collecte des données comportementales pour un seul domaine ou entité et, après manipulation, injecte les données dans l’interface frontale.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Le simple fait que Google recueille et traite les données pourrait vous poser la question: dans quelle mesure les valeurs des données projetées sont-elles proches de la réalité?

Cette question pose un défi immédiat: les données de la Search Console ne sont pas 100% validables.

Heureusement, Google est, jusqu’à un certain point, transparent et fournit diverses explications pour lesquelles vos valeurs de données ne reflètent pas la réalité ou s’additionnent comme vous pouvez vous y attendre.

En voici quelques-uns:

  • Pour protéger la vie privée de l’utilisateur. Le clic n’est parfois pas crédité au terme de recherche. La Search Console, cependant, enregistre le clic, provoquant des écarts entre les données du tableau et du diagramme.
    • La même chose peut s’appliquer aux requêtes de marque.
  • Les clics peuvent provenir de robots.
  • Dans certains cas, la sélection de certaines combinaisons de filtres peut également entraîner des différences entre les données du diagramme et du tableau.

Malheureusement, seul le G-géant a accès aux valeurs exactes des données, ce qui signifie que la vérification de l’exactitude des données de la Search Console est un processus difficile.

La fiabilité des données de mots clés augmente cependant avec les outils tiers.

Ce sont des outils comme SEMrush, Ahrefs, Keywordtool.io, Searchvolume.io et bien d’autres.

Pour trouver des réponses, cette étude explore la mécanique de ces outils de mots clés applicables.

Malheureusement, les entreprises qui exécutent ces outils ne divulguent pas ou peu d’informations sur la façon dont elles collectent, agrègent ou manipulent leurs données.

Cela semble juste.

Un chef ne se contente pas de donner sa recette mondialement connue. Par conséquent, nous essayons de générer des informations à l’aide des approches suivantes:

  • Utilisation et comparaison des outils.
  • Renseignement auprès des services clients.
  • Lire les sections FAQ et les pages utilitaires.

1. Collecte de données: comment les mots-clés collectent-ils leurs données?

En général, il existe cinq types de ressources grâce auxquelles les outils de mots-clés accumulent leurs données:

API Google Ads / Planificateur de mots clés

Les données sur les mots clés sont collectées directement à partir de la base de données de mots clés de Google via l’API Google Ads.

Comme c’est le cas avec Search Console, Google Ads manipule d’abord les données avant de les injecter dans la base de données.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Clickstream Data par les agrégateurs et les courtiers de données

Clickstream n’est rien de plus que des données dérivées du comportement de navigation en ligne des consommateurs.

Les agrégateurs rassemblent ces données de différentes manières.

Les grands agrégateurs, jusqu’à récemment actifs, étaient, par exemple, Jumpshot ou Hitwise.

D’où obtiennent-ils leurs données?

  • Extensions et plugins du navigateur
    • Un plugin ou une extension maison de l’agrégateur lui-même.
    • Ils paient des plugins de navigateur tiers externes pour partager les données des consommateurs
  • Ils paient les fournisseurs de services Internet pour l’accès aux données dans un flux de données «anonymisé».

Les agrégateurs vendent ensuite les données à des outils de mots clés tels que Ahrefs, SEMrush et Moz, entre autres.

Extension de navigateur et plugins

Les outils de mots clés peuvent également acquérir directement les données des consommateurs à partir de plugins de navigateur tiers externes.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

De nombreuses extensions de navigateur ont été développées pour aider les marketeurs.

Malgré les fonctionnalités astucieuses, ces plugins et outils de navigation poursuivent souvent des pratiques louches.

Il est courant de donner son consentement avant d’utiliser une extension, mais nous avons généralement une connaissance limitée des pratiques auxquelles nous donnons notre consentement.

En consentant, vous pouvez autoriser ces outils à:

  • Recueillez votre comportement de navigation en ligne.
  • Récupérez les données client de Google Analytics, de la Search Console ou d’un autre logiciel de suivi.

Et le plus inquiétant:

  • Partagez les données avec des tiers tels que des agrégateurs ou des outils de mots clés.

Ces extensions de navigateur peuvent avoir accès à toutes les données potentiellement sensibles et ne sont généralement pas conformes au RGPD de votre client ou de votre entreprise.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Faire preuve de prudence lorsque vous travaillez avec des extensions est nécessaire pour garantir la sécurité des données.

Certains outils de mots clés ont également développé leur propre plugin ou extension de navigateur.

Moz, par exemple, a présenté MozBar, une extension tout-en-un avec toutes sortes de fonctionnalités utiles.

Les plug-ins de navigateur développés par les outils de mots-clés établis ne poursuivraient probablement aucune pratique malveillante, mais ils peuvent collecter des comportements en ligne et les utiliser pour ajuster leurs valeurs de données.

Outils externes

Les outils de mots clés récupèrent également des données via des API auprès de parties externes qui collectent des données de comportement de navigation en ligne, telles que GrepWords dans le passé.

Keywordtool.io, par exemple, obtient des données de Keyword Planner mais également d’autres sources tierces. Ils dévoilent quelques conseils, quoique assez généraux:

« Keyword Tool fournit une API externe qui vous donne les suggestions de mots clés que vous ne pourriez jamais trouver dans Google Ads. Le Générateur de mots clés utilise des données de saisie semi-automatique tandis que Google Ads cache des mots clés précieux qui pourraient être trouvés à l’aide de la saisie semi-automatique. « 

Propres outils

Certains outils de mots clés ont à la place leurs propres programmes ou logiciels configurés pour accumuler des données de mots clés.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Ces cinq méthodes de collecte et exemples ne dévoilent que la pointe de l’iceberg.

Il existe un vaste réseau d’entreprises et d’outils dans ce monde de collecte, d’échange et de vente de données de mots clés.

Au moins une meilleure compréhension de l’image nous aidera sans aucun doute à réaliser que les données de mots clés affichées sur nos outils de référencement, Google Sheets et tableaux de bord sont à peine plus qu’un produit d’une construction ambiguë.

Pour résumer

Les outils de mots clés collectent des données à partir de cinq types de sources différents.

Il est courant d’utiliser plusieurs sources de données provenant de différents types de sources de données.

2. Traitement des données: comment les outils de mots-clés manipulent-ils les données?

La prochaine étape pour adopter une position plus critique vis-à-vis des données de mots clés consiste à découvrir comment les outils agrègent et manipulent les données qu’ils ont obtenues.

Il est presque impossible de savoir exactement comment les outils exécutent cette procédure.

La pratique consistant à obtenir ces informations exclusives équivaut à tenter de découvrir la recette de Coca Cola – futile.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Au lieu de cela, contentons-nous de l’idée que l’agrégation en elle-même peut encore altérer l’exactitude et la fiabilité des données.

On pourrait soutenir l’inverse que l’agrégation de données peut automatiquement aplatir toutes les valeurs de données extrêmes.

Après tout, la fusion de ces sources de données en un seul type agrégé cohérent donnera une meilleure approximation des valeurs métriques moyennes.

Même s’il s’agit d’une position légitime, les outils de mots clés collectent néanmoins des données à partir de ressources qui en elles-mêmes peuvent être incalculables, biaisées et incorrectes dans leurs mécanismes de mesure.

Quoi qu’il en soit, les outils de mots clés font plus que mélanger différentes sources de données en un seul ensemble de données.

Vue schématique du mécanisme de l'outil de mots-clés pour la collecte, la manipulation et l'interrogation de données | SEJ Représentation schématique du fonctionnement des outils de mots-clés dans la collecte, la manipulation et l’interrogation des données.

Exécution des données via un algorithme

Certains outils ont développé un algorithme qui fonctionne comme un filtre pour leurs données collectées.

Par exemple, SEMrush explique:

«Pour garantir le plus haut niveau de précision, SEMrush utilise son réseau neuronal – un algorithme combiné qui référence diverses sources de données et reconnaît les modèles de la même manière que le cerveau humain comprend les modèles. Les sources de données de notre réseau comprennent des données de clics en plus de notre propre base de données de backlinks et de positions de moteurs de recherche organiques. « 

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Il semble logique que SEMrush utilise son algorithme pour valider les données externes obtenues et ajuster les valeurs métriques agrégées si nécessaire.

(dé) Groupement

Les outils de mots clés peuvent regrouper les données de mots clés, qui se déroulent de deux manières différentes:

  • Ils regroupent les valeurs métriques des variations des termes de recherche en une seule.
  • Ils regroupent les variations des termes de recherche en un seul.

Ce mécanisme de regroupement repose sur quatre déterminants linguistiques:

  • Pluriel ou singulier dans le mot-clé.
  • Combinaisons d’articles et de prépositions.
  • Utilisation d’adjectifs réguliers, comparatifs et superlatifs.
  • Placement d’adjectifs ou de pronoms interrogatifs.

Regroupement de volumes

Commençons par un exemple.

Nous avons deux termes de recherche différents, «poignées de porte» et «poignée de porte».

Certains outils, qu’il s’agisse d’outils de mots clés, d’agrégateurs ou d’autres outils de collecte de données, fusionnent les valeurs de volume individuelles en un total agrégé et affichent ce total pour les deux mots clés.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Par exemple, keywordtool.io regroupe le mot clé, contrairement à searchvolume.io.

Voilà à quoi cela ressemble pour les États-Unis:

tableau avec mots-clés et valeurs de volume - SEJ

Deux choses ressortent immédiatement:

  • Keywordtool.io attribue la même valeur de volume aux deux mots clés (pluriel et singulier), contrairement à searchvolume.io.
  • Les valeurs de volume de Searchvolume.io sont nettement inférieures à celles de keywordtool.io.

Jetons également un œil à Ahrefs.

Ahrefs collecte ses données auprès de Keyword Planner, entre autres sources.

Selon le service client, Ahrefs dissocie les mots clés que Keyword Planner regroupe.

Le tableau suivant est similaire au précédent, mais cette fois nous avons inclus des données d’Ahrefs et tiré la même requête pour un autre pays.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Volumes de données de mots clés pour des mots clés spécifiques pour 2 pays - SEJ

Deux choses ressortent:

  • Les valeurs de données Ahrefs révèlent des valeurs de volume différentes par rapport à keywordtool.io et searchvolume.io.
  • Aux Pays-Bas, Ahrefs attribue une valeur plus élevée à la forme singulière «poignée de porte» par rapport au type pluriel «poignées de porte». Il est diamétralement opposé aux valeurs de Searchvolume.io.
    • Cependant, pour les États-Unis, Searchvolume.io et Ahrefs présentent la même distribution équilatérale.

Les tentatives de requête avec d’autres ensembles de mots clés nous donnent des résultats similaires. Dans certains cas, l’outil X présente les valeurs les plus importantes, dans d’autres cas, l’outil Y ou Z.

Une chose est sûre: les valeurs des données sont dispersées, remettant en question la fiabilité des valeurs des données.

Le tableau suivant répertorie un ensemble d’outils de mots clés populaires et indique s’ils regroupent ou non les volumes de mots clés:

Regroupement de mots clés par outil de mots clés - SEJ

Regroupement de mots clés

Outre le regroupement des volumes, l’effet de regroupement s’applique également aux termes de recherche.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Le premier déterminant linguistique du regroupement de mots clés est l’utilisation singulière et plurielle des noms.

Singulier contre pluriel

Les outils de mots-clés peuvent regrouper les noms au singulier ou au pluriel.

Cependant, cela ne signifie pas nécessairement que l’autre version, qu’elle soit au singulier ou au pluriel, n’existe pas dans la base de données de l’outil.

Les outils choisissent le formulaire à afficher dans la sortie.

Nous allons illustrer avec l’outil de planification des mots clés.

Supposons que nous voulons récupérer le volume de recherche aux États-Unis des quatre prochains mots clés.

Volumes de données de mots clés pour des mots clés spécifiques pour 2 pays - SEJ

Ensuite, nous choisissons l’onglet Mesures historiques montrant le tableau de données suivant:

plan de capture d'écran des données des mots clés du tableau de captures d'écran pour 2 mots clés - SEJ

Deux choses qui ressortent immédiatement:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

  • Le planificateur de mots clés renvoie uniquement les données de deux mots clés sur quatre.
  • Le planificateur de mots clés renvoie uniquement la forme singulière des noms.

Lorsque nous répétons cette requête pour d’autres pays, nous ne pouvons observer aucun modèle logique entre la requête et les données présentées.

Par exemple, pour les Pays-Bas, l’outil de planification des mots clés sert le tableau suivant:

table de capture d'écran mot clé données planificateur mots clés néerlandais - SEJ

Pour ceux qui ont une compréhension limitée de la langue néerlandaise:

  • «Deurklinken» (c’est-à-dire «poignées de porte») est pluriel.
  • «Deurpost» (c’est-à-dire «encadrement de porte») est singulier.

Le Planificateur de mots clés regroupe ainsi en fonction des volumes ainsi que des mots clés.

En examinant à la fois les États-Unis et les Pays-Bas, nous pouvons en déduire que la base de données de Keyword Planner contient les valeurs de données à la fois au singulier et au pluriel.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Pour être sûr, réexécutons la requête.

Seulement cette fois pour les États-Unis et avec les formes plurielles des noms:

  • « poignées de porte »
  • « Cadres de porte »

Les resultats:

capture d'écran table mot-clé données keywordplanner Mots-clés anglais pluriel - SEJ

Bien que l’outil de planification des mots clés omet le nom au pluriel ou au singulier dans l’exportation, sa base de données inclut des données sur les quatre mots clés.

En outre, les valeurs de volume des mots clés reflètent les volumes agrégés à la fois au pluriel et au singulier.

De même, il ne semble pas que le planificateur de mots clés décide quel formulaire afficher autre qu’un motif arbitraire.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

On peut approfondir ce sujet en comparant, par exemple, plusieurs pays, industries, plages de volumes et langues.

Une exploration plus approfondie, cependant, dépasse le cadre de cette étude.

Le fait est toujours que cela crée beaucoup de confusion.

Combinaisons d’articles et de prépositions

Les outils regroupent les mots clés dans les cas où les termes de recherche comprennent des articles et / ou des prépositions.

Pour illustrer, nous fournissons un exemple de Keywordtool.io.

Nous avons compilé une liste de huit mots-clés à extraire de la base de données de Keywordtool.io:

  • «Législation aux états-unis»
  • «Législation aux états-unis»
  • «Législation aux états-unis»
  • “Législation états-unis”
  • «Législation aux états-unis»
  • «La législation en nous»
  • «Législation nous»
  • «Législation nous»

Pour le lecteur remarquable, la liste est la suivante:

  • Nous avons utilisé deux façons d’écrire les États-Unis: «États-Unis» ou «États-Unis».
  • Nous avons créé quatre combinaisons de l’article «le» et de la préposition «dans».
    • « Dans le »
    • « Le »
    • « Dans »
    • – (Donc ni «le» ni «en»)

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

L’interrogation des données de la base de données de Keywordtool.io nous donne les données suivantes:

capture d'écran table mot-clé data keywordtool.io 5 mots-clés anglais - SEJ

Plusieurs choses ressortent:

  • La requête affiche des résultats pour seulement cinq des 10 mots clés. Il ne semble pas y avoir de facteur évident qui affecte de manière décisive cette sortie particulière. Les mots clés exclus:
    • «Législation aux états-unis»
    • «Législation aux états-unis»
    • «Législation nous»
  • Des mots clés avec à la fois la forme écrite «États-Unis» et l’abréviation «États-Unis» sont présentés, mais, manifestement pas pour la même variation d’articles et de prépositions:
    • Listé: «la législation en nous»
    • Non répertorié: «législation aux États-Unis»
  • La combinaison sans l’article et la préposition est donnée pour la variante «US» et «United States». Pourtant, les deux affichent d’autres valeurs de volume:
    • «Législation des états-unis» – 210
    • «Nous légiférer» – 40
  • Le regroupement des volumes a lieu «cross-keyword». Les variantes de «US» et «United States» ainsi que les variantes de préposition et d’article présentent les mêmes valeurs métriques. Cela signifie que keywordtool.io regroupe les valeurs de volume des mots clés suivants:
    • «La législation en nous»
    • «Législation nous»
    • «Législation aux états-unis»
    • «Législation aux états-unis»

Questions pertinentes qui vous viennent à l’esprit:

  • Pourquoi la combinaison «législation États-Unis» échappe-t-elle au clustering?
  • Dans quelle mesure les articles et les prépositions jouent-ils un rôle dans le regroupement des mots clés?
  • Comment se fait-il que les quatre mots clés non groupés particuliers affichent des valeurs de volume en cluster?
  • Existe-t-il un mécanisme précis et explicite qui réglemente la présentation des données interrogées?

Ce sont des questions légitimes auxquelles nous n’avons malheureusement pas de réponse fondée.

Keywordtool.io utilise l’API Google Ads pour récupérer les données des mots clés.

Peut-on alors s’attendre à ce que la même chose se produise avec l’outil de planification des mots clés?

Nous l’avons testé en exécutant la même requête pour l’outil de planification des mots clés:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

capture d'écran table mot-clé données keywordplanner 5 mots-clés avec des valeurs manquantes - SEJ

Cela produit un scénario assez différent.

Outre les observations précédentes, nous pouvons également observer que l’outil de planification des mots clés ne répertorie que quatre des huit mots clés.

De plus, les valeurs ne sont données que pour deux des quatre mots clés.

Utilisation d’adjectifs réguliers, comparatifs et superlatifs

Les adjectifs ou pronoms interrogatifs et les adjectifs comparatifs et superlatifs jouent un rôle dans les mécanismes de regroupement des outils.

Au début, cela pourrait ne pas sembler si grave. Par exemple, si nous recherchons «hôtels propres Londres» ou «hôtels les plus propres Londres», l’intention et les résultats SERP correspondants sont tous deux assez similaires.

Dans d’autres cas, cependant, les besoins et les intentions des visiteurs diffèrent profondément. Examinons les trois mots clés suivants:

  • «Hypotension artérielle» – J’ai une hypotension artérielle et j’aimerais avoir des informations sur les niveaux de pression artérielle considérés comme faibles et peut-être que faire à ce sujet.
  • «Baisse de la pression artérielle» – J’ai une pression artérielle élevée et j’aimerais avoir des informations sur la façon de réduire ma tension artérielle.
  • «Pression artérielle la plus basse» – je me sens probablement très mal et j’aimerais savoir quels niveaux de pression artérielle on peut avoir sans que cela ne mette la vie en danger.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

En regardant l’exemple, nous pouvons voir des différences dans:

  • Public.
  • État de santé du public.
  • Besoins informationnels.

Cet exemple met en évidence le fait évident que nous ne devons pas remédier à ces différences avec le même contenu, ni regrouper ces trois mots clés dans un ensemble de rubriques.

Que se passe-t-il si nous extrayons des données des mots clés pour ces termes de recherche particuliers?

Leur insertion dans Keywordtool.io entraîne les résultats suivants pour le Royaume-Uni:

capture d'écran table mot-clé data keywordtool.io 3 mots-clés anglais - SEJ

C’est assez clair: toutes les statistiques présentées partagent la même valeur.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Avant de tirer des conclusions, couvrons d’abord le déterminant final.

Placement d’adjectifs ou de pronoms interrogatifs

Le placement variable d’adjectifs ou de pronoms interrogatifs constitue le dernier déterminant linguistique du mécanisme de groupement.

Cela n’arrive pas trop souvent, mais parfois nous plaçons des adjectifs ou des pronoms interrogatifs au milieu ou à la fin d’une phrase au lieu du début.

Par exemple, on peut rechercher:

  • «Scooter électrique rapide» ou «scooter électrique rapide»
  • « À quelle vitesse scooter électrique » ou « scooter électrique à quelle vitesse »

Les deux cas ont le même besoin d’information.

Cela devient plutôt intéressant lorsque nous ajoutons des adjectifs comparatifs ou superlatifs à ces exemples et créons de nouvelles combinaisons telles que «scooter électrique plus rapide».

Le fait est que les différences dans les pronoms interrogatifs ou les adjectifs comparatifs et superlatifs peuvent présenter des divergences dans l’intention et les besoins des utilisateurs, et le type de public auquel appartiennent les utilisateurs, comme l’illustre le tableau suivant:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

keyword data in a table with 4 variables - SEJ

Unfortunately, such latent information is hard to derive from these third-party tools’ query output, especially when grouping is at play.

The next table by keywordtool.io illustrates this:

screenshot table keyword data keywordtool.io 4 english keywords - SEJ

Perhaps not surprisingly, the volume reflects aggregated values.

The conspicuous reader notices that the table merely lists keywords in the singular form.

Converting singular to plural form gives us the next data provided by keywordtool.io:

screenshot table keyword data keywordtool.io for 4 english keywords with missing values - SEJ

For data accuracy and reliability purposes, the immediate action here is to validate, to the extent possible, the volume values attributed to each keyword.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

One way to do this is by querying the same four keywords in other keyword tools.

Other tools prompt different results. For example, SEMrush shows no results and Keyword Planner was similar to Keywordtool.io.

Ahrefs and Searchvolume.io did present data for all variations and, even more interesting, with disproportionately smaller volume values.

For instance, the query for the UK in Searchvolume.io prompts this data table:

screenshot table keyword data searchvolume.io - SEJ

That is a staggering 70 times the difference of 310.

It’s true that the volume value of 3.600 already reflects the aggregated volume for the set of six keywords.

But sadly it happens all too often that marketers record all six – or perhaps even more – variations in keyword analyses.

We can propound the idea of choosing one variation and omitting the other combinations. But it will not solve the issue.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

The embedded information in keyword variations about users’ intents and needs can simply differ, and thus any form is relevant to include.

Imagine overlooking such a detail, failing to see that each keyword potentially belongs to different clusters of keywords destined for different pages.

And basing your traffic and financial projections on these numbers.

It’s a compelling image, albeit a little amateurish. Nonetheless, something that happens frequently.

There is one observation left unattended.

Keywordtool.io presents disproportionately larger volume values as compared to that of, for instance, Ahrefs.

Despite them both retrieving keyword data from Keyword Planner.

Apart from the tools’ data handling systems, what could cause such a difference?

Spelling Errors

Keyword tools differ in how they deal with spelling errors.

Some, like Searchvolume.io, leave out any spelling error variant in your query output.

Others, like Ahrefs and Keywordtool.io, do include spelling errors variants.

They both show the data values for every single keyword in your query as long as the keyword’s correct spelling variation exists in its database.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

But as Ahrefs ungroups keyword data originating from Google Ads API, it does attribute unique metric values to each spelling error variant.

Keywordtool.io, on the other hand, adopts the grouped keywords and metric values it retrieves from Keyword Planner, causing all spelling error variants to show identical metrics.

Misspellings often occur with brand names easily prone to being misspelled.

Think of brand names such as Audemars Piguet, Breguet, Douwe Egberts, Schwarzkopf.

Let’s take a look at “Douwe Egberts”.

I am Dutch, and as a native, I am familiar with the varieties of errors one can make.

For instance:

  • Is Douwe with ou or au?
  • Is Egberts with g or ch or even with gh?
  • Is it Egbert or Egberts?

Point is: what happens when we query a list of one single keyword misspelled in 26 different ways?

Despite the grouping mechanisms in place, Keywordtool.io serves you every unique misspelled keyword combination:

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

screenshot table keyword data keywordtool.io for 26 keywords - SEJ

Ahrefs’ situation is a bit different. The query output is as follows:

screenshot table keyword data Ahrefs listing 20 keywords with missing values - SEJ

Things that stand out:

  • The query excludes 6 out of the 26 keywords.
  • Ahrefs seems to independently attribute data values per metric.
    • Except for the first result, which is the correct spelling variation, all other keyword variations have either one or multiple metric data values missing.

Keep in mind that it only works with the ‘list’ mode. The ‘explore’ function will only serve the correct spelling variation.

Omitting ‘PPP’ Data

Google Ads API omits keyword data involving ‘PPP’ topics.

It means that other tools retrieving data from Keyword Planner also face this limitation unless they enrich their database with data coming from other sources.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

For security purposes, Google disallows keyword tools to retrieve keyword data revolving around Porn, Pills, and Poker.

Think of keywords like “cannabis” or “full house” but also keywords such as “Koffiemachine huren”.

“Huren” is Dutch for renting. But it also means “whores” in German.

While this ruling is not a matter of direct manipulation, it does complicate marketers’ data collection and analyses.

A selection of keyword tools and whether they provide”PPP”-data for your query:

table with names of keyword tool provider and data values - SEJ

The above examples illustrate the chaotic nature of keyword tool mechanisms and the hazards they impose on consultants’ work.

Pour résumer

  • Keyword tools do not necessarily show all keyword variations and corresponding metric values.
    • Potential determinants: Tool’s functionality, safety or security measures, or missing data in the database.
  • To our knowledge as outsiders, it seems the particular display of combinations of keyword and metric value variations is randomly “chosen”.
  • Grouping applies to both the numerical values and search terms.
  • Linguistic determinants for keyword grouping:
    • Plural vs. singular.
    • Usage or non-usage of articles and prepositions.
    • Placement of adjectives or interrogative pronouns.
    • Usage of comparative and superlative adjective.
  • Grouping occurs both within a particular group and across group variations.
  • Grouping occurs at random.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

3. Data Validation: Validating Keyword Data Values

Keyword data validation is possible, yet without access to uncorrupted data, it becomes an act of finding the closest approximation to the keyword’s actual data values.

One option is to benchmark keyword impression data values from Search Console to volume values of third-party keyword tools.

Search Console data isn’t 100% reliable either, but it is as close as we can get.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Early in 2020, we designed a study to determine the accuracy of keyword data with a set of 160 keywords from a variety of industries.

The study tackled these two questions:

  • For each keyword tool, what is the average deviation % of keyword volume values for the whole set of keywords compared to Search Console impression data values?
  • For each keyword tool, what is the variance of all deviation % for the whole set of keywords?

The former gives us insights into the degree of accuracy for any given keyword’s volume value.

The latter question determines to what extent the deviation % of each keyword is spread out from the average deviation value.

As values can both deviate negatively and positively, it does not suffice to merely show the average deviation %.

It is the combination, however, of both scores that yield the best results in determining the data values’ accuracy and reliability.

As these visualizations illustrate, we see that exclusively looking at either variance or average deviations can prompt erroneous representation of the situation:

4 plots that visualise different combinations of variance and average deviation - SEJ

Measuring the variance of the average deviation % enables us to determine the scatteredness of each keyword’s deviation percentage.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Large dispersions hints to lower accuracy and thus reliability of the keyword volume values.

To put it differently, the more substantial the variance, the higher the likelihood of selecting a keyword from the data set showcasing a more inaccurate volume value than the average volume value deviation.

These were the key findings:

  • Twinwords volume data showed the largest positive average deviation to Search Console impressions: +37.13%.
  • Searchvolume.io volume data showed the largest negative average deviation to Search Console impressions: -34.71%.

chart with average deviation scores of keyword data values of keyword tooling providers - SEJ
  • The frontrunners with the largest variance
    • Twinwords: 5,259
    • Keywordtool.io: 5,256
    • Keyword Planner: 5,188
  • The frontrunners with the smallest variance
    • Serpstat: 0.124
    • Searchvolume.io: 0.149
    • Ahrefs: 0.153

chart with variance scores of keyword data values of keyword tooling providers - SEJ

Ideally, tool providers exhibit numbers close to zero for both the average deviation and the variance of the average deviation.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

These findings show otherwise. Specifically:

  • The grouping effect drives the large variance and average deviation score by the frontrunners.
    • Both Keywordtool.io and Twinword get their data directly from Google. And since Google Ads applies grouping to keyword and data values, Twinword and Keywordtool.io automatically adopt this effect.
  • Keywords with the largest data value deviations also appeared to be keywords with grouped data values.
  • Serpstat, Ahrefs, and Searchvolume.io present variance numbers close to zero. These tools do not apply any clustering.
  • Serpstat and Searchvolume.io show considerably lower average deviations. It suggests that volume data is on average lower than what you would expect according to the Search Console.
  • Although Searchmetrics’ keyword volume values barely deviate on average to Search Console’s impression values, the individual data values are further removed from the mean, suggesting a higher degree of inconsistency in keyword data values.
  • The numbers of Ahrefs and KWFinder exhibit the closest approximation to the keyword’s actual data values.

Data values from third-party keyword tools vary widely and seem to fail in providing unambiguity or consistency.

The findings further give the plausibility to the idea that mechanisms in handling data queries, and collecting or manipulating data, can add to delivering erroneous keyword data.

Can We Then Validate the Accuracy of Keyword Data in Another Way?

Together with Sander Tamaëla, a Dutch Freelance -expert, we came up with a way to validate the accuracy of third-party keyword volume values with the help of Google Search Console and Google Trends data.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

The idea was as follows:

  • We picked one noun and selected both the plural and singular form.
    • We had validated the accuracy of search volumes with GSC monthly average impression values.
  • Then we retrieved the volume data from two or three random keyword tools.
  • We then placed these two keywords in Google Trends.

With this setup, we could determine the relative interest between the two keywords.

Our assumption here was that Google Trends’s relative interest scores reflect the purest data values.

As such, the relative interest score should reflect a ratio similar to that of impression values in Search Console.

  • Next, we expanded the set with keywords – for which we know we have an accurate approximation of the impression value – from several volume ranges.
  • Then we compiled a training set.

The idea was to determine per volume range the deviation per keyword volume value based on the relative interest scores of Google Trends.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Unfortunately, things didn’t work out as planned.

After we had challenged the assumption that Google Trends data depicts accurate values, we discovered that Google Trends isn’t entirely reliable either.

To test the reliability of Google Trends we set up the next test:

  • We selected five keywords with very similar monthly impression values in Search Console.
  • We then added these five keywords in Google Trends.
    • We made sure that we had chosen the same 12 month period for Search Console as for Google Trends: 1 December 2018 until 30 November 2019.

One of the five-keyword sets, in Dutch:

Table with keyword data from search console - SEJ

The next chart illustrates each keyword’s impression value deviation from the mean:

chart that visualises a plot of data points with small variance and small average deviation - SEJ

The monthly impressions average deviation in percentages was only 1.92%.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Unfortunately, it is only possible to select up to five keywords in Google Trends, limiting our sample to five keywords.

Such a sample size is statistically not a significant representation of the population. The only alternative was to repeat the test setup with different sets of keywords.

If Google Trends is reliable, we would have expected that the average interest ratio between the keywords in Google Trends is virtually the same.

What was the result?

For those five keywords, we observed ratio levels of relative interest score that were varying disproportionally:

Google Trends screenshot - SEJ

Google Trends’ average interest scores:

Table with keyword data with Google Trends data values - SEJ

The ratio of three out of five corresponds to the ratio of Search Console impressions.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

But the remaining two keywords differ significantly, with an average deviation in percentages of 31,57%.

chart that visualises a plot of data points with large variance and large average deviation - SEJ

Again, with a sample size of five, the average deviation output is not significant.

But by repeatedly testing the setup for different keyword sets, we observed a similar pattern.

Two other examples of Google Trends’ relative interest scores for five-keyword sets:

Chart that visualizes plots of average deviation scores - SEJ

To put in perspective, the ratio average deviation percentages of Search Console are respectively 2.73% and 1.62%.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Google Trends’ average deviations thus show significantly larger percentages than those for Search Console’s impression value ratios.

Can we then draw any conclusions here?

As outlined in the beginning, Search Console isn’t always showing the most accurate representation of reality.

However, the designed setup to test Google Trends’ data accuracy and reliability provided evidence suggesting that data from Google Trends isn’t consistent or unambiguous either.

Does this mean that we can no longer use these tools? Or perhaps only some?

Pas nécessairement.

But, it doesn’t hurt to be aware of the demerits from keyword tools.

4. Role as an Consultant

The primary purpose of this study is to grow awareness about the complexity surrounding the data values of keyword tools.

The next step after awareness is to incorporate critical thinking allowing us to recognize any faulty habits.

Common pitfalls to avoid:

  • Taking volume data values as granted.
  • Merging keyword volumes from multiple tools without further checks.
  • Skipping the spellings check.
  • Ignoring the grouping effect or not validating groupings.
  • Inferring hard conclusions from your keyword volume data calculations.
  • Not providing a reliability clause for your findings in the communication to your customer or prospects.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

We cannot afford to take data from keyword tools for granted.

To build expertise and provide solid, reliable advice, we ought to set standards for how we work with keyword data.

How Will This Impact Your Role as an Consultant?

I would argue that it starts with establishing a greater sense of accountability.

Remember the earlier example of overlooking a minor detail?

Imagine that happens.

You give this killer PowerPoint presentation. The prospects at the table are completely baffled by your story; you just landed a new client!

A few months pass by, and you discover that the total volume amount of your keyword data set is only 60% of the total amount you initially communicated to your client.

Assuming your analysis included virtually all existing keywords relevant to the business, such a mistake is difficult, perhaps even impossible to rectify.

Especially if your client’s case is specific to a niche or product cluster, you simply won’t find other relevant keywords to close the volume gap.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

To avoid such disasters we recommend to incorporate the next worthwhile practices:

  • Spend more time on your data analysis. A correctly performed keyword analysis takes time. Quality ≠ quantity.
  • Validate your keyword data values.
  • Double-check your data for irregularities
  • Have your ‘facts’ straight.
  • Do you have to make a presentation and draw conclusions? Make sure you at least have a proper contextual story ready to support your claims.

Your boss or client might not understand why individual efforts during the analysis have to take a substantial amount of time.

Be open and transparent to clients and prospects about the required efforts to ensure the continuous delivery of quality. It creates trust and fosters mutual bonding.

Telling your client beforehand is thus indisputably better than explaining your mistake afterward.

That will irreversibly compromise the relationship with your client.

Final Notes

  • This study’s goal is not to place keyword tools in a bad light.
  • Neither do I argue that keyword tools are in any way deficient. The reason I have provided the examples is purely to evoke a sense of awareness surrounding the accuracy and reliability of keyword data.
  • This study did not include other search engines such as Bing, Yandex, and Yahoo.

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Appendix

The study’s setup was as follows.

We selected a set of 160 keywords from various Google Search Console accounts. The selection of keywords depended on whether all of the following conditions were satisfied:

  • The keyword must have had a top 3 SERP ranking for 12 consecutive months without any temporary dips reaching lower rankings.
    • This facilitates an as close as possible approximation of the real average monthly impressions count, based on a 12 month period.
  • The keyword’s monthly impression count is 1000 or higher.
    • This increases the likelihood that each participating keyword tool’s database contains data on the selected keyword (long-tail keywords are less likely to be registered in keyword tool databases).
  • The keyword should not be subject to seasonality.
    • It increases the likelihood of consistent top SERP rankings throughout the year.
  • We also made sure that the 12 month period of GSC data matched the 12-month period with which keyword tools calculate their monthly averages.

These criteria were set in order to establish an accurate recording of calculated monthly impression values.

Most keyword tools calculate their monthly average volumes in a similar vein.

Plus de ressources:


Crédits d’image

PUBLICITÉ

CONTINUER À LIRE CI-DESSOUS

Image vedette: Créé par l’auteur, juin 2020
Infographic: Created by author, May, 2020

!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js'); fbq('init', '1321385257908563');

fbq('track', 'PageView');

fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'keyword-data-accuracy-study', content_category: ' digital-marketing-tools ' });

}// end of scroll user

#Exactitude #des #données #des #mots #clés #manipulation #des #données #par #les #outils #référencement #InDepth #Study