Le Google hacking est une façon experte d’utiliser Google. Il s’agit d’une technique légale et très puissante, qui vous permettra d’obtenir des informations d’une précision inégalée.

En effet, il est facile de se servir de Google comme un utilisateur lambda. Pour un service un peu plus approfondi, on peut utiliser le formulaire de recherche avancée. On devient alors un utilisateur averti. Mais, dans cet article, je vais vous montrer comment l’utiliser de façon experte !

Comme vous le savez, Google est le leader du marché. Quasiment toutes les informations que vous mettez en accès visible sur internet sont référencées par ce moteur de recherche.

Vous avez sûrement déjà utilisé le formulaire de recherche avancée afin de trouver une information spécifique. Vous avez donc dû voir dans l’URL de la page de résultats des critères comme as_filetype=.. ou as_q=..

Ce formulaire avancé est en fait le sommet de l’iceberg que Google met à disposition du public afin de trouver des informations. Mais il existe beaucoup d’autres critères que je vais vous citer.

Les opérateurs suivants s’appellent des Google dorks. On les nommera “opérateurs” afin de n’effrayer personne pour la suite de l’article.

Méthode

Les requêtes sont à ajouter dans la barre de recherche afin que les caractères spéciaux soient transcrits en hexadécimal dans l’URL.

Lors de vos tests, il est possible que Google vous demande de remplir un formulaire de captcha. Ne vous en faites pas, c’est normal : il s’assure juste que la requête est faite par un humain.

Afin de trouver ce qu’on cherche, il est nécessaire de savoir ce que l’on veut. Si on cherche un livre, par exemple, on va noter les informations sémantiques de celui-ci :

  • son format (PDF, etc.) ;
  • son titre ;
  • un petit texte, sous la forme d’un paragraphe si possible.

Dans les opérateurs ci-dessous, les points de suspension représentent l’emplacement de la variable de recherche. Respectez bien la casse de texte pour que vos tests marchent.

Opérateurs de recherche

intext:... : une expression dans le corps d’une page.
inurl:... : une expression dans l’URL d’une page.
intitle:... : une expression dans l’URL d’une page.
inanchor:... : une expression dans l’ancre d’un lien.
author:... : les pages d’un auteur.
"..." : une expression exacte (sans espace).
cache:... : la page mise en cache de cet URL.
define:... : la définition du mot suivant.
filetype:... : l’extension du fichier.
info:... : les informations sur cet URL.
link:... : les pages qui contiennent des liens vers cet URL.
location:... : les pages qui traitent de ce lieu.
site:... : pour chercher dans les pages d’un site précis.
source:...  : les informations qui proviennent de ce site.
-... : les critères d’informations que l’on ne souhaite pas obtenir.
~... : similaire à ça.
...|... : OU logique.
... ... : ET logique.
1..3 : nombre compris entre 1 et 3.
...*... : un terme commençant par cela et se finissant par ça.
date:... : limite les résultats indexés depuis le mois renseigné.
... ... : définit un autre critère de recherche.
+... : trie les résultats selon la présence de cette expression.

En pratique

Vous avez à présent les opérateurs en main. Mais comment s’en servir ?

Pour commencer, on va rechercher toutes les pages où notre e-mail est visible:
intext:"votre-adresse-email"

Puis on va limiter les résultats à un site précis :
intext:"votre-adresse-email" site:www.site.com

Faites bien attention aux espaces dans les guillemets, qui risquent de fausser la requête !

Requêtes complexes

Il existe des requêtes complexes servant à obtenir des informations rares.

Fichiers

Voici une requête permettant de trouver tous les dossiers racines des serveurs d’internet, contenant des fichiers d’une extension souhaitée et dont le nom est spécifié :
intitle:index.of”last modified”parent directory”(EXTENSION)"NOM"-htm-html-php-asp

Testez-la en spécifiant l’EXTENSION et le NOM du fichier souhaités. Par exemple :
intitle:index.of”last modified”parent directory”(mp3|wma)"tryo"-htm-html-php-asp

Cette requête redoutable marche pour toutes les extensions de fichier !

Caméras

Les plateformes de gestion de caméra non protégées sont aussi trouvables :
Axis :inurl:/view.shtml et inurl:view/index.shtml
Canon : sample/LvAppl/
MOBOTIX : control/userimage.html
FlexWatch : /app/idxas.html
JVC : intitle:”V.Networks [Motion Picture(Java)]”

Liste d’adresse e-mail

filetype:xls inurl:”email.xls”

Cacher ses fichiers

Un webmaster est responsable de tous les fichiers présents sur un site dont il a la gestion. Il doit aussi répondre des soucis qu’il risque d’engendrer à ses clients en rendant des fichiers visibles par Google.

Il doit donc se demander pourquoi les moteurs de recherche voient ces fichiers. En réalité, tous les serveurs possèdent la même faille : ils affichent les fichiers lorsqu’un dossier est visible et ne possède pas d’index.

Heureusement, il existe plusieurs solutions pour éviter que Google ne voit les fichiers que l’on possède dans un dossier sur un serveur.

1. Créer un index

Il s’agit de créer un fichier, nommé “index.html” ou “index.php”, à l’intérieur de chaque dossier, afin que la visualisation des fichiers et dossiers ne se fasse pas.

2. Interdire la visualisation des fichiers

Il faut pour cela utiliser le fichier de configuration serveur .htaccess et introduire l’instruction suivante:Options -Indexes

Conclusion

Cet article a pour but de vous prévenir : toutes les informations mises sur internet et non protégées sont susceptibles d’être vues par Google, et donc par tous !

En France, laisser à la portée du public un formulaire de recherche ayant la possibilité de donner accès à des ressources copiées est interdit. Cela fait tomber le créateur du formulaire sous le coup de la loi sur le recel.

En voyant le potentiel de cette méthode de recherche, on comprend mieux pourquoi Google ne laisse pas à la portée des utilisateurs lambda un meilleur formulaire !