Construire un moteur de recherche comme projet, permet d’avoir une autonomie face à l’information et de reprendre les renes de la souveraineté. Et en plus, si vous cherchez à ne pas vous servir des GAFA, c’est la seule solution. Les 2 plus grandes technologies sont Google et Microsoft avec Bing, qui sont réutilisés dans beaucoup de solutions de recherche tels que Duckduckgo, Ecosia, Lilo par exemple.
Mais vouloir créer un moteur de recherche thématique est tout à fait possible aujourd’hui, vouloir indexer l’immensité du web n’est pas possible avec les solutions proposées. Pour cela, il faudrait de l’argent, des ressources humaines, et surtout du temps pour indexer les sites de la planète.
Sommaire
Solution coder soi meme
Il faut d’abord construire un robot d’exploration qui va parcourir le Web de façon aléatoire en suivant les liens, en récupérant les pages et en les stockant. Le crawler lui-même est un projet qui demande beaucoup de temps car vous devrez le rendre très rapide et efficace.
Ensuite, vous construisez un indexeur qui va parcourir les pages et créer un index, garder votre index en mémoire afin de garantir que vos requêtes soient très rapides.
Votre application utilise ensuite l’index pour répondre aux requêtes. La manière dont vous utilisez l’index pour décider quelles pages correspondent à la requête et comment trier ces pages est essentielle. Il existe de nombreuses options et vous devrez expérimenter.
Mettez en cache tout ce que vous pouvez, assurez-vous de ne jamais toucher au disque pour répondre aux requêtes, vous devez être très rapide et la seule façon d’y parvenir est d’avoir toutes les informations dont vous avez besoin en mémoire.
Si vous pensez avoir fini, vous pouvez envisager de passer à la vitesse supérieure, de déployer votre moteur de recherche sur un cloud.
Solution avec des moteurs open source
Plusieurs projets existent et sont open source, donc vous pouvez les utiliser librement. Le seul problème, est d’être développeur pour les mettre en place ou faire un appel à une agence pour le mettre en place sur un serveur. La liste ci dessous, vous propose plusieurs solutions avec différents langages de programmation (PHP, Java, C++).
https://cwiki.apache.org/confluence/display/solr/SolPHP
http://sphinxsearch.com/ C++
https://lucene.apache.org/ Java
https://nutch.apache.org/
http://www.sphider.eu/ en PHP
Solution clé en main sans coder
Il est clair que vous ne ferez un Google bis avec ces technos ci dessus, par contre nous avons une solution clé en main qui vous évite de passer par la phase développement. Si vous avez l’intention de faire un moteur thématique (sport, industrie, finance, loisirs…) sans passer par les GAFA. Vous avez Latlas.pro pour créer un moteur thématique. Il suffit d’ouvrir un compte et d’ajouter simplement une liste de sites que vous connaissez et le moteur démarre tout seul. Ce principe de moteur, vous permet d’attirer des visiteurs qualifiés sur un sujet que vous aimez.