Moteurs de recherches

portail, internet

Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.

Vous connaissez certainement les moteurs de recherches non-libres : Google, Yahoo!, Microsoft Bing, …

Pourquoi faut il ne pas utiliser les moteurs non-libres ? En y faisant des recherches sur ces moteurs, et en utilisant les services associés ( Gmail, Yahoo Mail, MSN live, … ), vous acceptez généralement une clause qui permet à ses propriétaires d'utiliser vos informations personnelles, notamment pour cibler leurs publicités, et leur donne beaucoup de pouvoir.

Déclarations d'Eric Schmidt (Google)

"Nous savons à "peu près" qui vous êtes, à "peu près" ce qui vous intéresse, à peu près qui sont vos amis" ( à peu près, car les méthodes d'analyses et modélisations sont probabilistes, il faut lire on sait à X% qui vous êtes vraiment ).
"Si 'je' regarde suffisamment vos messages et vos déplacements, avec de l'intelligence artificielle, nous pouvons prédire ce que vous allez faire"
La nouvelle startup de google ( avec la cia ) : Recorded Future
Un document récent indique également que Google pourrait commencer à vendre des annonces sur le Web basées sur les choses qu'il connaissait des gens de leur compte Gmail, et aussi de leur utilisation du service Google Checkout, un rival de PayPal.

D'autres liens pour faire le tour de la question: Le document montre une compréhension des implications de confidentialité. Rien ne se passerait "sans considération fort au sujet de la vie privée, au niveau juridiques et de l'industrie les meilleures pratiques à l'esprit». Un objectif devrait être de limiter le sentiment des utilisateurs sur "Terrifiant" lié à la consultation des annonces très ciblées. ( le document )

Google travaille sur un service en utilisant la «découverte contextuelle» pour pousser l'information aux gens avant qu'ils aient commencé à chercher, en fonction de facteurs tels que leur historique de navigation ou de l'emplacement actuel.

Faut-il avoir confiance en Google ? (stangblog)
Video Le plan de google (masterplanthemovie.com)
Prochaine étape de google : robotique, et … intelligence artificielle
et la "neutralité du net" en question chez google est l'opposé de ce que cela semble dire ¹⁾: il s'agit de contrôler les autoroutes de l'information : de revenir au format minitel 2.0 ( notamment par android , et avec des accord politique, et financier avec les FAI), et enfin la télévision minitel 2.0 (1984).
La net neutralité réel est en 4 points :
- Transmission des données par les opérateurs sans en examiner le contenu ;
- Transmission des données sans prise en compte de la source ou de la destination des données ;
- Transmission des données sans privilégier un protocole de communication ;
- Transmission des données sans en altérer le contenu.
- Google ne donne qu'une apparence d'ouverture : de la transparence, ce n'est pas la même chose : au profit de qui : et ca vous coûte quoi ? Votre liberté ?

Voir recherche de fichiers

Décentralisés

Libres:

Non libre :

Majestic-12 Dsearch (site) (stats)

Centralisés

Profit company

Wikia Search (site) (source)

OpenWebSpider ( site ) Open Source multi-thread Web Spider (robot à chenilles) et moteur de recherche avec beaucoup de fonctionnalités intéressantes
ex-crawler ( site )

Pour les cartes

Local Lucene ( site )

Libre :

Décentralisé :
- Scrumptious (site) (utilise couchdb ) Il supporte l'importation de signets Delicious, un bon début.

Centralisé :
- Scuttle (site) open source PHP et MySQL dans la meme vision que Delicious- a été en développement depuis 2005. Il prend en charge plusieurs utilisateurs, vous pouvez donc l'hôte d'une copie de celui-ci et laisser tous vos amis ou collègues de l'utiliser….
- Selflicious (site) nouveau site web basé sur Python personnels bookmarking application très similaire à Delicious. Il est conçu pour une seule personne pour ranger leurs signets sur un serveur web.
- Ma.gnolia (code) Infortuné concurrent Delicious, Ma.gnolia a publié son code de retour en 2008. L'entreprise a fermé ses portes en 2010.

Non libre :

via des marque-pages : delicious
via des boutons sur les pages et les articles : digg

Distribué :

SolrCloud (apache) (site)( basé sur Solr Server qui a déjà la possibilité de faire des requêtes distribuées )
ElasticSearch (site) met en oeuvre un moteur de recherche distribué RESTful construit au-dessus de Lucene. JSON natif, prend en charge le basculement automatique vers le serveur maître, réplication de l'index, les opérations atomiques (pas besoin de valider). https://doc.ubuntu-fr.org/elasticsearch
Katta (site)

Centralisé :

Lucene (apache) ( utilisé sur Salesforce, LinkedIn, Twitter, itunes, etc. )
- Le site LinkedIn(350+ million requêtes par semaine ) utilise bobo (site) pour la recherche, et Zoie pour l'indexation.
- Solr Server (site) (java)lucene accessible en http. Caractéristiques supplémentaires comparé a lucene : des analyseurs de requête supplémentaire, la mise en cache HTTP, facettage de recherche, mettant en évidence, et bien d'autres. Le meilleur de tous, une fois que vous mettre en place le serveur Solr, vous pouvez en parler directement via REST XML / JSON API
- CLucene - a C++ search engine ( site )
Nutch (wiki)
Xapian (site)
OSS Open Search Server ( site )

Jumper 2.0 Collaborative Search Engine (site)

Non-Libre :

IntraCherche (site) dédié aux PME, dont le principal atout est de pouvoir être facilement mis en place dans l'entreprise, sans requérir de serveur web.

Compass semantic/java (site)
regain ( site )
Phraseanet (site) : pour le multimedia

Optimisation pour les moteurs de recherche ou SEO ( search engine optimisation).

SEO Panel - A control panel for SEO (site)
SEO Tools (site)

Robot.txt

Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. ( voir aussi Spider trap )

Exemple pour bloquer un indexer spécifique :

User-agent: googlebot
Disallow: /

htaccess

Des générateurs :

(en) Liste des moteurs de recherches libres
(en) Liste de moteurs, sur sourceforge, les web crawler, les web spider, les webbots
(en) A Comparison of Open Source Search Engines
(en) Open Source Search with Lucene & Solr
L'"ouverture" n'est plus si ouvert que cela (george siemens)
Les Sitemaps (xml)
The Data Liberation Front : libéré vos informations des services de google
Les mots blacklistés : on remarque sur servitude est interdit : surement il doit être remplacé par devoir, ou Soumission librement consentie comme dans la novlangue de 1984 ?
Lilo : un méta-moteur français et "redistributif". A ne pas confondre avec le gestionnaire d'amorçage du même nom. Chaque recherche avec Lilo donne des "gouttes d'eau" qui seront converties en subvention à des associations (par ex. WWF, SPA…) que vous aurez choisies.

Plugin Backlinks: Pas de réponse.

Contributeurs : Psychederic, …

¹⁾
Tim Wu on Net Neutrality/Google-Verizon betrayal

Moteurs de recherches