Moteurs de recherches
Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.
Moteurs de recherches non-libres
Vous connaissez certainement les moteurs de recherches non-libres : Google, Yahoo!, Microsoft Bing, …
Pourquoi faut il ne pas utiliser les moteurs non-libres ? En y faisant des recherches sur ces moteurs, et en utilisant les services associés ( Gmail, Yahoo Mail, MSN live, … ), vous acceptez généralement une clause qui permet à ses propriétaires d'utiliser vos informations personnelles, notamment pour cibler leurs publicités, et leur donne beaucoup de pouvoir.
Déclarations d'Eric Schmidt (Google)
- "Nous savons à "peu près" qui vous êtes, à "peu près" ce qui vous intéresse, à peu près qui sont vos amis" ( à peu près, car les méthodes d'analyses et modélisations sont probabilistes, il faut lire on sait à X% qui vous êtes vraiment ).
- "Si 'je' regarde suffisamment vos messages et vos déplacements, avec de l'intelligence artificielle, nous pouvons prédire ce que vous allez faire"
- Un document récent indique également que Google pourrait commencer à vendre des annonces sur le Web basées sur les choses qu'il connaissait des gens de leur compte Gmail, et aussi de leur utilisation du service Google Checkout, un rival de PayPal.
D'autres liens pour faire le tour de la question: Le document montre une compréhension des implications de confidentialité. Rien ne se passerait "sans considération fort au sujet de la vie privée, au niveau juridiques et de l'industrie les meilleures pratiques à l'esprit». Un objectif devrait être de limiter le sentiment des utilisateurs sur "Terrifiant" lié à la consultation des annonces très ciblées. ( le document )
- Google travaille sur un service en utilisant la «découverte contextuelle» pour pousser l'information aux gens avant qu'ils aient commencé à chercher, en fonction de facteurs tels que leur historique de navigation ou de l'emplacement actuel.
- Faut-il avoir confiance en Google ? (stangblog)
- Video Le plan de google (masterplanthemovie.com)
- Prochaine étape de google : robotique, et … intelligence artificielle
- et la "neutralité du net" en question chez google est l'opposé de ce que cela semble dire 1): il s'agit de contrôler les autoroutes de l'information : de revenir au format minitel 2.0 ( notamment par android , et avec des accord politique, et financier avec les FAI), et enfin la télévision minitel 2.0 (1984).
- La net neutralité réel est en 4 points :
- Transmission des données par les opérateurs sans en examiner le contenu ;
- Transmission des données sans prise en compte de la source ou de la destination des données ;
- Transmission des données sans privilégier un protocole de communication ;
- Transmission des données sans en altérer le contenu.
- Google ne donne qu'une apparence d'ouverture : de la transparence, ce n'est pas la même chose : au profit de qui : et ca vous coûte quoi ? Votre liberté ?
Pour les fichiers locaux
Pour Internet
Décentralisés
Libres:
Non libre :
Centralisés
Profit company
- Wikia Search (site) (source)
Pour les cartes
- Local Lucene ( site )
Moteur collaboratif par marque page
Libre :
- Décentralisé :
- Centralisé :
- Selflicious (site) nouveau site web basé sur Python personnels bookmarking application très similaire à Delicious. Il est conçu pour une seule personne pour ranger leurs signets sur un serveur web.
Non libre :
Pour un intranet
Distribué :
- SolrCloud (apache) (site)( basé sur Solr Server qui a déjà la possibilité de faire des requêtes distribuées )
- ElasticSearch (site) met en oeuvre un moteur de recherche distribué RESTful construit au-dessus de Lucene. JSON natif, prend en charge le basculement automatique vers le serveur maître, réplication de l'index, les opérations atomiques (pas besoin de valider). https://doc.ubuntu-fr.org/elasticsearch
Centralisé :
- Lucene (apache) ( utilisé sur Salesforce, LinkedIn, Twitter, itunes, etc. )
- Solr Server (site) (java)lucene accessible en http. Caractéristiques supplémentaires comparé a lucene : des analyseurs de requête supplémentaire, la mise en cache HTTP, facettage de recherche, mettant en évidence, et bien d'autres. Le meilleur de tous, une fois que vous mettre en place le serveur Solr, vous pouvez en parler directement via REST XML / JSON API
- CLucene - a C++ search engine ( site )
- Nutch (wiki)
- Xapian (site)
- OSS Open Search Server ( site )
- Jumper 2.0 Collaborative Search Engine (site)
Non-Libre :
- IntraCherche (site) dédié aux PME, dont le principal atout est de pouvoir être facilement mis en place dans l'entreprise, sans requérir de serveur web.
Pour un site
SEO - Optimisation pour les moteurs de recherche
Optimisation pour les moteurs de recherche ou SEO ( search engine optimisation).
Blocage des moteurs de recherches qui indexent vos sites
Robot.txt
Robots.txt, ou le fichier d'exclusion des robots, est une ressource de format texte qui peut être placée à la racine d'un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche. ( voir aussi Spider trap )
Exemple pour bloquer un indexer spécifique :
User-agent: googlebot Disallow: /
htaccess
Des générateurs :
Voir aussi
- L'"ouverture" n'est plus si ouvert que cela (george siemens)
- Les Sitemaps (xml)
- The Data Liberation Front : libéré vos informations des services de google
- Les mots blacklistés : on remarque sur servitude est interdit : surement il doit être remplacé par devoir, ou Soumission librement consentie comme dans la novlangue de 1984 ?
- Lilo : un méta-moteur français et "redistributif". A ne pas confondre avec le gestionnaire d'amorçage du même nom. Chaque recherche avec Lilo donne des "gouttes d'eau" qui seront converties en subvention à des associations (par ex. WWF, SPA…) que vous aurez choisies.
Liste des logiciels en rapport
Contributeurs : Psychederic, …