Business Intelligence - ou Informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entité en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. On peut considérer que ce sont des outils qui permettent d'analyser des systèmes complexes.
Le processus d'extraction de motifs à partir de données est appelée data mining. Il est reconnu comme un outil essentiel par les entreprises modernes, car il est capable de convertir les données en intelligence d'affaires donnant ainsi un avantage informationnel. À l'heure actuelle, il est largement utilisé dans les pratiques de profilage, comme la surveillance, le marketing, la découverte scientifique, et la détection des fraudes.
Il existe quatre types de tâches qui sont normalement intervenir dans les mines de données:
La classification - la tâche de généraliser structure familière à employer de nouvelles données
Clustering - la tâche de trouver des groupes et des structures dans les données qui sont en quelque sorte ou d'une autre de même, sans l'aide de noter structures dans les données.
règle d'apprentissage d'Association - Cherche relations entre les variables.
Régression - vise à trouver une fonction qui modélise les données avec la moindre erreur.
Liste de logiciel libre :
-
Weka (
site), (Waikato Environnement pour savoir Analysis) est une suite bien connue des logiciels d'apprentissage automatique qui prend en charge plusieurs tâches typiques d'exploration de données, notamment le prétraitement des données, clustering, de classification, de régression, la visualisation et la sélection des fonctionnalités. Ses techniques sont basées sur l'hypothèse que les données sont disponibles en un seul fichier plat ou une relation, où chaque point de données est marquée par un nombre fixe d'attributs. Weka fournit un accès aux bases de données SQL en utilisant Java Database Connectivity et peut traiter le résultat retourné par une requête de base de données. Son interface utilisateur principal est l'Explorer, mais la même fonctionnalité peut être consulté à partir de la ligne de commande ou par l'intermédiaire de l'interface à base de composants de connaissances Flow.
KNIME (
site) (Konstanz Information Miner) est un outil convivial, intelligible et complète open-source d'intégration de données, traitement, analyse, et la plate-forme d'exploration. Il donne aux utilisateurs la possibilité de créer visuellement les flux de données ou de pipelines, de manière sélective exécuter une partie ou toutes les étapes de l'analyse, et plus tard l'étude des résultats, des modèles et des vues interactives. KNIME est écrit en Java, et il est basé sur Eclipse et fait usage de sa méthode de vulgarisation à l'appui plugins offrant ainsi des fonctionnalités supplémentaires. Grâce à des plugins, les utilisateurs peuvent ajouter des modules pour le texte, image, et le traitement des séries chronologiques et l'intégration de divers autres projets open source, tels que le langage de programmation R, Weka, le kit de développement de la chimie, et libsvm.
Ces trois premiers de ces systèmes sont capables d'importer et d'exporter les modèles dans PMML (Predictive Model Markup Language), qui fournit une méthode standard pour représenter des modèles d'exploration de données afin que celles-ci peuvent être partagés entre différentes applications statistiques.
Orange(bi) (
site) est une exploration de données à base de composants et d'apprentissage machine qui offre une vision amicale mais puissante, rapide et polyvalente, et avec de la programmation visuelle pour l'analyse de données exploratoire et de visualisation. Il est écrit en Python et avec des bibliothèques de scripts. Il contient un ensemble complet de composants pour le prétraitement des données, fonctionnalité de pointage et de filtrage, de modélisation, l'évaluation des modèles et techniques d'exploration. Il est écrit en C + + et Python, et son interface utilisateur graphique est basé sur Qt un framework multiplate-forme.
RapidMiner (
site) anciennement appelé Yale (Yet Another Learning Environment), est un environnement pour l'apprentissage machine et les données des expériences minière qui est utilisé pour les tâches du monde réel à la fois de recherche et d'exploration de données. Il permet des expériences pour être composé d'un grand nombre d'opérateurs arbitrairement emboîtables, qui sont détaillées dans les fichiers XML et sont réalisés avec l'interface utilisateur graphique de RapidMiner. RapidMiner fournit plus de 500 opérateurs pour toutes les machines principales procédures d'apprentissage, et il associe également l'apprentissage régimes et les évaluateurs d'attributs de l'environnement d'apprentissage Weka. Il est disponible comme un outil autonome pour l'analyse des données et comme un moteur d'exploration de données qui peuvent être intégrés dans vos propres produits.
JHepWork(
site) un logiciel libre et open-source d'analyse de données qui est créé comme une tentative de faire un environnement d'analyse de données utilisant des paquets open-source avec une interface utilisateur à comprendre et permettant de créer un instrument de haute-concurrence pour des programmes commerciaux. Il est spécialement conçu pour des applications interactives a visé scientifiques en 2D et 3D et contient les bibliothèques scientifiques numériques implémentés en Java pour les fonctions mathématiques, les nombres aléatoires, et d'autres algorithmes de data mining. jHepWork est basé sur un langage de programmation de haut niveau Jython, mais de codage Java peut aussi être utilisé pour appeler des bibliothèques jHepWork numérique et graphique.
Google Refine (
site )est un outil puissant pour travailler avec des ensembles de données en désordre, y compris le nettoyage des incohérences, de les transformer d'un format à un autre, et de les étendre à de nouvelles données provenant des services Web externes ou autres bases de données.
Les ETL (Extract - Transform - Load) sont les outils les plus couramment utilisés pour la construction et l'alimentation des datawarehouse (entrepôts de données).
Il existe plusieurs ETL Open Source. Les plus complets et reconnus sont les suivants :