WEB2007 ALSO SPEAKS ENGLISH
06 44 00 14 84 (ou 0033644001484)

* Creation Depliant Ambilly


Creation Depliant Ambilly





Article:

l'exploration de données a besoin d'un ensemble d'algorithmes provenant de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances utiles à l'entreprise. La méthode CRISP-DM32 découpe le processus de fouille de données en six étapes permettant de charpenter la technique et de l'implanter dans un processus industriel. Plus qu'une théorie normalisée, c'est un processus d'extraction des connaissances métiers.
Phases du processus CRISP-DM
Il faut d'abord interpréter le métier32 qui soulève la question à l'analyste, formaliser le ème que l'organisation cherche à résoudre pour ce qui est des données, comprendre les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.
Ensuite, l'analyste a besoin de données adéquates. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre au ème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas probables pour émettre des hypothèses sur les modèles cachés.
Les données que l'équipe de projet a jointes sont hétérogènes. Elles doivent être préparées32 en fonction des algorithmes utilisés, en supprimant les valeurs absurdes, ou valeurs extrêmes, en complétant les données non renseignées, par la moyenne ou par la méthode des K plus proches voisins, en annulant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l'algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de Condorcet.
Une fois les données prêtes, il est temps de les explorer32. La modélisation regroupe des classes de tâches pouvant être utilisées seules ou en complément avec les autres33 dans un but descriptif ou prédictif. La segmentation est la tâche relevant de la découverte des groupes et des structures au sein des données qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans les données. La classification est la tâche de généralisation des structures connues pour les appliquer à des données récentes.
La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. l'association recherche les relations entre des items. Par exemple un supermarché peut rassembler des données sur des habitudes d'achats de ses clients.






* Web2007 est le site d'un informaticien indépendant qui peut et veut travailler pour des entreprises partout en Europe.
Si besoin, Web2007 peut se déplacer dans toute la région Rhones-Alpes.
Pour info, j'habite personnellement à Gaillard-Haute Savoie et mon bureau est juste à coté à Genève-Suisse.