* Creation Plaquette Ambilly
Creation Plaquette Ambilly
Article:
l'exploration de données admet d'utiliser un ensemble d'algorithmes résultant de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances utiles à l'entreprise. La méthode CRISP-DM32 répartit le processus de fouille de données en six étapes permettant de structurer la technique et de l'ancrer dans un processus industriel. Au-delà d'une théorie standardisée, c'est un processus d'extraction des connaissances métiers. Phases du processus CRISP-DM Il faut d'abord appréhender le métier32 qui pose la question à l'analyste, formaliser le ème que l'organisation cherche à résoudre en ce qui concerne les données, comprendre les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif. Ensuite, l'analyste nécessite des données semblables. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de résoudre le ème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas apparents pour émettre des hypothèses sur les modèles cachés. Les données que l'équipe de projet a collectées sont hybrides. Elles doivent être préparées32 en fonction des algorithmes utilisés, en supprimant les valeurs aberrantes, ou valeurs extrêmes, en complétant les données non renseignées, par la moyenne ou par la méthode des K plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l'algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de Condorcet. Une fois les données approvisionnées, il faut les franchir32. La modélisation regroupe des classes de tâches pouvant être utilisées seules ou en complément avec les autres33 dans un but descriptif ou prédictif. La segmentation est la tâche consistant à découvrir des groupes et des structures au sein des données qui sont d'une certaine façon analogues, sans utiliser des structures connues a priori dans les données. La classification reste la tâche de généralisation des structures ordinaires pour les appliquer à des données nouvelles. La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. l'association recherche les relations entre des items. Par exemple un supermarché peut rassembler des données sur des habitudes d'achats de ses clients.
Si besoin, Web2007 peut se déplacer dans toute la région Rhones-Alpes.
Pour info, j'habite personnellement à Gaillard-Haute Savoie et mon bureau est juste à coté à Genève-Suisse.