* Illustrateur Indépendant Ambilly
Illustrateur Indépendant Ambilly
Article:
l'exploration de données permet d'employer un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances utiles à l'entreprise. La méthode CRISP-DM32 partage le processus de fouille de données en six étapes permettant de structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie unifiée, c'est un processus d'extraction des connaissances métiers. Phases du processus CRISP-DM Tout d'abord, il faut harponner le métier32 qui pose la question à l'analyste, formaliser le ème que l'organisation cherche à résoudre en ce qui concerne les données, saisir les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour concevoir cet objectif. Ensuite, l'analyste réclame des données appropriées. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre au ème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas apparents pour émettre des hypothèses sur les modèles cachés. Les données que l'équipe de projet a fusionnées sont hétérogènes. Elles doivent être apprêtées32 en fonction des algorithmes utilisés, en supprimant les valeurs aberrantes, ou valeurs extrêmes, en complétant les données non renseignées, par la moyenne ou par la méthode des K plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l'algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de Condorcet. Dès que les données sont présentées, il faut les explorer32. La modélisation regroupe des classes de tâches pouvant être utilisées seules ou en complément avec les autres33 dans un but descriptif ou prédictif. La segmentation est la tâche consistant à discerner des groupes et des structures au sein des données qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans les données. La classification est la tâche de généralisation des structures connues pour les appliquer à des données nouvelles. La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. l'association recherche les relations entre des items. Par exemple un supermarché peut rassembler des données sur des habitudes d'achats de ses clients.
Si besoin, Web2007 peut se déplacer dans toute la région Rhones-Alpes.
Pour info, j'habite personnellement à Gaillard-Haute Savoie et mon bureau est juste à coté à Genève-Suisse.