* Creation Plaquette Poisy
***Web2007 est un bureau indépendant situé à Genève et a l'habitude de travailler pour des entreprises PARTOUT en France et en Europe
Creation Plaquette Poisy
Article:
Les erreurs déclenchent l'expérience, l'exploration de données est une question de pratique, de jugement et d'interprétation. Les méthodes sont faites pour guider, mais n'empêchent pas les écueils dont les plus communément rencontrés par les fouilleurs de données expérimentés ou non, ont été décrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of StatiscalAnalysis& Data Mining Applicationsb 2. La première est le fait de poser la mauvaise question. Ce qui amène à faire chercher au mauvais endroit. Il faut que la question initiale soit correctement posée pour que la réponse soit utile. Ensuite, c'est avoir une faible quantité de données pour un ème complexeb 2. Il faut disposer des données pour les explorer, et les cas intéressants pour le fouilleur sont rares à observer, il faut donc avoir à sa disposition énormément de données pour pouvoir exécuter des échantillons qui ont une valeur d'apprentissage et qui vont permettre de prophétiser une situation, c'est-à-dire répondre à une question posée, sur les données hors échantillon. En plus, si les données ne sont pas adaptées à la question posée, la fouille sera limitée : par exemple si les données ne renferment pas de variables à prédire, la fouille sera cantonnée à la description et l'analyste ne pourra que découper les données en sous-ensembles cohérents (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilité des données. l'échantillon doit être édifié pour faciliter l'apprentissage, avec précaution et ne pas échantillonner à la légèreb 2. l'apprentissage a pour objectif de construire le modèle à partir d'un ou plusieurs échantillons. Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas recherchés revient à se concentrer sur les particularités et se détourner de la généralisation, nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques sont disponibles pour éviter le sur-ajustement ou le sur-apprentissage. Il s'agit des méthodes de ré-échantillonnage telles que le bootstrap, du jackknife ou de la validation croisée40. Parfois, une seule technique (arbre de décision, réseaux neuronaux...) n'est pas suffisante pour acquérir du modèle qu'il donne de bons résultats sur toutes les donnéesb 2. Une des solutions, dans ce cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par l'apprentissage soit par combinaison des résultats41. Il faut placer les données et les résultats de la fouille en perspective dans leur contexteb 2, et ne pas se centraliser sur les données, sans cela des erreurs d'interprétation peuvent apparaître ainsi que des pertes de temps et d'argent.