WEB2007 ALSO SPEAKS ENGLISH
06 44 00 14 84 (ou 0033644001484)

* Creation Brochure Poisy


***Web2007 est un bureau indépendant situé à Genève et a l'habitude de travailler pour des entreprises PARTOUT en France et en Europe

Creation Brochure Poisy





Article:

l'exploration de données demeure une question de pratique, de jugement et d'interprétation vu que les erreurs font partie de l'expérience. Les méthodes sont faites pour guider, mais n'empêchent pas les écueils dont les plus communément rencontrés par les fouilleurs de données expérimentés ou non, ont été décrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of StatiscalAnalysis& Data Mining Applicationsb 2. La première est le fait de poser la mauvaise question. Ce qui conduit à faire chercher au mauvais endroit. Il faut que la question initiale soit correctement posée pour que la réponse soit utile.
Subséquemment, c'est se contenter d'une faible quantité de données pour un ème complexeb 2. Il faut avoir des données pour les explorer, et les cas intéressants pour le fouilleur sont rares à contempler, il faut donc avoir à sa disposition énormément de données pour pouvoir faire des échantillons qui ont une valeur d'apprentissage et qui vont permettre de prédire une situation, c'est-à-dire répondre à une question posée, sur les données hors échantillon. De plus, si les données ne sont pas adaptées à la question posée, la fouille sera limitée : par exemple si les données ne contiennent pas de variables à prédire, la fouille sera cantonnée à la description et l'analyste ne pourra que découper les données en sous-ensembles homogènes (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilité des données.
l'échantillon accorde l'apprentissage avec précaution et ne pas échantillonner à la légèreb 2. l'apprentissage permet de construire le modèle à partir d'un ou plusieurs échantillons. Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas recherchés revient à se concentrer sur les particularités et se détourner de la généralisation, nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques existent pour éviter le sur-ajustement ou le sur-apprentissage. Il s'agit des méthodes de ré-échantillonnage telles que le bootstrap, du jackknife ou de la validation croisée40.
Parfois, une seule technique (arbre de décision, réseaux neuronaux...) n'est pas suffisante pour obtenir du modèle qu'il donne de bons résultats sur toutes les donnéesb 2. Une des solutions, dans ce cas, serait constituée d'un ensemble d'outils, qu'on peut adopter les uns après les autres et comparer les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par l'apprentissage soit par combinaison des résultats41. Il faut mettre les données et les résultats de la fouille en perspective dans leur contexteb 2, et ne pas se focaliser sur les données, sans cela des erreurs d'interprétation peuvent survenir ainsi que des pertes de temps et d'argent.






****Web2007 est un bureau indépendant situé à Genève et a l'habitude de travailler pour des entreprises PARTOUT en France et en Europe