WEB2007 ALSO SPEAKS ENGLISH
06 44 00 14 84 (ou 0033644001484)

* Design Flyer Poisy


***Web2007 est un bureau indépendant situé à Genève et a l'habitude de travailler pour des entreprises PARTOUT en France et en Europe

Design Flyer Poisy





Article:

Les erreurs traduisent l'expérience, l'exploration de données est une question de pratique, de jugement et d'interprétation. Les méthodes sont engendrées pour guider, mais ne refoulent pas les écueils dont les plus communément rencontrés par les fouilleurs de données expérimentés ou non, ont été décrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of StatiscalAnalysis& Data Mining Applicationsb 2. La première est le fait de poser la mauvaise question. Ce qui conduit à faire chercher au mauvais endroit. Ainsi, la question capitale doit être correctement posée pour que la réponse soit utile.
Ensuite, une faible quantité de données est indispensable pour un ème complexeb 2. Il faut avoir des données pour les explorer, et les cas importants pour le fouilleur sont rares à observer, il faut donc avoir à sa disposition énormément de données pour pouvoir effectuer des échantillons qui ont une valeur d'apprentissage et qui vont permettre de prédire une situation, c'est-à-dire répondre à une question posée, sur les données hors échantillon. De plus, si les données ne sont pas adaptées à la question posée, la fouille sera limitée : par exemple si les données ne contiennent pas de variables à prédire, la fouille sera cantonnée à la description et l'analyste ne pourra que diviser les données en sous-ensembles cohérents (clusterisation) ou trouver les meilleures dimensions qui empoignent la variabilité des données.
Il faut construire l'échantillon, qui couronne l'apprentissage, avec précaution et ne pas échantillonner à la légèreb 2. l'apprentissage permet de construire le modèle à partir d'un ou plusieurs échantillons. Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas recherchés revient à se concentrer sur les spécificités et se détourner de la généralisation, nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques existent pour éviter le sur-ajustement ou le sur-apprentissage. Il s'agit des méthodes de ré-échantillonnage telles que le bootstrap, du jackknife ou de la validation croisée40.
Parfois, une seule technique (arbre de décision, réseaux neuronaux...) n'est pas suffisante pour recueillir du modèle qu'il donne de bons résultats sur toutes les donnéesb 2. Une des solutions, dans ce cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par l'apprentissage soit par accord des résultats41. Il faut placer les données et les résultats de la fouille en perspective dans leur contexteb 2, et ne pas se focaliser sur les données, sans cela des erreurs d'interprétation peuvent surgir ainsi que des pertes de temps et d'argent.






****Web2007 est un bureau indépendant situé à Genève et a l'habitude de travailler pour des entreprises PARTOUT en France et en Europe