Comment extraire un classement des hommes les plus riches du monde ?
Par admin • 13 Sep, 2008 • Catégorie: Extraire des listes de données, Comment utiliser OutWit Hub ?Vous en avez marre de copier-coller d’intéressants tableaux de données et d’obtenir un mauvais résultat ? Avec OutWit Hub, c’est un vieux cauchemar! Grâce à ses dizaines de propriétés de reconnaissance, vous allez pouvoir extraire et recueillir des tonnes de données sur le Web en très peu de clics.
Ce tutoriel vous montre comment extraire un tableau de données à partir d’un site célèbre: www.forbes.com et l’exporter vers une feuille d’Excel.
Pour mettre en pratique ce tutoriel, vous avez besoin de Firefox 2 ou 3 et d’OutWit Hub.
Si vous n’avez pas Firefox 3,cliquez ici.
Pour télécharger OutWit Hub, allez sur
- www.outwit.com
- www.mozilla.org pour la version sur Firefox 3
- www.download.com pour la version sur Firefox 2
1. Trouver le tableau de données que vous voulez extraire
Ce tableau montre les personnes les plus riches du monde en 2008. C’est un très long tableau qui s’étend sur plusieurs pages. Ce qui est incroyable avec OutWit Hub c’est qu’il essaye de comprendre la structure de cette page. Il reconnaît le lien suivant et la série de pages.
Notre objectif est donc d’extraire tout le tableau avec OutWit Hub. Si vous voulez essayer ce tutoriel avec le tableau de données de Forbes, ouvrez Firefox 2.0 et cliquez ici.
2. Lancez OutWit Hub à partir de Firefox.
Cliquez sur le bouton d’OutWit dans la barre de navigation de Firefox.
Si vous ne voyez pas le bouton dans la barre d’outils, cliquez sur Outils -> OutWit -> OutWit Hub.
3. Extraire un tableau de données - Etape 1
- Cliquez sur l’onglet page. Vous voyez la page actuelle comme avec le navigateur ordinaire.
- Dans la barre d’adresse, vous pouvez soit taper l’URL du site Web désiré soit l’adresse du moteur de recherche que vous utilisez ordinairement sur Firefox.
4. Extraire un tableau de données - Etape 2
- Sélectionnez l’onglet data pour voir les tableaux de données et les listes de données reconnues et structurées par OutWit Hub.
- Cliquez sur l’onglet table. Vous voyez le tableau de Forbes avec ces titres de colonnes: rangs, noms, citoyenneté, âge …
N.B: Le tableau est associé au tableau affiché sur cette page Web. Cependant, il n’est pas associé avec toutes les pages Web. Donc n’hésitez pas à cliquer sur l’onglet Guess. OutWit Hub essayera de reconnaître les tableaux que vous souhaitez. Vous pouvez aussi créer un grattoir. Un tutoriel à propos du grattoir sera bientôt en ligne
5. Extraire un tableau de données - Etape 3
- Cochez Catch selection. Il mettra tous les tableaux des pages dans the catch quand on cliquera sur browse.
- Sélectionnez les lignes du tableau. Si vous les souhaitez toutes, cliquez sur une ligne puis appuyez sur Ctrl + A (cmd + A pour les Macs).
Autrement, commencez par le bas du tableau, sélectionnez la dernière ligne souhaitée et remontez en maintenant les boutons Shift et Ctrl appuyés et cliquez sur la flèche haut jusqu’à ce que la première ligne du tableau soit sélectionnée.
- Cliquez sur catch pour placer les lignes sélectionnées dans le panier appelé the Catch (dans le rectangle vert).
Vous voyez qu’il contient 27 objets.
6. Extraire un tableau de données - Etape 4
Maintenant vous avez deux méthodes pour capturer un tableau entier: soit vous utilisez l’icône next pour aller à la page suivante et capturer les lignes désirées pour chaque page, soit vous cliquez sur le bouton browse pour capturer toutes les lignes du tableau en une fois.
Ici, je vous ai montré le bouton browse mais vous pouvez aussi tester le bouton next comme vous le souhaitez.
Vous avez pu remarquer que chaque capture contient 27 objets.
Cliquez sur le bouton browse: OutWit Hub va capturer toutes les lignes qu’il va rencontrer sur les autres pages automatiquement jusqu’à la dernière des séries.
Donc vous voyez que le nombre d’objets capturés augmente à chaque fois qu’OutWitHub sélectionne de nouvelles lignes du tableau.
Sur cette capture d’écran il y a 827 objets!
J’ai arrêté le browse en cliquant de nouveau dessus mais vous pouvez aussi le laissez travailler jusqu’à la dernière page pour avoir tout le tableau.
7. Exporter le tableau de données dans une feuille de calcul d’Excel - Etape 1
- Sélectionnez toutes les lignes du panneau Catch.
- Cliquez sur file -> Export Selection as. Une fenêtre s’ouvre.
Conseils: Utilisez le raccourci Ctrl + E au lieu d’aller au menu.
8. Exporter le tableau de données dans une feuille de calcul d’Excel - Etape 2
- Choisissez le dossier où vous voulez enregistrer vos tableaux et trouver un nom à votre feuille de calcul d’Excel.
- Cliquez sur save.
9. Ouvrez le tableau de données
Vous voici! Ouvrez la feuille de calcul d’Excel: vous voyez un tableau avec des titres comme P, Collection T, Source Url.
De plus, il y a des lignes qui n’appartiennent pas au tableau de données de la liste des milliardaires du monde.
Modifiez un peu la feuille de calcul pour avoir le tableau souhaité.
Conclusion
Je vous ai montré comment extraire et exporter un très long tableau de données qui s’étend sur beaucoup de pages Web avec OutWitHub.
Ce tableau de Forbes est associé à l’onglet table mais vous rencontrerez d’autres tableaux qui ne le sont pas.
Donc n’oubliez pas d’utiliser les onglets lists et guess. Vous les utiliserez très facilement comme vous savez déjà le faire avec l’onglet table.
admin est
Email à cet auteur | Tous les Articles par admin










