Le format de fichier PDF (pour Portable Document File) a été créé par l’éditeur Adobe. Un fichier PDF peut contenir aussi bien du texte, que des images, des photos et des tableaux de données. Ce format s’est rapidement imposé comme standard. En effet, ce type de fichier n’étant pas modifiable, il est idéal pour dématérialiser des documents comme des contrats ou des plaquettes commerciales.
Pour récupérer des données contenues dans un PDF, le copier/coller est efficace. Toutefois les mises en forme sont perdues. Il en est ainsi des tableaux de données.
Excel offre une méthode tout à fait originale pour récupérer un tableau de données contenu dans un fichier PDF. En effet, Excel peut se connecter à un fichier PDF et l’interroger comme il le ferait avec une base de données.
L’exposé qui suit s’appuiera sur les statistiques d’immatriculations de juin 2022 publiées par le PFA.
Pour importer dans Excel un tableau de données contenu dans un fichier PDF, se rendre dans le menu Données puis Obtenir des données, A partir d’un fichier et enfin A partir d’un fichier PDF :
Dans la fenêtre qui s’ouvre, sélectionner le fichier PDF à convertir et valider. Le navigateur de contenus s’ouvre à son tour :
Le navigateur affiche tous les éléments qu’Excel a identifié dans le fichier PDF désigné : les tableaux de données (TableXXX) ainsi que chaque page (PageXXX) du fichier PDF.
Cliquer sur un élément affiche l’aperçu. Il est possible de convertir plusieurs éléments en une seule fois. Pour ce faire, cocher la case “Sélectionner plusieurs éléments” puis cocher les éléments à importer.
Dans le cas présent, pour importer le tableau des immatriculations de la page 2, sélectionner le libellé “Table003 (Page 2)” :
Cliquer sur le bouton Charger. Les données du tableau sont retranscrites dans une nouvelle feuille Excel dénommée “Table003 (Page 2)” :
Très simple, très rapide ! Il ne reste plus qu’à exploiter les données obtenues.
De la même manière, Excel peut extraire des tableaux de données depuis une photo ou importer de données d’un fichier ASCII / CSV (exemple avec un FEC).
___
En savoir plus sur l’analyse de données
Derniers articles parBenoît RIVIERE (voir tous)
- Nouveautés de l’interpréteur de formules de calcul (v1.1) - dimanche 3 novembre 2024
- Dématérialisation de la facturation : nouvelles mentions obligatoires - lundi 28 octobre 2024
- Interpréteur de formules de calcul en Python - dimanche 13 octobre 2024
- Les données de la facturation électronique - mercredi 9 octobre 2024
- VBA/SQL vs Power Query : deux solutions complémentaires - mercredi 2 octobre 2024
Pingback: Excel : automatiser l'extraction des tableaux de données d'un fichier PDF - Audit & Systèmes d'Information
Bonjour,
je n’arrive pas à me servir de votre code vba pour extraire seulemet la table 001 de mon pdf.
J’ai un tableau sous forme de pdf, 1 seule page contenant 1 tableau
Merci
Bonjour,
Cette technique ne fonctionne que sur des PDF natifs (donc pas des PDF issus d’un scanneur). Par ailleurs, je ne pense pas cela fonctionne sur un PDF protégé.
Cordialement,
Benoît RIVIERE
Bonjour Benoît,
J’utilise la technique d’import d’un PDF pour générer des écritures de paie au format particulier du logiciel de comptabilité de mon client (plusieurs sociétés).
Je n’ai qu’à modifier le nom du fichier PDF pour générer au format CSV les écritures de paie.
Toujours un plaisir de te lire.
Amicalement,
CLAUDE
Bonjour Claude,
Merci pour ton témoignage.
Amicalement,
Benoît
Pingback: Power Query (Excel) : récupérer des données contenues dans un fichier PDF - Audit & Systèmes d'Information