Récupérer les adresses e-mails d'un texte ou de centaines de CV.
Le 05-09-2009 à 14:09 par erwin.Dans Page d'accueil et Linux
Nombre de commentaires : 0
Cet article n’est pas destiné à être utilisé pour faire du SPAM, bien sûr. Et je ne suis pas responsable de votre utilisation. Personnellement, j’ai eu besoin de récupérer les adresse e-mails dans le cadre suivant : Une centaine de cv à traiter, un mail à envoyer à chaque personne.
Indexation des CV :
- Tous les CV doc sont convertis en texte grâce à Batchconv pour OpenOffice et les CV en pdf sont convertis en texte avec pdftotext disponible dans la majorité des distributions linux.
- Une fois dans le dossier contenant tous les CV au format texte, je lance la commande grep pour faire un fichier contenant tous les e-mails
grep @ * > mails.txt
Extraction des adresses email
- Ouvrir n’importe quel éditeur de texte supportant les expressions régulières ou faire le remplacement en ligne de commande suivant :
Cherche : .*([_a-zA-Z0-9\d\-\.]+@[_a-zA-Z0-9\d\-\.]+(\.[_a-zA-Z\d\-]+)).* Remplacer : \1
Sur Kate, \1 récupère le premier bloc regex, sur d’autres programmes cela peut être $1 ou encore autrechose.