1. Page d'accueil

Récupérer les adresses e-mails d'un texte ou de centaines de CV.

Le 05-09-2009 à 14:09 par erwin.Dans Page d'accueil et Linux

Nombre de commentaires : 0

Cet article n’est pas destiné à être utilisé pour faire du SPAM, bien sûr. Et je ne suis pas responsable de votre utilisation. Personnellement, j’ai eu besoin de récupérer les adresse e-mails dans le cadre suivant : Une centaine de cv à traiter, un mail à envoyer à chaque personne.

Indexation des CV :

  • Tous les CV doc sont convertis en texte grâce à Batchconv pour OpenOffice et les CV en pdf sont convertis en texte avec pdftotext disponible dans la majorité des distributions linux.
  • Une fois dans le dossier contenant tous les CV au format texte, je lance la commande grep pour faire un fichier contenant tous les e-mails
grep @ * > mails.txt

Extraction des adresses email

  • Ouvrir n’importe quel éditeur de texte supportant les expressions régulières ou faire le remplacement en ligne de commande suivant :
Cherche : .*([_a-zA-Z0-9\d\-\.]+@[_a-zA-Z0-9\d\-\.]+(\.[_a-zA-Z\d\-]+)).*
Remplacer : \1

Sur Kate, \1 récupère le premier bloc regex, sur d’autres programmes cela peut être $1 ou encore autrechose.

Ajouter un commentaire

 *

* Nécessaire mais ni communiqué, ni affiché.