shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Pesquisar string em arquivo pdf


From: Anderson
Subject: Re: [shell-script] Pesquisar string em arquivo pdf
Date: Mon, 28 Mar 2011 13:28:03 -0700 (PDT)

Já passei por essa necessidade de pesquisar em arquivo .pdf e no meu caso foi 
resolvido da seguinte forma:

1 - Primeiro eu tinha que baixar todos os arquivos pdf de um determinado site, 
que era https e precisa de usuário e senha, nesse caso eu fiz:

wget --no-check-certificate --http-user=<login> --http-password=<senha> -nd -r 
-A .pdf,.sxw https://<endereco>/ -P /root/tempdir/ -o logwget

2 – A pesquisa. Exemplo, pesquisando arquivos pdfs que contêm a palavra 
“tomcat”:

root@maquina:~/tempdir# for i in * ; do if [ $(echo "$i" | rev | cut -f1 -d. | 
rev) == "pdf" ] ;  then result=$(pdftotext "$i" - | grep -i tomcat); if [[ -n 
$result ]]; then echo -e "$i \n"`cat logwget | grep $i | grep -i http | cut -f3 
-d" "`"\n"; fi; fi; done

Desvendando o for:

O loop “for” vai percorrer um a um, todos os elementos de um conjunto(*). Esse 
conjunto contêm todos os arquivos do diretório "/root/tempdir/", onde foram 
salvos todos os pdfs.

Em seguida será feito pesquisa apenas nos arquivos “.pdf”.

O “pdftotext” vai converter o arquivo pdf em um arquivo texto e o “grep” irá 
pesquisar pela palavra “tomcat”.

Bom, pra mim, funcionou 100%!

Se tem pdf com documentos scanneados, pode fazer o uso das ferramentas: 
tesseract-ocr; tesseract-ocr-por e gscan2pdf.





--- Em seg, 28/3/11, Karin Klayton Schiochet <address@hidden> escreveu:

De: Karin Klayton Schiochet <address@hidden>
Assunto: Re: [shell-script] Pesquisar string em arquivo pdf
Para: address@hidden
Data: Segunda-feira, 28 de Março de 2011, 14:24







 



  


    
      
      
      Valeu pessoal,



Alexandre,



Valeu pela dica, estou baixando para fazer os testes.



Marcelo,



Vou também fazer alguns teste com o que você falou, já tinha feito

alguns exemplos convertendo de pdf para txt  com o ps2txt mas ai não

coincidia a pagina da pesquisa feita no txt com relação ao pdf.

Vejo que você é de Belém-Pa, legal pois também sou desta cidade.



Atenciosamente,

Karin Klayton Schiochet



Em Seg, 2011-03-28 às 12:41 -0300, Marcelo Andrade escreveu:



>   

> 

> 2011/3/28 Karin Klayton Schiochet <address@hidden>

> >

> > (..)

> 

> Além da dica do Alexandre, se for o caso, você poderia

> converter o pdf para ps e trabalhar em cima de um dump

> feito com ps2txt. Esses utilitários são do ghostscript.

> 

> Atts.

> 

> --

> MARCELO F ANDRADE

> Belem, Amazonia, Brazil

> 

> "I took the red pill"

> 

> 

> 

> 



[As partes desta mensagem que não continham texto foram removidas]





    
     

    
    


 



  






      

[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]