shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

copiar página da web via script - questão de formatação


From: Helton Moraes
Subject: copiar página da web via script - questão de formatação
Date: Mon, 2 Aug 2010 19:07:31 -0300

Caros Colegas

Estou precisando pescar uma grande quantidade de dados de sites de lista
telefônica. Cada pesquisa (por especialidades médicas) retorna várias
páginas, então pretendo automatizar essa pesca.

O fato é que, se eu dou um "selecionar tudo" no Firefox, e copio/colo no
editor de texto, obtenho algo do tipo:


Ardais Clínica de Cirurgia Plástica     Tel: (51) 3330-4856
      Rua Quintino Bocaiúva, 699
Floresta - Porto Alegre - RS - CEP: 90440-051
    mapa |  +info |  torpedo
Compartilhe essa informação no Facebook     Compartilhe essa informação no
Twitter

Arnt, Ricardo A     Tel: (51) 3346-5762
      Rua Mariante, 288 s 1007
Rio Branco - Porto Alegre - RS - CEP: 90430-181
    mapa |  +info |  torpedo
Compartilhe essa informação no Facebook     Compartilhe essa informação no
Twitter

Augusto Casagrande     Tel: (51) 3346-2812
      Rua Mariante, 288 s 501
Rio Branco - Porto Alegre - RS - CEP: 90430-180
    mapa |  +info |  torpedo
Compartilhe essa informação no Facebook     Compartilhe essa informação no
Twitter

Azambuja, Paulo R F     Tel: (51) 3328-9081
      Rua Des Espiridião L Medeiros, 81
Três Figueiras - Porto Alegre - RS - CEP: 91330-020
    +info |  torpedo
Compartilhe essa informação no Facebook     Compartilhe essa informação no
Twitter

.
.
.
.


mas se uso o wget, evidentemente essa formatação se perde, e os
códigos-fonte html neste caso não têm uma estrutura boa para usar algum
parsing.

Assim, a pergunta é:
"De que forma, ou qual programa/comando/opção eu poderia usar, via linha de
comando, para capturar para um .txt o conteúdo da página conforme mostrado
no navegador (o que seria equivalente a copiar e colar com o mouse)?"

Desde já agradeço a atenção

Helton


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]