shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [shell-script] Extra��o de URLs de uma pag HTML


From: Renata Romanazzi
Subject: Re: [shell-script] Extração de URLs de uma pag HTML
Date: Wed, 10 Mar 2004 10:57:51 -0300

Tio Aurélio:

sua dica acaba sendo extremamente útil pra um script que eu estava 
desenvolvendo, valeu mesmo. :) 
E, a propósito, seu livro de RegEx me faz olhar com mais simpatias 
para elas. Adorei seu senso de humor. :) 

At Wednesday, 10 March 2004, you wrote:

>oi gilberto,
>
> --- Gilberto Martins <address@hidden> escreveu: 
>> Acredito que as respostas enviadas nasceram de profundo senso
>> de humor, considerando que os que perguntam normalmente não
>> sabem fazer. Assim devo considerar respostas do tipo
>> "Só fazer...", "você pode usar E.Rs para isso..." como boas
>> piadas e descontrair um pouco.
>
>realmente elas não foram tão prestativas quanto poderiam.
>vou tentar mudar esssa situação.
>
>para extrair todos os link de uma página HTML (local ou remota)
>uma boa pedida é usar o navegador de modo texto 'lynx'.
>tem no Linux e no Cygwin também (pra quem usa Windows).
>
>por exemplo, quais são todos os links da página principal do
>google?
>
>$ lynx -dump www.google.com
>
>                                   Google
>
>                 Web   [1]Imagens   [2]Grupos   [3]Diretório
>
>     _______________________________________________________
>   Pesquisa Google Estou com sorte   o  [4]Pesquisa avançada
>     o  [5]Preferências
>     o  [6]Ferramentas de idiomas
>   Pesquisar: (_) a Web (_) páginas em português (_) páginas do Brasil
>
>   [7]Soluções de publicidade - [8]Tudo sobre o Google - [9]Google.com
>in
>                                  English
>
>          ©2004 Google - Pesquisando 4,285,199,774 páginas na Web
>
>References
>
>   1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
>   2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
>   3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
>   4. http://www.google.com.br/advanced_search?hl=pt-BR
>   5. http://www.google.com.br/preferences?hl=pt-BR
>   6. http://www.google.com.br/language_tools?hl=pt-BR
>   7. http://www.google.com.br/intl/pt/ads/
>   8. http://www.google.com.br/intl/pt-BR/about.html
>   9. http://www.google.com/ncr
>$
>
>pronto!
>
>com a opção -dump, além do lynx já fazer o 'parsing' do HTML
>mostrando apenas o texto da página, no final ele coloca aquela
>seção 'References' com uma lista prontinha de todos os links
>da página :)
>
>para você extrair somente os links, tem várias maneiras.
>a mais fácil talvez seja apagar tudo da primeira linha até
>achar 'References' no começo de alguma linha. isso o sed
>pode fazer com o comando "1,/^References/d"
>
>então fim das contas, fica:
>
>$ lynx -dump www.google.com | sed '1,/^References/d'
>
>   1. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
>   2. http://www.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
>   3. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
>   4. http://www.google.com.br/advanced_search?hl=pt-BR
>   5. http://www.google.com.br/preferences?hl=pt-BR
>   6. http://www.google.com.br/language_tools?hl=pt-BR
>   7. http://www.google.com.br/intl/pt/ads/
>   8. http://www.google.com.br/intl/pt-BR/about.html
>   9. http://www.google.com/ncr
>
>se quiser tirar os números e deixar somente os links, adicione
>mais um  
>
>  | cut -d. -f2-
>
>no final do comando.
>
>espero que agora tenha ficado claro amigo.
>
>falou!
>
>=====
>-- 
>Aurelio Marinho Jargas - De volta para Curitiba & Conectiva
>Apostila Reloaded: PDF - http://aurelio.net/shell/apostila
>palestra.sucesu.relato - http://aurelio.net/curso/sucesu
>Funcoes ZZ via ICQ!!?! - http://aurelio.net/zz
>
>______________________________________________________________________
>
>Yahoo! Mail - O melhor e-mail do Brasil! Abra sua conta agora:
>http://br.yahoo.com/info/mail.html
>
>---------------------------------------------------------------------
>Esta lista não admite a abordagem de outras liguagens de programação, 
>como perl, C etc. Quem insistir em não seguir esta regra será moderado 
>sem prévio aviso.
>---------------------------------------------------------------------
>Sair da lista: address@hidden
>---------------------------------------------------------------------
>Esta lista é moderada de acordo com o previsto em http://www.listasdiscussao.

>cjb.net
>---------------------------------------------------------------------
>
>Links do Yahoo! Grupos
>Para visitar o site do seu grupo, acesse:
> http://br.groups.yahoo.com/group/shell-script/
>
>Para sair deste grupo, envie um e-mail para:
> address@hidden
>
>O uso que você faz do Yahoo! Grupos está sujeito aos:
> http://br.yahoo.com/info/utos.html
>




===================================================================
EASY and FREE access to your email anywhere: http://Mailreader.com/
===================================================================




reply via email to

[Prev in Thread] Current Thread [Next in Thread]