[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [shell-script] Ajuda crÃtica
From: |
Thobias Salazar Trevisan |
Subject: |
Re: [shell-script] Ajuda crÃtica |
Date: |
Wed, 15 Oct 2003 15:13:19 -0200 (BRST) |
ae alexander,
On Tue, 14 Oct 2003, Alexander wrote:
> Faço parte da equipe do Open Office do Brasil e estou encarregado de fazer as
> estatÃsticas de download dos pacotes do Open Office.
massa!
[...]
> Para não ficar no vácuo, segue o link de uma página que contém as estatÃsticas
> do webalizer:
>
> http://linorg.usp.br/webalizer-openoffice.br/usage_200209.html
>
> Nessa página há uma tabela com o nome "Top 30 de 47 URLs". Nela há uma coluna
> KBytes e outra coluna com o nome do pacote.
>
> Sei que é um trabalho furioso de seds e greps, mas não estou conseguindo
> separar a tabela que quero e muitos menos as linhas que quero. Só preciso da
> coluna com o nome do pacote e a coluna com os KBytes de download.
para imprimir apenas um trecho do arquivo podes usar o sed:
sed -n '/string inicial/,/string final/p'
depois basta alguns sed pra deixar a saÃda como você quer.
se você for trabalhar com o fonte da página:
$ lynx -source $URL > arquivo.html
$ cat arquivo.html |
sed -n '/Top 30 de 47 URLs/,/Top 10 de 47 URLs By KBytes/{
s/<[^>]*>//g;/^\([^0-9/]\|$\)/d;p;}' | sed -n 'n;n;n;h;n;n;H;g;s/\n/ /;p'
Você também pode usar um arquivo com o 'dump' da página, e assim,
sem o código fonte:
$ lynx -width=300 -dump -nolist $URL > arquivo.txt
$ cat arquivo.html |
sed -n '/Top 30 de 47 URLs/,/Top 10 de 47 URLs By KBytes/{
s///;s/ */ /g;s/^ //;/^\($\|#\)/d;p;}' | cut -d" " -f4,6
blz ?
thobias
-------
echo 133449562074222244746332132269002206986P | dc
-------
http://thobias.org
____________________________
|
| Against - HTML Mail
| Against - MS ATTACHMENTS
|
----------------------------