shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Ajuda crítica


From: Alexander
Subject: Ajuda crítica
Date: Tue, 14 Oct 2003 15:19:59 -0200
User-agent: KMail/1.5

Olá!

Faço parte da equipe do Open Office do Brasil e estou encarregado de fazer as 
estatísticas de download dos pacotes do Open Office.

Bom... o trabalho a princípio se resume em entrar em páginas do webalizer dos 
mirrors e pegar o nome dos pacotes e quantos KB de download foram feitos do 
pacote.

Isso dá um trabalhão pois são muitos pacotes, muitos mirrors e muitos 
"copia/cola".

Bom... estou querendo fazer um shell script que através do Lynx, pegue o 
código fonte da página e separe as linhas referentes aos pacotes do Open 
Office e a coluna de KBytes.

Para não ficar no vácuo, segue o link de uma página que contém as estatísticas 
do webalizer:

http://linorg.usp.br/webalizer-openoffice.br/usage_200209.html

Nessa página há uma tabela com o nome "Top 30 de 47 URLs". Nela há uma coluna 
KBytes e outra coluna com o nome do pacote.

Sei que é um trabalho furioso de seds e greps, mas não estou conseguindo 
separar a tabela que quero e muitos menos as linhas que quero. Só preciso da 
coluna com o nome do pacote e a coluna com os KBytes de download.

O código-fonte da página é limpo, portanto dá para pegar sem grandes 
encrencas, mas não estou conseguindo.

Para piorar as primeiras linhas têm colunas mescladas.

Alguém pode me enviar um exemplo de como capturar apenas algumas linhas de uma 
tabela como a abaixo(desculpem a antipatia de colocar o fonte da tabela aqui, 
mas talvez alguém se sinta mais à vontade usando-o):

Bom... pelo menos alguém pode dar uma idéia de por onde começar? Como eu 
conseguiria apagar tudo antes da tabela que contém "Top 30 de 48 URLs"?

E como eu conseguiria pegar todas as linhas até o final da tabela(são muitas, 
digo apenas até o final da tabela que contém o que eu quero)?

Se alguém puder pelo menos colocar um sed ou grep aqui eu me viro para 
continuar.

Valeu!
Alexander


<table WIDTH=510 BORDER=2 CELLSPACING=1 CELLPADDING=1>
<tr><th HEIGHT=4></th></tr>
<tr><th BGCOLOR="#C0C0C0" ALIGN=CENTER COLSPAN=6>Top 30 de 47 URLs</th></tr>
<tr><th HEIGHT=4></th></tr>
<tr><th BGCOLOR="#C0C0C0" ALIGN=center><font SIZE="-1">#</font></th>
<th BGCOLOR="#008040" ALIGN=center COLSPAN=2><font SIZE="-1">Hits</font></th>
<th BGCOLOR="#FF0000" ALIGN=center COLSPAN=2><font 
SIZE="-1">KBytes</font></th>
<th BGCOLOR="#00E0FF" ALIGN=center><font SIZE="-1">URL</font></th></tr>
<tr><th HEIGHT=4></th></tr>
<tr>
<td ALIGN=center><font SIZE="-1"><b>1</b></font></td>

<td ALIGN=right><font SIZE="-1"><b>97</b></font></td>
<td ALIGN=right><font SIZE="-2">21.23%</font></td>
<td ALIGN=right><font SIZE="-1"><b>120</b></font></td>
<td ALIGN=right><font SIZE="-2">0.01%</font></td>
<td ALIGN=left NOWRAP><font SIZE="-1"><a 
HREF="http://www.linorg.usp.br/OpenOffice.org.br/";>/OpenOffice.org.br/</a></font></td></tr>
<tr>
<td ALIGN=center><font SIZE="-1"><b>2</b></font></td>
<td ALIGN=right><font SIZE="-1"><b>33</b></font></td>
<td ALIGN=right><font SIZE="-2">7.22%</font></td>

<td ALIGN=right><font SIZE="-1"><b>39</b></font></td>
<td ALIGN=right><font SIZE="-2">0.00%</font></td>
<td ALIGN=left NOWRAP><font SIZE="-1"><a 
HREF="http://www.linorg.usp.br/OpenOffice.org.br/dists/";>/OpenOffice.org.br/dists/</a></font></td></tr>
</table>


reply via email to

[Prev in Thread] Current Thread [Next in Thread]