shell-script-pt
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Salvar posts de determinados usuários em fóruns


From: José Paulo de Oliveira Petry
Subject: Salvar posts de determinados usuários em fóruns
Date: Fri, 9 Jul 2010 02:33:29 -0300

Senhores,

Quero montar uma base de dados com os posts que determinados usuários
fizeram em uma determinada thread de determinados fórums online.

***
Resumindo minha dificuldade:

Minha dificuldade: Separar as informações contidas entre duas tags
específicas, ou seja:

Pegar o arquivo HTML e separar os posts (ou seja, pegar o que tiver entre o
<table> </table>)
Pegar dentro de cada post a data e hora do mesmo ( ou seja, pegar o que
tiver entre as tags <!-- status icon and date --> e <!-- / status icon and
date --> )
Pegar dentro de cada post a mensagem propriamente dita ( ou seja, pegar o
que tiver entre as tags <!-- message --> e <!-- / message --> )
***

Contando a história toda:

As informações que preciso de cada post são:

Usuário que postou, data e hora do post, e a mensagem propriamente dita.

Cada post  no fórum está contido entre as tags<table> e </table>, então a
primeira coisa que teria que fazer é separar estes campos para analisar cada
um deles.

Dentro das tags <table> as informações que eu quero vem na seguinte ordem:

1o - Data e hora do post: entre as tags <!-- status icon and date --> e <!--
/ status icon and date -->
2o - Usuário que postou: entre uma tag <a href...> e </a>, sendo que o <a
href...>  contem um parametro class=username
3o - a mensagem propriamente dita, entre as tags <!-- message --> e <!-- /
message -->

Minha lógica:

Separar os posts ( executar as ações a seguir para o que tiver entre cada
<table> </table>
Se o usuário do post for um que quero salvar continua o script, caso
contrário parta pro próximo post
Pegar a data e hora e a mensagem, salvar em variáveis e no fim exportar para
um BD ou arquivo e partir pro próximo post

***
Minha dificuldade: Separar as informações contidas entre duas tags
específicas, ou seja:

Pegar o arquivo HTML e separar os posts (ou seja, pegar o que tiver entre o
<table> </table>)
Pegar dentro de cada post a data e hora do mesmo ( ou seja, pegar o que
tiver entre as tags <!-- status icon and date --> e <!-- / status icon and
date --> )
Pegar dentro de cada post a mensagem propriamente dita ( ou seja, pegar o
que tiver entre as tags <!-- message --> e <!-- / message --> )
***

O usuário seria mais tranquilo - imagino - com um grep "class=username".

Desde já obrigado,

José Paulo
address@hidden


[As partes desta mensagem que não continham texto foram removidas]



reply via email to

[Prev in Thread] Current Thread [Next in Thread]