Medindo blogosferas







Uma idéia me ocorreu hoje, como sempre brincando com o BlogPulse. Tomei uma das palavras mais populares em portugues ("hoje") e comparei com o castelhano (hoy). Claramente existe correlação entre as séries temporais (as oscilações se referem à atividade semanal). Eu esperava que essa medida de atividade fosse proporcional, ou seja, a média da razão entre as duas atividades me desse o tamanho relativo das duas blogosferas.


Tomando 12 pontos (preguiça!) encontro que essa média é 1,8 +- 0,2, ou seja, aparentemente a blogosfera castelhana é 1,8 vezes maior que a portuguesa. Surpreendentemente, essa medida grosseira bate com as estimativas de 400 milhões de falantes em castelhano e 240 milhões lusófonos (razão = 1,7), dadas na Wapedia. Muito animador...


Mas algo nos dados está esquisito: fora o fato dessa queda brusca de atividade no gráfico das séries temporais, que não sei explicar, os dados de correlação não são proporcionais (ver gráfico 2), ou seja a reta não passa pelo zero. Usando uma lei de potencia, as coisas ficam melhores (gráfico 3), mas por que o expoente seria o,6? Não encontro uma explicação plausível... A atividade não deveria ser proporcional (linear)?


A medida pode ser melhorada considerando todos os pontos da série temporal, mas não parece que isso iria corrigir a não-linearidade.


É claro que existem correções que deveriam ser feitas (por exemplo, talvez o crescimento das duas blogosferas, por motivos economicos, não seja igual, etc). Este meu resultado, obtido em meia hora, é uma primeira aproximação. Mas me parece bastante intrigante...


PS: Meu teclado está com defeito, não consigo colocar acentos circunflexos...

Comentários

Postagens mais visitadas deste blog

O SEMCIÊNCIA mudou de casa

Aborto: um passo por vez