Ocorreu um erro neste gadget

quinta-feira, janeiro 17, 2008

Publicar ou perecer?


O site Publish or Perish usa o Google Scholar para calcular cerca de 15 índices de produção bibliográfica (não confundir com produtividade acadêmica, que inclui fatores como orientação etc.). Vale a pena dar uma olhada.

Are you applying for tenure, promotion or a new job? Do you want to include evidence of the impact of your research? Is your work cited in journals which are not ISI listed? Then you might want to try Publish or Perish, designed to help individual academics to present their case for research impact to its best advantage.

Publish or Perish is a software program that retrieves and analyzes academic citations. It uses Google Scholar to obtain the raw citations, then analyzes these and presents the following statistics:

  • Total number of papers
  • Total number of citations
  • Average number of citations per paper
  • Average number of citations per author
  • Average number of papers per author
  • Average number of citations per year
  • Hirsch's h-index and related parameters
  • Egghe's g-index
  • The contemporary h-index
  • The age-weighted citation rate
  • Two variations of individual h-indices
  • An analysis of the number of authors per paper.

As a general rule of thumb, I would suggest that using Google Scholar might be most beneficial for three of the GS categories: Business, Administration, Finance & Economics; Engineering, Computer Science & Mathematics; Social Sciences, Arts & Humanities. Although broad comparative searches can be done for other disciplines, I would not encourage heavy reliance on Google Scholar for individual academics working in other areas without verifying results with either Scopus or WoS.

Metrics

In addition to the various simple statistics (number of papers, number of citations, and others), Publish or Perish calculates the following citation metrics (see Citation metrics for more details):

Hirsch's h-index
Proposed by J.E. Hirsch in his paper An index to quantify an individual's scientific research output, arXiv:physics/0508025 v5 29 Sep 2005. It aims to provide a robust single-number metric of an academic's impact, combining quality with quantity.
Egghe's g-index
Proposed by Leo Egghe in his paper Theory and practice of the g-index, Scientometrics, Vol. 69, No 1 (2006), pp. 131-152. It aims to improve on the h-index by giving more weight to highly-cited articles.
Contemporary h-index
Proposed by Antonis Sidiropoulos, Dimitrios Katsaros, and Yannis Manolopoulos in their paper Generalized h-index for disclosing latent facts in citation networks, arXiv:cs.DL/0607066 v1 13 Jul 2006. It aims to improve on the h-index by giving more weight to recent articles, thus rewarding academics who maintain a steady level of activity.
Age-weighted citation rate (AWCR) and AW-index
The AWCR measures the average number of citations to an entire body of work, adjusted for the age of each individual paper. It was inspired by Bihui Jin's note The AR-index: complementing the h-index, ISSI Newsletter, 2007, 3(1), p. 6. The Publish or Perish implementation differs from Jin's definition in that we sum over all papers instead of only the h-core papers.

Individual h-index (2 variations)

The Individual h-index was proposed by Pablo D. Batista, Monica G. Campiteli, Osame Kinouchi, and Alexandre S. Martinez in their paper Is it possible to compare researchers with different scientific interests?, Scientometrics, Vol 68, No. 1 (2006), pp. 179-189. It divides the standard h-index by the average number of authors in the articles that contribute to the h-index, in order to reduce the effects of co-authorship.

Publish or Perish also implements an alternative individual h-index that takes a different approach: instead of dividing the total h-index, it first normalizes the number of citations for each paper by dividing the number of citations by the number of authors for that paper, then calculates the h-index of the normalized citation counts. This approach is much more fine-grained than Batista et al.'s; we believe that it more accurately accounts for any co-authorship effects that might be present and that it is a better approximation of the per-author impact, which is what the original h-index set out to provide.


Bom, dado que aparentemente eu sou um dos responsáveis por divulgar essas novas métricas baseadas no índice h, deixa eu deixar claro minha posição quando à questão de avaliação por índices quantitativos.

Primeiro, é importante tais índices sofrem de todas as limitações e abusos comuns a qualquer índice estatístico, como PIB, IDH, índice de mortalidade infantil etc. É claro que esses índices são falhos e não retratam a realidade do país (alguma medida em física retrata a Realidade com R maiúsculo?). Mas isso significa que são inúteis e que poderíamos dispensá-los? Não seria melhor aprimorá-los, substituí-los, aumentar seu número?

Segundo, nossos alunos sempre reclamaram de índices numéricos (e estatísticos) tais como média ponderada de notas de provas e trabalhos, e é bom sentir na pele o que eles sentem na deles. Pimenta nos olhos dos outros é refresco. Mas é claro que o bom conceito dos professores, transmitido a boca pequena, cartas de recomendação e outras avaliações qualitativas têm o seu peso. A avaliação nunca é apenas quantitativa, nem no caso dos alunos nem no caso da avaliação por pares. Mas não pode ser "menos que quantitativa".

Assim, quanto a índices númericos ou binários (0 = não faz parte do quadro da pós, 1 = faz parte), vemos que o que se associa a um dado pesquisador é um vetor em um espaço N-dimensional, onde N é o número de índices. O importante seria ter um espaço bastante grande, para depois poder fazer Análise de Componentes Principais (PCA), aplicar métodos de clusterização, etc. Daí descobriríamos eventualmente agrupamentos, ou seja, profissionais com ênfase em ensino, pesquisa, orientação, extensão, administração científica, empreendorismo científicos etc. Outra coisa é a valorização ou recompensa associada a esses nichos, algo a ser melhor discutido.

PS: Seja o vetor de índices X = (x_1, x_2,...,x_N). Não adianta querer ranquear as pessoas por um escalar R = W.X, onde W seria um vetor de pesos. Mesmo otimizando W, isto seria equivalente a um perceptron linear. A decisão tipo função degrau Theta(R-Lambda) de dar ou não bolsa de produtividade para as pessoas com Rank R maior que o limiar Lambda equivale a usar um Perceptron de única camada, que faz apenas classificação de pontos linearmente separáveis. Talvez fosse possível usar uma rede neural multicamadas para distribuir as bolsas do CNPq, mas afinal de contas, quem iria elaborar a lista do conjunto de treinamento (exemplos input-output corretos)? E como testar se o erro de generalização é baixo?

Um comentário:

Mercelo Hermes-Lima disse...

"Seja o vetor de índices X = (x_1, x_2,...,x_N). Não adianta querer ranquear as pessoas por um escalar R = W.X, onde W seria um vetor de pesos. Mesmo otimizando W, isto seria equivalente a um perceptron linear. A decisão tipo função degrau Theta(R-Lambda) de dar ou não bolsa de produtividade para as pessoas com Rank R maior que o limiar Lambda equivale a usar um Perceptron de única camada, que faz apenas classificação de pontos linearmente separáveis. Talvez fosse possível usar uma rede neural multicamadas para distribuir as bolsas do CNPq, mas afinal de contas, quem iria elaborar a lista do conjunto de treinamento (exemplos input-output corretos)? E como testar se o erro de generalização é baixo?"

--------------
voce escreveu em grego ou aramáico ?

caramba, como sou ignorante ! pelo menos entendo bem o H.

abração
parabens pelo blog

e desculpe as brincadeiras!

Marcelo Hermes
(blog Ciencia Brasil)