Ocorreu um erro neste gadget

quarta-feira, fevereiro 07, 2007

Para pensar depois: Theil Index


The formula is


T = 1/N \sum (x_i/[x]) ln (x_i/[x])


where x_i is the income of the ith person, [x] is the mean income (não consigo colocar overbar ou brackets aqui), and N is the number of people. The first term inside the sum can be considered the individual's share of aggregate income, and the second term is that person's income relative to the mean. If everyone has the same (i.e., mean) income, then the index = 0. If one person has all the income, then the index = lnN.


The Theil index is derived from Shannon's measure of information entropy. Letting T be the Theil Index and S be Shannon's information entropy measure,T = ln(N) − S.


Shannon derived his entropy measure in terms of the probability of an event occurring. This can be interpreted in the Theil index as the probability a dollar drawn at random from the population came from a specific individual. This is the same as the first term, the individual's share of aggregate income.


Theil's index takes an equal distribution for reference which is similar to distributions in statistical physics. An index for an actual system is an actual redundancy, that is, the difference between maximum entropy and actual entropy of that system.


Theil's measure can be converted into one of the indexes of
Anthony Barnes Atkinson. James E. Foster used such a measure to replace the Gini coefficient in Amartya Sen's welfare function W=f(income,inequality). The income e.g. is the average income for individuals in a group of income earners. Thus, Foster's welfare function can be computed directly from the Theil index T, if the conversion is included into the computation of the average per capita welfare function:
W = exp(-T)


Esse índice de Theil realmente me parece melhor que o índice de Gini. Notar que não é uma entropia (pois x_i se refere a um individuo i em um rank plot). É na verdade uma medida de dispersão em um rank-plot. Porém o uso do termo x_i/[x] parece limitante, pois inviabiliza seu uso para rank-plots com expoentes altos (ou pdfs com expoentes baixos, ou seja, com divergência do primeiro momento ).

Mas por que não usar simplesmente um índice :

T' = - \sum f_i ln f_i /ln R,

onde f_i = x_i/R é a fração da renda total R que o indivíduo i possui. Assim, se apenas uma pessoa possui a renda total, teriamos K = 0 e se todos têm a mesma renda, K = 1.

Hummm... Ok, ok: Temos que R = [x] N , portanto as duas definições são idênticas (a menos de um fator de normalização ln N). A renda total R, assim como [x], depende de forma forte da cauda da distribuição, e diverge quando N cresce para distribuições com leis de potência. Não foi dessa vez que fiquei famoso...

Update: Nova tentativa. E se eu usar y_i = x_i/sigma como medida normalizada de renda. Ou seja, usar a função K (de Kinouchi? que megalomania!)

K = - \sum y_i ln y_i

Aparentemente esta função exige apenas a não divergência do segundo momento (ou da variância), e portanto parece ser mais robusta. Vejamos.

Na completa igualdade temos todos os y_i = R/(N sigma) e K_max = - R/sigma ln(R/(N sigma)) = - N [x]/sigma ln ([x]/sigma). Posso usar K_max como fator de normalização mais tarde, mas eu queria algo independente de [x]. Bom, então parece que, me parece que a dependência em N no denominador faz com que K_max diverge para infinito (pois sigma tende a zero) e não tem jeito.

Quando apenas uma pessoa possue toda a renda, temos K = - ln R/sigma, R = N [x] diverge e sigma também (mostre isso!), e portanto preciso examinar como se comporta R/sigma. Me parece que R cresce com N mais rápido que sigma, e portanto acho que K vai para menos infinito.

Por outro lado, em um caso intermediário onde sigma é finito e [x] divergente (e portanto R = N[x] divergente), a função K diverge também. Ou seja, se [x] diverge, a função K diverge, não importa se sigma diverge ou não. Ou seja, estou confuso e acho que devo desistir. Ou pelo menos, pensar nisso depois.

Update2: Acho que se em vez de eu usar logs, eu usar algo como entropia de Tsalis, talvez eu possa controlar essas divergências e fazer um índice de Theil não divergente para distribuições com caudas longas. Ou então eu posso piorar ainda mais a situação. Vamos ver.

Um comentário:

Osame Kinouchi disse...

Nestor Caticha disse (mas nao conseguiu postar aqui):
Li um pouco do trabalho de Conceicao. Rapidamente: dadas duas distribuicoes w_i e n_i ( a riqueza e o numero de membros de um grupo i) podemosolhar para a distancia entre elas. A distancia "natural" em teoria de
informacao e' a de Kullback Leibler (indice KL) que e' a cross entropy e nao a entropia de Shannon (a entropia de shannon 'e a KL entre a distribuicao e a distribuicao uniforme: um caso particular).

O interessante da KL 'e que ela aparece de forma "natural".Para a maioria das pessoas que usam entropia, "natural" quer dizer que
aprenderam isso na escola e portanto podemos muda-la de forma arbitrária.

H'a no entanto razoes para chama-la de natural que vao alem de " e' o que todo mundo usa" . Deveriamos ver se se aplicam para indices de desigualdades.

A ideia por tras da obtencao da entropia cruzada como ferramenta para atribuicao de probabilidades num processo de inferencia vem de um principio geral. "Se uma teoria geral existe, deve ser aplicavel em casos particulares"
Se soubermos alguns casos particulares suficientemente simples, entao talvez a forma do funcional que procuramos fique determinada. Jaynes chamaria esses casos de 'desiderata" . Pode ocorrer que esses casos nao sejam suficientes para determinar o funcional ou que sejam incompativeis ente si. Para inferencia os casos particulares podem variar de autor para autor mas essencialmente sao estes:
1)Queremos um funcional que nos leve de probabilidades a numeros reais. (isto significa que teremos um ranking e aquela distribuicao primeira no ranking (maxima entropia) sera a escolhida).

Isto e' um desejo que nossa teoria deve satisfazer: QUando recebemos
informacao, fazemos uma atualizacao da distribuicao de probabilidades, escolhendo a que maximiza o funcional. Há outros três desejos que dizem respeito a
2)Localidade
3)Invariancia ante mudancas de coordenadas
4) Independencia

Escrever sobre isto aqui levaria algumas paginas. (referencias Osame
coloque alguma). O importante que estes poucos e simples desejos fixam a forma de
S[P,Q)=-\int log(P/Q) dP

Isto induz uma metrica "natural" ( mais algumas paginas para mostral o que e' natural) que e' o tensor
de Fisher-Rao e a ideia de distância.

Parece razoavel introduzir uma distancia entre distribuicao de riqueza e distribuicao de populacao. E parece natural usar a entropia cruzada (KL). Mas a pergunta que queremos fazer e' quais os nossos desejos para uma
medida de desigualdade, e depois verificar qual e' o funcional
adequado e nao simplesmente toma-lo emprestado de teoria de
informacao. Dito isto, minha aposta Osame , e' que se pode justificar muito melhor tudo isto e que o indice de desigualdade sera essencialmente este mesmo.