Ranking de “conectividade global” das universidades federais - e algumas lições estatísticas

Imprimir

ranking-federais_html_7c4e02c5Já que qualquer um pode publicar rankings hoje em dia, vamos fazer o nosso, com todo o rigor, objetividade e transparência que o método científico impõe. Na verdade, resolvi fazer este “ranking” quando descobri que o google tem um comando para buscar as páginas que linkam para um site, e dá um número total. Depois de brincar um pouco com os dados, acabei percebendo que tudo isso poderia ter alguma finalidade didática para o chamado pensamento crítico em tempos de dogmas matemáticos. Acabei fazendo, então, uma espécie de "tutorial para não ser facilmente enganado por estatísticas".

 

Sumário
Um “indicador de conectividade global” via google.
A estatística superficial
Ranking de “conectividade global” das universidades federais brasileiras
A estatística é uma forma de escultura
Ranking de “conectividade google” para diversas universidades
Criando preconceito regional com números
Conectividade das universidades federais por grande região
Mudando as regras durante o jogo
Conectividade média das federais por grande região
Toda estatística compara cenouras com abóboras
Comparando coisas diferentes
Desconstruindo o preconceito regional
Revelando as variáveis ocultas
Conectividade regional” por habitante
Adicionando variáveis nas equações para compensar correlações ocultas
Conectividade regional” por PIB
Conclusão
Referências

 

Um “indicador de conectividade global” via google.

Se você digitar “link:usp.br” vai saber quantas páginas “minimamente respeitáveis” têm um link para a usp. Nem todos os links são válidos, muitos blogs e portais pessoais são ignorados. O número absoluto de acessos obtido com o comando [link:] será o “indicador de conectividade global” que usaremos neste artigo.

Com esta metodologia objetiva e transparente em mãos, me pus a fazer alguns gráficos e cálculos simples. Sem grandes pretenções, não tenho como objetivo elaborar um índice de comparação de universidades, tampouco cristalizar interpretações ingênuas e preconceituosas dos dados estatísticos. Se você acompanhar até o final, irá entender o que digo.

A estatística superficial

O RIZOMAS está lançando o EXCLUSIVO RANKING DE CONECTIVIDADE GLOBAL DAS UNIVERSIDADES FEDERAIS BRASILEIRAS, depois de um esforço jornalístico sério e blablablá...**

Ranking de “conectividade global” das universidades federais brasileiras

Nós do RIZOMAS esperamos, a partir disto, contribuir para a qualidade do ensino, a transparência, sem pretenções acadêmicas, blábláblá...**


alt

[número absoluto de links de acesso]

** textos fictícios de “estatística superficial”

Poderíamos parar por aqui e vender notícias, mas vamos um pouco mais além.

O que significam os dados acima? No mínimo, o quanto o google está conectado às diferentes universidades federais do Brasil. O que já é alguma coisa. Mas será que eles indicam o “nível de digitalização” delas? Ou a “conectividade”? Sua “qualidade de ensino”, de pesquisa, de imprensa? De maneira alguma.

Talvez este número até pudesse compor um índice maior de "conectividade", junto com outras variáveis. Mas quando juntamos vários critérios diferentes, há sempre a questão: o quanto cada um deles é importante? Qual é o peso de cada variável na equação que forma o índice geral? Aí não há um método claro de solução, é uma questão de escolha.

A estatística é uma forma de escultura

Vejamos porque.

Ranking de “conectividade google” para diversas universidades

Incluímos agora, para uma comparação um pouquinho mais ampla, outras universidades nacionais e internacionais e a média das federais.

alt

[número absoluto de links de acesso]

Este ranking apresenta um curioso padrão. Acima das federais estão as internacionais e estaduais paulistas. Abaixo estão algumas particulares famosas. O que isto significa? Vai saber...

Mas este me parece um dado interessante, sinto isso. Talvez seja apenas por preconceito, por tendências ideológicas, por ouvir falar. Eu bem que poderia fazer um texto mostrando apenas este gráfico, com uns nomes bonitos e falando um monte de coisas que levassem à mesma idéia - a separação entre universidades públicas e privadas no Brasil. Federais no meio. Bonito, redondo, fácil de interpretar sem causar grandes transtornos. Isto é a estatística. Uma escolha atrás da outra, que termina com ares de total objetividade.

Por isso a estatística é uma arte, mais precisamente um tipo de escultura que se faz sem as mãos. O artista vai moldando a matéria bruta disponível segundo sua imaginação e seus objetivos.

Vejamos então alguns exemplos indesejados de modelagem.

Criando preconceito regional com números

Aquele que conhece muito tende a ser mais preconceituoso, se não for sábio. Mesmo os sábios têm preconceito. É natural. O preconceito explícito é odiosamente rejeitado, mas de forma implícita ele é uma das bases da própria racionalidade humana. A generalização, a imaginação de padrões gerais que nos permite agir adequadamente em relação a algo que nunca vimos. Uma qualidade de extrema importância num mundo tão diverso. Mas cria preconceito. E se alimenta dele. No final, acabamos chegando a consensos simples e nos satisfazemos com eles.

Vamos então mostrar como se faz uma boa confirmação estatística de paradigmas.

Conectividade das universidades federais por grande região

Se somarmos o total de links para todas as universidades federais de cada região, chegaremos ao seguinte gráfico.

alt

[número absoluto de links de acesso por região]

A interpretação desta imagem não é óbvia, pois costumamos valorizar a educação do sul. Daria uma boa matéria sensacionalista:

Sul está atrás do nordeste na corrida digital. Sudeste dispara em conectividade”

Mas são dados estranhos, assim brutos. Segundo alguns índices a educação de São Paulo não está tão boa assim. Os paulistas poderiam retrucar dizendo que sua supremacia está na pesquisa, não no ensino. O que não seria algo tão bom assim, pois as universidades federais têm um papel mais amplo e profundo em relação à cultura. Mas isso é tudo imaginação.

O fato é que não conseguimos chegar a lugar nenhum. Então qual é a solução?

Mudando as regras durante o jogo

Pois bem, o gráfico anterior não serviu muito bem para nossa confirmação estatística de paradigmas – a prova do aparente consenso atual dos estudiosos, o “mainstream” das tendências em educação.

Então vamos tirá-lo. Esqueça, não serve pra nada. Mas o que colocaríamos no lugar?

Após algumas tentativas semi-aleatórias, poderíamos chegar numa solução. Recorrer às médias (abaixo) e omitir os valores absolutos (acima). Isto é estatística aplicada para o mal. Como um belíssimo lápis 4B que fura a coxa do desenhista.

Então, para fins exclusivamente didáticos, vamos lá.

Conectividade média das federais por grande região

Se dividimos o total de links (acima) pelo número de universidades de cada região, teremos o seguinte gráfico, que poderia ser usado para confirmar o que todos pensam que sabem.

 

alt

média* = [número absoluto de links por região] / [número de universidades por região]

Como podemos constatar nos dados acima (obtidos pelos técnicos do RIZOMAS e a reconhecida tecnologia Google) as regiões sul e sudeste dominam a internet, sendo o norte quem mais necessita de cuidados neste sentido.**

NOTA: agora caberia bem uma imagem de uma escola bem precária com a legenda “Escola XXX, na Amazônia”.**

* média= conceito para igualar desigualdades.
ex: "Se João tem 5 pães e seus 4 amigos nada, na média todos têm um pão"

**Textos fictícios para estatísticos enganadores

Muito bem, maravilha!

Chegamos ao final de nosso “curso para estatísticos enganadores”, que é a primeira parte do “curso para não ser enganado por estatísticos”.

Se for de seu agrado, continue.

 

Toda estatística compara cenouras com abóboras

A matemática serve para comparar laranjas com galinhas e coisas do tipo. É de sua natureza, os números igualam tudo. “Dois o quê mais dois o quê?” Não interessa, é quatro “alguma coisa”.

Isto não é nenhum defeito da matemática, muito pelo contrário, sua maior virtude. Mas pode ser problemático se alguém diz “10 cenouras valem 3 abóboras”, você acredita, faz o negócio, e depois percebe (ou não) que na verdade ele dizia “troco 10 cenouras velhas por 3 abóboras fresquinhas”.

Ou seja, o sujeito omitia variáveis significativas para satisfazer seus próprios interessses.

Isto é possível porque as pessoas podem se equivocar ao assemelhar as coisas, compará-las de igual para igual, sem pensar nos detalhes. Olhamos uma cenoura, uma abóbora e nos contentamos em dizer “dois legumes laranjas”.

Vejamos um caso extremo de comparação de abacates com torradeiras...

Comparando coisas diferentes

Se somarmos todos os links para as universidades federais brasileiras, chegaremos nuim total de 17.715 links de acesso.

alt

[número absoluto de links de acesso]

Se quiséssemos falar mal das federais, suceteá-las ou algo do tipo, este seria um ótimo gráfico, bem convincente para pessoas não familiarizadas com a internet ou com a estatística. Colocaríamos a frase abaixo junto da figura (e só lá no final um texto meio chato explicando os detalhes):

Conexões globais: soma das federais não chega aos pés do orkut”

Mas qualquer iniciado em estatística sabe que não se compara abacates com torradeiras assim, de qualquer jeito. Veja os sites acima. Têm naturezas completamente diferentes. As universidades são nacionais, os outros dois internacionais - o que já interfere amplamente na “conectividade global”. Além disto, são dois gigantes, verdadeiros monopólios dos computadores: a microsoft dispensa aprensentações e o orkut é do google – nossa ferramenta de obtenção de dados.

Isto é comparar coisas diferentes, omitir variáveis ocultas.

Desconstruindo o preconceito regional

Como vimos, a melhor forma de enganar é ocultar informações e fazer uma bela apresentação. Bem bonita e convincente. Para revelar a farsa, portanto, é necessário duvidar de certas coisas bonitas, claras, bem apresentadas. É também preciso encontrar as variáveis ocultas - e se for o caso, introduzí-las nos dados.

Revelando as variáveis ocultas

O que poderia estar omitido no gráfico preconceitoso da conectividade média das federais?

Como descobrir as variáveis ocultas?

Aí é necessário conhecimento, imaginação e experiência. Mas não muito, apenas o básico, que todos temos em alguma medida. Uma rápida reflexão pode nos levar a imaginar outras variáveis significativas. Coisas simples e óbvias, que podemos testar com poucos recursos. Vejamos... a população e o PIB de cada estado. É um começo.

Como ficariam os gráficos se, ao invés de médias usássemos o número absoluto de links, mas levando em conta fatores demográficos e econômicos? Vamos tentar.

“Conectividade regional” por habitante

Para chegar ao gráfico abaixo, dividi o número total de conexões de cada região pelo número de habitantes (IBGE, 2000).

alt

[número absoluto de links por região] / [população total da região]

Agora a coisa mudou bem. Olha o sudeste lá embaixo. Vamos imaginar uma frase “maldosa”, um clássico da estatística de botequim...

Brasileiros do centro-oeste aproveitam melhor a internet que os outros – sudeste e nordeste estão na lanterna”

Agora vamos ver o que fizemos.

Adicionando variáveis nas equações para compensar correlações ocultas

Por que tudo mudou quando adicionamos outra variável? Porque ela era significativa. Pois bem, mas o que isso quer dizer, em termos estatísticos? Quer dizer que existe uma forte correlação entre a variável oculta (população) e a principal (conectividade), que pode distorcer os dados. Tipo: quanto maior a população, maior tende a ser a conectividade. Assim, para tentar anular esta variável, colocamos ela na "parte de baixo" da equação, o denominador da fração (inversamente proporcional, ou seja, se dividimos a conectividade por uma grande população, seu número ficará menor, anulando a tendência original).

Vamos fazer isso de novo com a outra variável oculta supostamente significativa. Se o gráfico mudar muito, confirmamos a importância estatística desta variável.

“Conectividade regional” por PIB

Se usamos os números absolutos de acesso para cada região levando em conta o PIB* regional, chegaremos à seguinte imagem.

alt

[número absoluto de links por região] / [PIB* regional]

Aqui o sudeste ficou na lanterna total. Vejamos mais uma frase de efeito...

Sudeste tem o pior aproveitamento de recursos no ensino superior”

Uma falácia deslavada, mas muitas vezes imperceptível ao observador apressado. E bastaria botar aquele textozinho chato no final, explicando melhor, que ninguém poderia reclamar.

Conclusão

Pois bem, o que concluir? Como podemos interpretar adequadamente os dados obtidos neste estudo? Qual dos gráficos seria mais significativo, mais representativo de alguma coisa? Algum deles seria? Sinceramente, não sei. Não faço a menor idéia.

Mas os gráficos deste artigo são exclusivos e mostram dados legítimos, obtidos com um método objetivo que você pode repetir na sua casa. Sozinhos são bem pouco significativos. Se quiser arriscar a juntá-los com outros dados ou interpretá-los, aí é por sua conta, pois eu nem sou estatístico (e sei que educação é uma coisa complicada). Sou apenas um cidadão minimamente crítico.

Tentei mostrar aqui o uso inadequado da estatística, revelando como os mais simples recursos matemáticos podem ser usados para moldar a verdade ao bel prazer do técnico-especialista-artista. Repare nas frases em vermelho deste artigo, e veja como é possível se chegar a diversas conclusões diferentes partindo dos mesmos dados. Estatística é uma forma de escultura.

O que isto quer dizer? Que estatística é mentira? Abaixo a estatística?

Muito pelo contrário. Pelo que aprendemos, é prudente duvidar de imagens e interpretações simples e bonitas. E precisamos entender um mínimo de estatística (e retórica) para não sermos tão facilmente enganados por gráficos, rankings e frases de efeito.

 

Referências

www.google.com

www.ibge.gov.br

Rizomas - universidades federais brasileiras

 

DADOS RETIRADOS DO IBGE (população e PIB* regional)

 

região total de acessos por regiao media por regiao população
PIB*
norte 1718 286,33 12900704 120014
nordeste 3813 381,3 47741711 311175
Centro-oeste 1975 395 11636728 206361
sudeste 7154 550,31 72412411 1345510
sul 3055 509,17 25107616 386737

Fontes: IBGE, Diretoria de Pesquisas, Coordenação de Contas Nacionais, Contas Regionais do Brasil 2003-2006.
e
IBGE, Censo Demográfico 2000

 

 

Última atualização em Qua, 24 de Agosto de 2011 01:18  


A sua escola tem (tinha) muito "decoreba"?
 

Selecione uma palavra-chave

Artigos mais lidos desta categoria

Mapa metabólico ultra mega simplificado

Filmes e imagens
O metabolismo é apenas uma palavra. Assim, de primeira viagem, pode parecer uma coisa simples. - Ah, claro, estou com algo errado no meu metabolismo... Mas quando vamos entender o que realme...(93517)

Aulas Práticas de Ciências - Mecanismo de Busca

Ciências
Este mecanismo foi feito especialmente para os professores recém chegados à sala de aula, e também para aqueles mais experientes que nunca param de ter novas ideias, mas não fazem questão de r...(81376)

Erros ortográficos mais comuns no português

Textos e tutoriais
O português é de fato uma língua pouco democrática. Suas nuances, detalhes, flexões, acentos, regras, tudo isso pode até servir de matéria prima para o escritor erudito e ilustrado, mas para 9...(37016)

Por que estudar?

Textos e tutoriais
Quem sou eu? Quem somos nós? Onde vivemos? De onde viemos? O que podemos fazer com tudo isso? Essas são perguntas que toda pessoa, por mais “prática” que seja, se faz algumas vezes na vida. El...(36021)

O que é feedback? Qual é a diferença entre o positivo e o negativo?

Filmes e imagens
Esta é uma palavra muito usada hoje em dia. "Me dá um feedback" quer dizer "me diz se você gostou ou não". Daí vem o ibope, as pesquisas de opinião, os formulários de reclamação, ou mesmo o "r...(34234)