Newsletter subscribe

ENEM, Vestibular

Sobre a Teoria de Resposta ao Item

Posted: 25 às 2:14   /   by   /   comments (0)

Olá estou estudando um pouco sobre o T.R.I para esclarecer dúvidas, por enquanto se encontrar algum artigo relevante vou citando; depois faço um resumo geral sobre a idéia.

Testes e avaliações feitos em larga escala em geral são construídos na forma de questões do tipo múltipla escolha, nas quais uma única alternativa é correta. Tais conjuntos de questões têm como objetivo avaliar alguma habilidade nas pessoas. Uma habilidade é algo que não pode ser observado diretamente, como poderiam ser, por exemplo, altura, peso, pressão arterial, idade, etc. A partir das questões respondidas pela pessoa, pretende-se atribuir numa escala numérica um valor para a habilidade que está sendo medida.

A chamada “teoria clássica” das avaliações cumpre este objetivo por meio da contagem de acertos entre todas as questões que a pessoa respondeu. Porém, esta metodologia, apesar das de suas vantagens devido à simplicidade de implementação, apresenta limitações para a avaliação de um grupo grande de pessoas a um custo exequível do ponto de vista prático. Com a necessidade cada vez maior de trazer eficiência para as ferramentas de teste, surgiram alguns questionamentos que estimularam o desenvolvimento de uma tecnologia mais avançada para fazer a relação entre habilidade da pessoa e escala numérica, tais como:

•Para medir adequadamente uma habilidade como, por exemplo, raciocínio lógico-quantitativo quantas questões precisam compor o teste que irá avaliá-la? E se o desempenho de uma pessoa tiver que ser comparado com o de outras centenas ou milhares de pessoas?
•Num teste com, por exemplo, 20 questões, duas pessoas que tiveram 10 acertos apresentaram o mesmo desempenho?
•É possível comparar desempenho de pessoas numa determinada habilidade se elas fizeram testes com questões diferentes? Como garantir que uma pessoa não fará um teste mais difícil do que o da outra?
Nas últimas três décadas, a Teoria de Resposta ao Item (TRI) se desenvolveu significativamente e, com o avanço da capacidade de processamento dos computadores, começou a resolver estes problemas. Hoje, algoritmos baseados em TRI estão presentes em importantes testes internacionais, tais como o GRE, o GMAT, o SAT, o TOEFL, entre outros. No Brasil, as aplicações de TRI tem tido como objetivo a comparação de grupos de estudantes e não dos indivíduos, como é feito, por exemplo, na Prova Brasil, no SARESP e, a partir de 2009, no ENEM.
A premissa fundamental que diferencia a TRI do procedimento clássico está em não supor que a simples contagem de acertos de uma pessoa às questões de um teste se traduz na melhor medida para o desempenho na habilidade que está sendo medida, mas sim de que a resposta fornecida por uma pessoa para cada uma das questões (chamadas de itens) gera informação sobre a habilidade que lhe está sendo medida e sobre a questão. Ou seja, o processo é feito item por item (questão por questão). De maneira agregada, as sucessivas respostas a cada item se traduzem num conjunto de parâmetros que permitem classificá-lo em termos da dificuldade, do potencial do item para avaliar a habilidade definida e do poder discriminativo que o item agrega ao teste como um todo. O procedimento que gera estes parâmetros é chamado de calibração dos itens.
Vamos procurar entender um pouco melhor como os acertos e erros de uma pessoa a um conjunto de itens se transformam em uma escala numérica. A fundamentação matemática mais utilizada para esses procedimentos é o modelo logístico de três parâmetros. Em linhas gerais, no processo de calibração dos parâmetros do modelo:

•quanto menos o item for acertado, maior o parâmetro de dificuldade;
•quanto mais for acertado no grupo dos indivíduos de baixa habilidade (que erraram muitos outros itens do mesmo teste) menor o potencial do item para avaliar a habilidade definida;
•quanto maior for a diferença entre os acertos dos indivíduos de alta habilidade e os acertos dos indivíduos de baixa habilidade (relativamente aos outros itens do mesmo teste), maior o poder discriminativo do item.
Com os parâmetros de diversos itens calibrados, é possível utilizá-los para combiná-los em testes (conjuntos de itens) equivalentes em termos de nível de dificuldade, poder discriminativo e até mesmo em tempo de resposta. Ao serem respondidos, os testes assim construídos se tornam a entrada de um procedimento cuja saída é uma pontuação que traduza o desempenho no teste de quem está sendo avaliado. Neste procedimento:

•quanto mais itens a pessoa acertar, maior será sua pontuação;
•acertar itens mais difíceis contribuem para que a pessoa tenha uma pontuação mais alta;
•se a maioria dos itens que a pessoa acerta abrangem uma determinada faixa de parâmetros, poucos itens acertados fora desta faixa terão impacto pequeno sobre a pontuação da pessoa (o que minimiza as distorções provocadas pelos chamados “chutes” da pessoa no teste).
Em síntese, a TRI possibilita realizar uma mensuração de desempenho de pessoas a partir das respostas dadas em um teste com menos itens, de maneira mais justa e, principalmente, possibilitando a comparabilidade entre os desempenhos apresentados por diferentes pessoas, mesmo quando o teste não é composto pelas mesmas questões. Isso também seria possível por meio da teoria clássica, desde que o número de itens presentes no teste fosse extremamente grande.

Antonio Rosso, Fábio Orfali e Tadeu da Ponte
Sócios-fundadores da Companhia Brasileira de Avaliações Educacionais – Primeira Escolha
fonte: http://www.trlq.com.br/sobretri.asp

Comentários

comentários

Comments (0)

write a comment

Comment
Name E-mail Website