Aqui, apresentamos reflexão sobre este ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados.
A estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. A estatística descritiva é a etapa inicial da análise de dados e tem por objetivo descrever os dados observados.
Na sua função de descrição dos dados, esta tem as seguintes atribuições: a obtenção, organização, redução e representação dos dados estatísticos de forma a auxiliar a descrição do fenômeno observado. A obtenção ou coleta dos dados é normalmente feita através de um questionário ou de observação direta de uma amostra. A organização dos dados consiste na ordenação e crítica quanto à correção dos valores observados. A redução dos dados envolve o entendimento de grande quantidade de dados através da leitura de seus valores individuais. A representação dos dados compreende de técnicas para uma melhor visualização dos dados estatísticos, facilitando a sua compreensão.
Técnicas para apresentação de dados
Existem diversas técnicas de apresentação de dados. Estas podem ser realizadas por meio de tabelas, gráficos e de medidas descritivas. A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais rápida do fenômeno em estudo. As medidas descritivas mais comuns utilizadas para resumir os dados numéricos são as medidas de tendência central e dispersão. O primeiro conjunto de medidas numéricas caracteriza a tendência central ou ‘centro de massa’ dos dados ou distribuição. O segundo conjunto procura refletir o espalhamento dos dados em torno do centro; são as medidas de dispersão. Há algumas medidas de tendência central e a razão para isto dependerá como os dados estarão distribuídos.
Neste sentido, a média aritmética é a soma de todos os valores observados da variável dividida pelo número total de observações. Esta é a medida de tendência central mais utilizada para representar a massa de dados. Uma vantagem da sua utilização é que esta reflete todos os valores da amostra e possui propriedades matemáticas definidas. Por outro lado, uma das suas desvantagens é que esta é influenciada por valores extremos. A moda é o valor da distribuição que ocorre com a maior frequência. Esta é a única medida de tendência central que pode ser aplicada a todos os tipos de variáveis (qualitativa ou quantitativa). Como vantagem, pode-se citar que esta representa um valor típico. Porém, esta medida não tem função em termos de cálculo e em certos conjuntos de dados. A mediana é o valor médio de uma distribuição ordenada, o qual apresenta o mesmo número de valores abaixo e acima desse valor. Ela é menos sensível a valores extremos. Porém, os seus valores flutuam mais de amostra para amostra do que a média, sendo a sua utilização menos confiável.
As medidas de tendência central não fornecem a visão completa dos dados. Para que os dados possam ser mais bem interpretados, também é necessário saber como estes estão ‘espalhados’, isto é, se os dados estão localizados em sua maioria em torno da medida de tendência central ou se estão dispersos. As medidas de dispersão dos dados são importantes para compreendermos as características das variáveis de um dado problema, assim como para a realização de análises estatísticas em geral. As medidas de dispersão, mínimo, máximo e amplitude são as medidas mais simples. Um problema dessas medidas de dispersão é que estas consideram somente os valores extremos de um conjunto de dados. Por outro lado, a variância que é caracterizada pela média aritmética dos quadrados dos desvios da distribuição de um conjunto de dados e o desvio-padrão que é a raiz quadrada da variância, indicam a variabilidade de um conjunto de dados, levando em consideração todos os seus valores. Quanto maior é o desvio-padrão em relação à média, mais os dados estão heterogêneos. Caso contrário, os dados estão mais concentrados repercutindo em dados mais homogêneos.
No geral, a estatística descritiva é utilizada em momentos em que estamos diante de muitos dados, fazendo-se necessário tornar essas informações manejáveis para poder relacioná-las. Porém, ao simplificar as informações, pode ser introduzido um viés pela redução da informação a um único número. Este viés pode ser minimizado pela utilização, ao mesmo tempo, de medidas de tendência central e dispersão que permitem cruzar a informação e contrapor com outras leituras dos dados resumidos.
Por Tainah de Paula
Consultora – CAPCS / UERJ