Professional Documents
Culture Documents
Resumo – Este trabalho apresenta um estudo sobre a dos alunos pelas IFES e a consequente transparência
mineração de dados educacionais no âmbito da Universidade destas ações.
Federal do Sul e Sudeste do Pará, com vistas ao Verificamos em [17] que a Universidade Federal do Sul
fornecimentos de insumos, que proporcionem aos integrantes
e Sudeste do Pará – Unifesspa, ofertou ao SiSU no ano de
desta Instituição Federal de Ensino Superior - IFES,
2015, 990 vagas. Entretanto, ocorreram 5 (cinco)
respostas adequadas sobre a problemática da inserção de
chamadas, no período entre 04 de fevereiro e 26 de março,
cursos superiores em seus campi fora de sede, pois existe o
oferecimento de cursos em outras localidades, diferentes de afim de que houvesse preenchimento das vagas
Marabá, mas a procura ainda está sendo baixa, verificando remanescentes.
esta afirmação pela quantidade de processos seletivos Uma série de fatores pode ocasionar esta dificuldade no
realizados no ano de 2015. Com informações que serão preenchimento das vagas, no entanto, para entender este
extraídas da base de dados oriunda do Sistema Unificado de fato necessita-se conhecer melhor os perfis dos candidatos
Seleção pode-se conhecer os perfis dos candidatos a alunos da
que pretendem ingressar na instituição. Esta etapa do
instituição e consequentemente adequar o oferecimento de
processo de seleção poderia ser melhor executada baseado-
cursos em campi aos quais esta procura esta sedando de
se nas conclusões retiradas a partir da mineração de dados
forma expressiva em relação aos outros.
feita na base que é passada pelo SiSU à Unifesspa visando
I. INTRODUÇÃO a segunda etapa do processo de seleção.
No cenário atual constata-se um modelo diferente no Portanto, técnicas para a obtenção do conhecimento
que tange ao ingresso de estudantes em Instituições através da mineração de dados como classificação com
Federais de Ensino Superior – IFES, pois ao invés de Naive Bayes, agrupamento usando o algoritmo K-means,
serem realizadas provas específicas em cada uma destas, associação e predição usando o modelo de árvore com o
há a possibilidade de uso de uma outra forma de ingresso, algoritmo Predictapriori foram exploradas a fim de que os
o Exame Nacional do Ensino Médio – ENEM em conjunto perfis de candidatos pudessem ser levados em
com o Sistema de Seleção Unificada – SiSU. O apoio dado consideração nos momentos de construção do
pelo Governo Federal a esta opção, não somente existe planejamento da distribuição dos cursos pelos campi da
M. Ramaswamy e R. Bhaskaran usam o modelo de Devido ao grande número de chamadas feitas pelo
previsão CHAID para analisar a inter-relação entre SiSU[17] e adequação do oferecimento de cursos pelos
variáveis que são utilizadas na predição do resultado do campi fora de sede, haja vista que o preenchimento das
desempenho no ensino superior, tomando como base dados vagas nestes, em um primeiro momento foi insatisfatória,
do ensino secundário [4]. usou-se a base de dados repassadas pelo SiSU para auxiliar
na construção de políticas de ensino da instituição, ou seja,
Surjeet Kumar Yadav e Saurabh Pal aplicaram os procura-se relacionar por meio de modelos matemáticos e
algoritmos C4.5, ID3 e árvores de decisão CART em bases estatísticos quais são os cursos com maiores
com estudantes de engenharia para prever seus probabilidades de serem preenchidas as vagas se forem
desempenhos e suas melhorias[5]. ofertados em campi do interior.
alunos, professores, recursos e etc. A mineração de dados identificar os dados relevantes para o mesmo e certificar-se
para a educação é usada a fim de descobrir padrões nestes de que as variáveis relevantes para o projeto não são
dados, pois desta forma, há um melhor e mais apurado interdependentes.
auxílio, as IFES na tomada de decisão em relação ao 3 – Preparação dos dados: Tendo em vista a possibilidade
ensino, o qual elas promovem. Existem dois tipos de dos dados serem oriundo de diversos locais, existe a
sistemas educacionais:[1] possibilidade dos mesmos não estarem preparados para
a) Sistema de Educação Tradicional: Neste sistema, que os métodos de mineração sejam aplicados diretamente.
há o contato direto entre os alunos e o professor. O Algumas ações podem ser executadas para introduzir
Registro dos alunos, incluindo a informação, tais como qualidade nesses dados.
atendimento, as notas, entre outros, podem ser mantidas 4 – Modelagem: neste momento, técnicas e algoritmos de
manualmente ou digitalmente. mineração estarão sendo aplicados.
b) Sistema de aprendizagem baseado na Web: é 5 – Avaliação: nesta etapa, será necessário o
também conhecido com e-learning. Este sistema acompanhamento por especialistas, conhecedores do
proporciona o estudo, pelos alunos, de qualquer local onde negócio, tendo em vista que a confiabilidade do modelo
estejam sem qualquer restrição de tempo. Em um sistema será julgada. Devem ser executadas várias formas de testes
Web, vários dados sobre os alunos são coletados e validações, por exemplo: cross validation, suplied test
automaticamete por meio de logs. set, use tranning set e indicadores para auxiliar na análise
Os resultados da extração de dados de ensino, a dos resultados obtidos como matriz de confusão, estatística
partir de qualquer um dos tipos de sistemas educacionais kappa, erro médio absoluto, entre outros.
supracitados, podem ser usados por diferentes membros do 6 – Distribuição: neste momento se faz a divulgação
sistema de ensino [1], [2]. dos resultados aos envolvidos no processo.
Almejando um direcionamento a seguir, escolhemos
para esta pesquisa o modelo de processo de mineração de
dados CRISP-DM (Cross-Industry Standard Processo of
Data Mining), por atualmente ser considerado um padrão
de grande aceitação [13]. Ele delineia as fases de um
projeto, suas respectivas tarefas e os relacionamentos entre
elas. O modelo consiste em seis fases organizadas de
maneira cíclica, conforme mostra a figura 1, no entanto,
mesmo composto por fases, o fluxo não é unidirecional,
desta forma, podemos exercer tanto a ação de seguir,
quanto a de regressar entre as fases. Assim, nossa pesquisa
segue as etapas/fases previstas no modelo, que são:
1 – Entendimento dos negócios: tem como principal meta
o entendimento do objetivo que se deseja alcançar;
2 – Entendimento dos dados: os dados podem vir de Fig. 1 - Figura representando o processo CRISP [14]
diversos locais e possuírem diversos formatos, por isso há
a necessidade de entender de forma clara o problema,
4 de 8
Tomando sua simplicidade e clareza de uso, este modelo deve manifestar o interesse no prazo especificado no
delineia os principais procedimentos desta pesquisa. cronograma. [11]
Essa lista, consiste de uma tabela, com uma
V. CONHECIMENTO DO DOMÍNIO.
quantidade expressiva de atributos, que ao contexto do
O Exame Nacional do Ensino Médio (Enem) foi processo de seleção SiSU, são extremamente necessários,
criado no ano de 1998 e tem como principal objetivo a entretanto, ao nosso objetivo não iriam nos apresentar uma
avaliação do desempenho do estudante no final do ensino quantidade significativa de informações, pois muitas delas
médio, almejando contribuir para o aumento da qualidade são de cunho pessoal, como nome, CPF, número de
desse nível de escolaridade. inscrição, entre outros. Por isso, neste momento, iniciamos
No ano de 2009 passou também a ser usado como nossa fase se análise dos dados, a fim de que pudéssemos
forma de seleção para o ingresso nas universidades. ter uma noção de quais tipos de dados estaríamos
Mudanças foram feitas na prova com intuito de contribuir trabalhando, ou seja, se eram dados quantitativos ou
para a democratização das oportunidades de acesso às qualitativos, discreto ou contínuos, tendo em vista, a
vagas [10]. ligação direta que há entre estas atividades e a escolha
A posteriori, através do SiSU (Sistema de Seleção adequado dos métodos que deverão ser aplicados a estes
Unificada) o uso dos resultados do exame pôde ser dados, realizando assim o processo de redução
aplicado para o acesso ao ensino superior por meio de uma dimensional.
fase única de seleção que combina com os próprios Obtendo neste momento do processo, uma visão
métodos das IFES. sobre os dados, nos faltava explorá-los. Assim, partimos
O SiSU é um sistema informatizado, no qual o para a fase de verificação da existência de alguns valores
Ministério da Educação (MEC) realiza gerência. É através que poderiam causar a perda de qualidade do nosso futuro
dele que IFES podem oferecer vagas para candidatos modelo, tratando valores nulos ou em branco, valores
participantes do Exame Nacional de Ensino Médio duplicados, etc.
(Enem). De maneira resumida, o processo para a inscrição
VI. A BASE DE DADOS
e concorrência as vagas apresentadas ao SiSU pelas IFES,
se dá da seguinte maneira: No final da etapa de inscrição, O processo de preparação, na maioria dos projetos de
o sistema seleciona automaticamente os candidatos mais mineração, compreende até 50% de todo o processo [15].
bem classificados em cada curso, de acordo com suas Para outros autores , esta etapa pode compreender até
notas no ENEM e eventuais ponderações. Serão 80% [16]. Sendo assim, executamos algumas das
considerados selecionados somente os candidatos principais atividades apresentadas por pesquisadores [17],
classificados dentro do número de vagas ofertadas pelo dando grande importância a esta fase, para que ao final
SiSU em cada curso, por modalidade de concorrência. [11] pudéssemos ter um modelo confiável, testado e validado.
Após as chamadas regulares do processo seletivo, o Na realização das principais tarefas de pré-
SiSU disponibilizará às instituições participantes uma processamento, obtivemos uma tabela com 954 amostras
Lista de espera a ser utilizada prioritariamente para com 14 atributos.
preenchimento das vagas eventualmente não ocupadas. Na Tabela 1 descrevemos os atributos da base de
Para participar da Lista de Espera do Sisu, o candidato dados utilizada:
Tabela 1: Atributos e seus domínios
5 de 8
Ordem Name Possíveis valores NOTA_CN - Nota do ENEM para o tópico Ciências
1 NOME_CAMPUS {M, RP, SF, X, SA} Naturais e suas tecnologias.
2 NOME_CURSO {E_COMP, DIR, PED, E_CIV, NOTA_M - Nota do ENEM para o tópico Matemática
QUIM, C_ECON, HIST, S_INF, e suas tecnologias.
C_SOC, ADM, GEO, L_ING,
NOTA_R - Nota do ENEM para o tópico Redação.
E_MIN, A_VIS, S_COL,
ST_OPCAO – Prioridade de escolha da Unifesspa no
ENG_QUIM, E_MEC, E_ELET,
E_MAT, L_PORT, CONTA, SiSU.
AGRO, C_BIO, MAT, FISICA} N_MODALIDADE – Algumas políticas
3 AREA_CURSOS {TECNO, HUM_2, HUM_1,
S_BIO}
4 TURNO {INT, NOT, VESP, MATU}
5 IDADE (14-52)
6 SEXO {M,F}
7 UF_INSCRITO {PA, TO, MA, CE, AM, BA,
MG, PE, DF, RJ, GO, PI, SP,
RN, RS, RR, AP, PR, MS}
8 NOTA_L (404.2-707)
9 NOTA_CH (502.4 – 756.6)
10 NOTA_CN (409.2 - 771)
11 NOTA_M (366.5 – 874.7)
12 NOTA_R (400 - 980)
13 ST_OPCAO {1-2}
14 N_MODALIDADE {EMM, PRETOS, RBINFSAL}
Temos ainda que, dependendo do tipo de área de curso, 6. NO_MUNICIPIO=MARABA 339 ==>
NOME_CAMPUS=MARABA UF_INSCRITO=PA 326 conf:(0.96)
os sexos masculino e feminino se inclinam naturalmente
7. AREA_CURSOS=HUMANISTICA_2 405 ==> UF_INSCRITO=PA
Tabela 2 – Exemplo de inclinação dos gêneros masculino e 381 conf:(0.94)
feminino em relação as áreas TECNOLOGIA e 8. NOME_CAMPUS=MARABA AREA_CURSOS=HUMANISTICA_2
SAUDE_BIOLOGICAS.
326 ==> UF_INSCRITO=PA 305 conf:(0.94)
9. NO_MODALIDADE_CONCORRENCIA=PRETOS 393 ==>
UF_INSCRITO=PA 363 conf:(0.92)
10. NOME_CAMPUS=MARABA SEXO=F 316 ==>
UF_INSCRITO=PA 291 conf:(0.92)
PredictiveApriori no WEKA com 10 regras:
1. AREA_CURSOS=TECNOLOGICA TURNO=INTEGRAL
UF_INSCRITO=PA 245 ==> NOME_CAMPUS=MARABA 245 acc:
leu, no máximo a INTRODUÇÃO. Deve-se, entretanto, evitar [8] Marcelo Damasceno - “Introdução a mineração de dados
[17] https://www.unifesspa.edu.br/index.php/sisu-unifesspa