No primeiro post sobre os microdados do Censo da Educação Superior, falei sobre as cidades e estados que mais atraem universitários de fora. Neste segundo post, discutirei mais a fundo este movimento migratório universitário, incluindo a elaboração de um rebusco mapa de fluxo migratório.
library(stringr) library(tidyr) library(magrittr) library(dplyr) library(feather) library(maptools) library(maps) library(geosphere) library(knitr) Importação dos dados Para plotar em um mapa os universitários que estudam em uma cidade diferente da que nasceram, precisamos de dois tipos de dados: - Dados espaciais dos municípios brasileiros;
Neste post, eu mostro como:
- Baixar dados de indicadores macroecômicos de todos os países usando a API do World Bank;
- Clusterizar países de acordo com esses indicadores usando o algoritmo k-means;
- O Brasil está mais próximo de Serra Leoa e Zimbábue que dos Estados Unidos e Noruega
library(WDI) # baixar os dados do World Bank library(magrittr) library(formattable) Importação dos dados Felizmente, o processo de importação dos dados do World Bank é feito de maneira automatizada pelo pacote WDI usando a função WDI().
Recentemente, discuti com um amigo meu que afirmou que Aracaju, cidade onde moramos, é uma capital universitária - ou seja, uma cidade que atrai muitos estudantes de fora -, que eu não acredito que seja verdade. Mas não há melhor maneira de responder a isso senão com análise de dados, não é mesmo?
library(data.table) library(dplyr) library(magrittr) library(gdata) library(feather) library(ggplot2) library(ggthemes) library(stringr) library(tidyr) library(microbenchmark) library(gridExtra) library(scales) library(cowplot) library(gtable) library(grid) library(ggrepel) setwd("/home/sillas/R/Projetos/CensoEducSuperior/Dados") Introdução Os dados que podem tirar essa dúvida, além de trazer a luz muitas outras informações interessantes, são os microdados do Censo da Educação Superior, disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, o Inep.
O objetivo deste segundo post da série sobre meta-análise de pacotes R é testar a utilização de diferentes pacotes voltados para a análise de redes sociais (SNA). Existem dezenas de opções disponíveis para se fazer esta análise e os usados neste post são:
Da Wikipedia:
As Redes Sociais consistem em estruturas que representam pessoas ou organizações (atores) e as relações entre si. A Análise de Redes Sociais perceciona as relações sociais em termos da Teoria de Redes.
Transparência (7): Os famosos Cargos Comissionados No quarto post da minha série sobre dados do Portal da Transparência, eu introduzi um tema interessante a ser olhado a fundo: os servidores cujo vínculo com o Estado é descrito como cargo comissionado. Vimos que, no Ceará, o salário médio de um servidor é muito alto. E nos outros estados?
library(ggplot2) library(dplyr) library(ggthemes) library(ggrepel) library(reshape2) df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15") cor1 <- "#C10534" #cor das barras Para começar, quais são os 10 tipos de vínculo mais comuns?
Transparência (6): Quem são os 1% mais ricos do funcionalismo público? Para quem não entendeu a referência.
library(ggplot2) library(dplyr) library(reshape2) library(lubridate) library(htmlTable) df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15") Você já teve curiosidade em saber quem são os funcionários públicos mais ricos do Brasil? O sexto post da série de artigos sobre dados do Portal da Transparência será dedicado a eles.
Primeiramente, quantos servidores compõem o 1%?
Transparência (5): Trabalhando com datas O dataset do Portal da Transparência traz três colunas relacionadas com datas: DATA_INGRESSO_CARGOFUNCAO, DATA_INGRESSO_ORGAO e DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO, as quais geram umas análises curiosas, principalmente se relacionadas com a variável salário.
library(treemap) library(dplyr) library(ggplot2) library(ggrepel) library(ggthemes) library(lubridate) df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15") Primeiro, as datas vêm neste formato:
df %>% select(DATA_INGRESSO_CARGOFUNCAO, DATA_INGRESSO_ORGAO, DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO) %>% head() ## DATA_INGRESSO_CARGOFUNCAO DATA_INGRESSO_ORGAO ## 1 01/07/2006 01/01/1984 ## 2 22/10/2014 20/10/2014 ## 3 <NA> 01/08/2015 ## 4 30/11/2014 03/09/2014 ## 5 19/05/2010 19/05/2010 ## 6 02/02/2009 30/12/2008 ## DATA_DIPLOMA_INGRESSO_SERVICOPUBLICO ## 1 01/06/1984 ## 2 17/02/2010 ## 3 01/08/2015 ## 4 28/06/2006 ## 5 19/05/2010 ## 6 30/12/2008 O R, nativamente, não reconhece este formato como data e sim como texto.
Transparência(4): Análise de salários usando Treemaps library(treemap) library(dplyr) library(ggplot2) library(ggrepel) library(ggthemes) df <- read.csv2("/home/sillas/R/data/transparenciaComSalarios.csv", stringsAsFactors = FALSE, fileEncoding = "ISO-8859-15") Para este post, continuaremos analisando os salários dos servidores federais, mas agora usando uma visualização chamada Treemap ou Mapa de árvores.
Por exemplo, o gráfico abaixo compara diferentes órgãos públicos de acordo com a quantidade de servidores e o salário médio dos mesmos.
aggSetor <-df %>% group_by(ORG_LOTACAO) %>% summarise(quantidade = n(), salarioMedio = median(SALARIO)) aggSetor$escala <- scale(aggSetor$salarioMedio) #necessário para criar valores negativos para deixar as disparidades mais evidentes x <- treemap(aggSetor, index = "ORG_LOTACAO", vSize = "quantidade", vColor = "escala", type = "value", palette = "-RdGy", lowerbound.
library(ggplot) library(ggrepel) library(ggthemes) library(dplyr) Aviso Este post funciona como um adendo ao anterior, portanto recomendo o ler antes de prosseguir com a leitura.
Assim que eu publiquei o último post, percebi que perdi a oportunidade de analisar o quão diferente são as distribuições dos salários nos estados brasileiros e não só nas regiões. Voltando ao nosso dataset, que dessa vez carrego apenas as colunas de salários e UFs:
Transparência (2): Qual o salário médio dos servidores federais? Este é o segundo post da série de artigos sobre dados do Portal Transparência relativos a de servidores federais. Agora, o foco são os salários.
Outra pequena mudança é que, para os gráficos deste post, ao invés de usar o tema theme_economist(), usarei o theme_wsj(), também incluso no package ggthemes.
library(ggplot2) library(stringr) library(ggthemes) library(dplyr) library(ggrepel) Por alguma razão além do meu entendimento, o Portal da Transparência arquiva os dados de salários em um arquivo separado do principal.