Minerando Educação na base de CNPJs da Receita

Insights sobre a rede privada de educação brasileira - parte 0

Atualizado em 01 de dezembro de 2019

Como trabalho final para a disciplina de Ciência de Dados Aplicada (CDA) no Instituto de Matemática Pura e Aplicada (IMPA), resolvi proceder uma análise sobre os dados públicos de CNPJ disponibilizados pela Receita Federal do Brasil. O objetivo é fazer uma análise das conexões dentro da rede privada de ensino brasileira, tanto sob a perspectiva das empresas, quanto dos seus sócios.

Dados da base pública de CNPJ podem ser encontrados neste link

Os passos, bem como as descobertas realizadas ao longo deste trabalho estão organizados nesta série de artigos.

Reconstrução da Base de Dados

O primeiro desafio é reconstruir a base de dados completa. Por conter muitos registros, a Receita Federal preferiu segmentá-la em diversos arquivos, que devem ser descompactados, lidos e reunidos. Na página de download, consta o layout dos dados, que além de descrever como os arquivos devem ser lidos, funciona como um dicionário dos dados.

Felizmente, não precisei construir uma solução para esta etapa, graças a um projeto disponibilizado pelo usuário @fabioserpa no Github. O repositório contém um programa em Python que realiza a reconstrução da base de dados a partir dos arquivos separados e compactados. Apenas precisei escrever um script para realizar o download de todos os arquivos e executar o programa em questão, que funcionou muito bem!

Ao final do processo, eu dispunha de 3 arquivos CSV: um com os dados de CNPJs (empresas), outro relativo aos sócios e um terceiro com a listagem de todos os códigos CNAE secundários das empresas (no primeiro arquivo há apenas a atividade principal). Tudo isso em cerca de 17GB de dados.

Minerando Educação

Eu já tinha em mente a ideia de olhar especificamente para empresas de Educação, devido ao meu interesse pela área e pela atividade de ensino. Aliado a isto, há a possibilidade de que este trabalho gere resultados mais impactantes em conjunto com as análises que a Kizzy já vem conduzindo sobre os microdados do ENEM. Com essa perspectiva em mente, resolvi encarar o desafio e a produção de resultados para a disciplina de CDA seria o teste ideal.

Fazer essa análise setorial também facilita o trabalho com os dados. A base completa não cabe na memória de uma vez, mas o resultado filtrado sobre Educação, talvez coubesse. Para realizar este filtro, resolvi investigar a partir do Código Nacional de Atividade Econômica (CNAE). Cada CNPJ possui um CNAE Fiscal (principal) e pode ter vários CNAEs secundários. Os código enquadrados como Educação iniciam com 85 e cada dígito subsequente especifica um tipo de atividade como, por exemplo, ensino médio, superior etc. Após alguns momentos de exploração, prossegui da seguinte maneira:

  1. Filtragem de todos os CNPJ cujo CNAE Fiscal (atividade principal) estivesse enquadrado como educação.
  2. Filtragem de todos os CNAEs secundários enquadrados como Educação.
  3. Filtragem de todos os CNPJ que possuem ao menos 1 CNAE secundário enquadrado como educação.
  4. Codificação do tipo de atividade de ensino como uma característica (feature) dos CNPJs.
  5. Seleção de todos os sócios das empresas com algum CNAE em Educação.

Após esses passos, exportei 3 novos arquivos com as seguintes características:

edu\_empresas\__cnaes.csv
  • CNPJ
  • Matriz ou Filial
  • Razão Social
  • Nome Fantasia
  • Situação de atividade
  • ‘data_situacao’,
  • ‘motivo_situacao’
  • ‘nmcidadeexterior’,
  • ‘cod_pais’,
  • ‘nome_pais’,
  • ‘codnatjuridica’,
  • ‘datainicioativ’,
  • ‘cnae_fiscal’,
  • ‘tipo_logradouro’,
  • ‘logradouro’,
  • ‘numero’,
  • ‘complemento’,
  • ‘bairro’,
  • ‘cep’,
  • ‘uf’,
  • ‘cod_municipio’,
  • ‘municipio’,
  • ‘email’,
  • ‘qualif_resp’,
  • ‘capital_social’,
  • ‘porte’,
  • ‘opc_simples’,
  • ‘dataopcsimples’,
  • ‘dataexcsimples’,
  • ‘opc_mei’,
  • ‘sit_especial’
  • ‘datasitespecial’
  • 851
  • 852
  • 853
  • 854
  • 855
  • 859
edu_socios.csv
  • ‘cnpj’,
  • ‘tipo_socio’,
  • ‘nome_socio’,
  • ‘cnpjcpfsocio’,
  • ‘cod_qualificacao’,
  • ‘perc_capital’,
  • ‘data_entrada’,
  • ‘codpaisext’,
  • ‘nomepaisext’,
  • ‘cpf_repres’,
  • ‘nome_repres’,
  • ‘codqualifrepres’
edu_cnaes.csv
  • CNPJ
  • Ordem do CNAE
  • CNAE

O significado dos CNAEs estão disponíveis no portal da Comissão Nacional de Classificação (CONCLA) do Instituto Brasileiro de Geografia e Estatística (IBGE).

CNAEs de Educação (Fonte: CONCLA, IBGE)

Os CNAEs de educação foram codificados como números inteiros representando a quantidade de vezes que algum CNAE com aqueles três dígitos iniciais aparece no registro do CNPJ (principal ou secundário). A possibilidade de aparecer mais de uma vez vem do fato de que algumas dessas divisões apresentam várias subdivisões. por exemplo, o código 851 tem uma subdivisão para creche, outra para pré-escola e uma terceira para ensino fundamental. Se um CNPJ declarar que realiza as três atividades, terá, portanto, o valor 3 na coluna 851.

Resultados e Descobertas

Apesar de trabalhosos e extremamente necessário, este processo inicial não é tão informativo. O mais importante nesse momento é verificar o que há disponível na base de dados, ter uma noção do que pode ser necessário para o trabalho e tentar estruturar os dados de uma maneira que facilite a condução do resto do trabalho. Um entendimento sobre os modelos de empresas e sociedades disponíveis no país, bem como da atribuição dos códigos de atividade econômica podem ajudar a formular hipóteses e traçar caminhos de investigação. À medida em que formos explorando os dados, vamos aprender mais e ter maior subsídio para novas transformações.

Da maior base que tínhamos inicialmente, a de empresas, ficamos apenas com uma fração de 370 MB dos mais de 12,5GB disponíveis. Apesar de termos adicionado 6 novas colunas aos dados, também houve a remoção de características como números de telefone e fax, que não vejo nenhum motivo, a priori, de interesse para este trabalho. Agora podemos prosseguir para os próximos passos com pouco menos de 500MB para destrinchar.

Publicado em 24 Nov 2019

Computer Vision Researcher | Changing perspectives of reality
Hallison Paz on Linkedin