IBGIA - Instituto Brasileiro de Governança em Inteligência Artificial
WP-2026-019

IA e Soberania Tecnológica no Brasil: Dependência de Infraestrutura, Nuvem e Modelos Estrangeiros

Thiago Almeida, André NakamuraMarço 2026IBGIA Working Paper Series

IA e Soberania Tecnológica no Brasil: Dependência de Infraestrutura, Nuvem e Modelos Estrangeiros

Instituto Brasileiro de Governança em IA (IBGIA) Série Working Papers | Março 2026 Autores: Thiago Almeida, André Nakamura


Resumo

O Brasil enfrenta uma dependência estrutural crítica na cadeia de valor da inteligência artificial: 94% da computação em nuvem usada por organizações brasileiras é provida por hyperscalers norte-americanos (AWS, Azure, GCP); 100% dos modelos de linguagem de grande escala (LLMs) com capacidade avançada de raciocínio são desenvolvidos fora do país; e 78% dos dados de cidadãos brasileiros processados por sistemas de IA transitam por servidores localizados nos EUA ou na União Europeia. Esta dependência cria riscos soberanos concretos: vulnerabilidade a sanções geopolíticas, extraterritorialidade de dados sensíveis, assimetria tecnológica na negociação regulatória e risco de "colonialismo algorítmico" em que valores e vieses culturais estrangeiros são embarcados nos sistemas que mediam a vida dos brasileiros.

Este working paper mapeia as três camadas da dependência tecnológica em IA — infraestrutura de computação, modelos fundacionais e dados de treinamento —, analisa as iniciativas brasileiras existentes (BNDES, RNP, MCTI) e propõe a Estratégia Nacional de Soberania em IA (ENSA-IA), composta por quatro vetores: capacidade computacional soberana, ecossistema de modelos nacionais, regulação de transferência de dados e programa de talentos.

Palavras-chave: Soberania Digital, Computação em Nuvem, LLMs, Infraestrutura de IA, Colonialismo Algorítmico, Política Industrial de IA, BNDES, Dados Transfronteiriços


1. Introdução: O Paradoxo da Modernização Dependente

O Brasil é simultaneamente um dos países mais digitalizados do mundo — 85% da população com acesso à internet, líder global em mobile banking, 220 milhões de usuários em plataformas digitais — e um dos mais tecnologicamente dependentes no que se refere à infraestrutura subjacente que sustenta essa digitalização.

Nos anos 1970, a política de informática brasileira (Lei 7.232/1984) tentou construir uma indústria nacional de hardware com reserva de mercado. O experimento fracassou na competição internacional e foi desmantelado no governo Collor. A lição colhida foi, em grande parte, equivocada: não que o Estado não devesse ter estratégia industrial para tecnologia, mas que a estratégia adotada foi mal calibrada.

Três décadas depois, o Brasil enfrenta uma dependência incomparavelmente mais profunda — não mais em hardware, mas na camada mais estratégica do ecossistema tecnológico do século XXI: a infraestrutura de inteligência artificial. E desta vez, o risco não é apenas econômico, mas geopolítico, regulatório e cultural.


2. Mapeamento da Dependência em Três Camadas

2.1 Camada 1 — Infraestrutura de Computação (Cloud e GPUs)

2.1.1 Concentração de Mercado de Nuvem

O mercado de computação em nuvem no Brasil é dominado por três provedores norte-americanos:

| Provedor | Market share (BR, 2025) | Sede | Datacenters no Brasil | |----------|------------------------|------|-----------------------| | AWS (Amazon) | 38% | EUA | São Paulo (1 AZ) | | Azure (Microsoft) | 31% | EUA | São Paulo, Rio (2 AZs) | | GCP (Google) | 19% | EUA | São Paulo (1 AZ) | | Outros (Oracle, IBM, nacionais) | 12% | Variado | Vários |

Dependência crítica: Mesmo quando os dados estão fisicamente em datacenters brasileiros, a infraestrutura de gerenciamento, os sistemas operacionais dos hypervisors, os orquestradores de containers (Kubernetes) e as ferramentas de IA/ML (SageMaker, Azure ML, Vertex AI) são proprietários, controlados por empresas sujeitas à legislação norte-americana — incluindo o CLOUD Act (2018), que permite ao governo dos EUA acessar dados em servidores de empresas americanas em qualquer país.

2.1.2 Capacidade Computacional para Treinamento de IA

O treinamento de modelos de IA de fronteira requer clusters de GPUs de alto desempenho (H100, A100 da NVIDIA). O Brasil não possui:

  • Clusters de treinamento de escala nacional (>1.000 GPUs)
  • Reservas estratégicas de GPUs para pesquisa pública
  • Política de aquisição de aceleradoras de hardware

Comparação regional:

  • EUA: Microsoft, Google, Meta cada um com 100.000+ H100s; NAIRR (National AI Research Resource) com acesso público
  • EU: EuroHPC JU com 2 exaflop de capacidade de IA distribuída em 6 países
  • China: mais de 50.000 GPUs em datacenters de IA pública (estimativa)
  • Brasil: RNP com ~200 GPUs (insuficiente para modelos de fronteira)

2.2 Camada 2 — Modelos Fundacionais

2.2.1 O Oligopólio dos LLMs

Os modelos de linguagem que mediam crescentemente interações com cidadãos brasileiros são desenvolvidos por um grupo restrito de empresas:

Modelos proprietários dominantes:

  • GPT-4/o1 (OpenAI/Microsoft) — EUA
  • Claude 3/4 (Anthropic) — EUA
  • Gemini (Google DeepMind) — EUA
  • Llama (Meta) — EUA (open weights, mas treinado em dados primariamente em inglês)

Iniciativas brasileiras existentes:

  • Maritaca AI (Sabiá): startup brasileira com modelos especializados em português; contexto amplo para documentos jurídicos
  • LINCE (UFMG): modelo de linguagem acadêmico em português
  • Tucano (C4AI-USP): família de modelos bilíngues PT/EN desenvolvida pelo Centro de IA da USP com apoio da Samsung e FAPESP

Gap: Nenhum modelo brasileiro tem desempenho equivalente aos modelos de fronteira em tarefas complexas de raciocínio, análise jurídica ou apoio à tomada de decisão em contextos críticos.

2.2.2 Riscos do Viés Cultural Estrangeiro

Modelos treinados predominantemente em inglês, com dados principalmente americanos e europeus, carregam vieses culturais que afetam aplicações brasileiras:

  • Viés jurídico: modelos treinados em common law produzem análises inadequadas para o direito civil brasileiro
  • Viés histórico: narrativas sobre colonialismo, escravidão e desigualdade racial no Brasil são sistematicamente subestimadas ou distorcidas
  • Viés linguístico: português brasileiro tem características morfossintáticas distintas do europeu; modelos treinados em PT-PT geram erros em contextos BR
  • Viés de valores: definições de "conteúdo seguro", moderação e ética embutidas pelos RLHF dos modelos refletem valores norte-americanos, não necessariamente compatíveis com o contexto brasileiro

2.3 Camada 3 — Dados de Treinamento

2.3.1 Fluxo Transfronteiriço de Dados Brasileiros

Estima-se que:

  • 78% dos dados de cidadãos brasileiros processados por sistemas de IA transitam por servidores fora do Brasil
  • Plataformas de redes sociais (Meta, TikTok, X) treinam modelos com dados de usuários brasileiros sem remuneração ou controle nacional
  • Aplicativos de saúde enviam dados biométricos e de saúde mental a servidores nos EUA e Irlanda
  • Sistemas de vigilância urbana em cidades brasileiras usam modelos de reconhecimento facial treinados por empresas chinesas (Hikvision, Huawei) e americanas (Amazon Rekognition)

2.3.2 O Problema da Soberania de Dados

A LGPD regula o tratamento de dados pessoais, mas tem limitações no contexto de IA:

  • Permite transferência internacional para países "adequados" ou com garantias contratuais — sem exigir que os modelos treinados retornem ao Brasil
  • Não regula o uso de dados nacionais para treinamento de modelos estrangeiros que depois são licenciados ao Brasil
  • Não cria obrigação de localização de modelos críticos (saúde, segurança, finanças)

3. Análise de Risco Soberano

3.1 Risco Geopolítico

A dependência de infraestrutura norte-americana cria vulnerabilidades estratégicas documentadas:

Precedentes históricos:

  • 2014: EUA revelaram espionagem de comunicações da Petrobras e da presidente Dilma Rousseff via NSA
  • 2022: EUA revogaram acesso de empresas russas a serviços de nuvem após início da guerra na Ucrânia, paralisando operações digitais
  • 2023: restrições de exportação de chips semicondutores avançados afetaram países aliados dos EUA, incluindo alguns exportadores regionais de IA

Cenário de risco para o Brasil: Em um contexto de tensão geopolítica (disputas comerciais, sanções, conflitos regionais), o governo brasileiro poderia perder acesso a:

  • Infraestrutura de nuvem crítica (governo, saúde, finanças)
  • Modelos de IA usados em sistemas públicos
  • Licenças de software de segurança cibernética
  • Atualizações de sistemas operacionais e patches de segurança

3.2 Risco Regulatório

Extraterritorialidade e conflito de leis:

  • CLOUD Act permite ao governo dos EUA acessar dados em servidores americanos independentemente de onde estejam fisicamente
  • GDPR europeu pode conflitar com requisitos brasileiros de compartilhamento de dados com órgãos públicos
  • Empresas de IA americanas podem ser forçadas a cumprir Executive Orders sobre IA que conflitem com regulação brasileira

Assimetria na negociação regulatória:

  • Brasil não tem acesso a informações técnicas dos modelos que regulará
  • Dependência cria poder de barganha assimétrico em negociações sobre adequação de dados (art. 33 LGPD)
  • Sem capacidade de auditar modelos, fiscalização regulatória torna-se dependente de autodeclaração

3.3 Risco Econômico

Extração de valor sem retorno:

  • Dados brasileiros são usados para treinar modelos que são licenciados de volta ao Brasil com markup
  • Talento em IA migra para hubs internacionais (EUA, UK, Canadá) — "fuga de cérebros algorítmica"
  • Valor criado por consumidores brasileiros em plataformas digitais é capturado por acionistas estrangeiros

Estimativas de impacto:

  • Mercado de IA no Brasil deve atingir R$ 42 bilhões até 2030 (IDC Brasil, 2025)
  • Sem política industrial, estima-se que 89% deste valor será capturado por empresas estrangeiras
  • Oportunidade perdida: R$ 37 bilhões em valor não apropriado domesticamente por década

4. Iniciativas Brasileiras Existentes: Diagnóstico

4.1 Programa Brasileiro de IA (PBIA) — MCTI

O PBIA (2021-2024) investiu R$ 1,7 bilhão em IA, distribuídos entre:

  • Formação de pesquisadores: R$ 680 milhões (CNPq/CAPES)
  • Infraestrutura de pesquisa (RNP, LNCC): R$ 420 milhões
  • Aplicações em saúde e agricultura: R$ 380 milhões
  • Regulação e ética: R$ 220 milhões

Lacunas identificadas:

  • Sem investimento em capacidade computacional de fronteira para treinamento de modelos
  • Sem estratégia de desenvolvimento de modelos fundacionais nacionais
  • Fragmentação entre ministérios (MCTI, MCOM, MDIC) sem coordenação estratégica

4.2 RNP (Rede Nacional de Pesquisa)

A RNP conecta 800 instituições de ensino e pesquisa com backbone de 27.000 km. Possui infraestrutura de computação científica, mas insuficiente para IA de fronteira:

  • CloudRNP: serviço de nuvem para pesquisa, ~500 VMs disponíveis
  • SINAPAD: sistema nacional de alto desempenho, ~8 petaflops
  • Necessidade estimada para LLM de fronteira: 100-1.000 petaflops

4.3 BNDES e Iniciativas de Financiamento

  • BNDES Mais Inovação: linha de R$ 20 bilhões para tecnologia, com foco em semicondutores e IA
  • Fundo Brasil de IA: em discussão no MCTI, R$ 2 bilhões propostos
  • EMBRAPII em IA: centros de competência em IA industrial, 12 unidades

Limitação: Financiamento insuficiente e sem direcionamento estratégico para soberania em modelos fundacionais.


5. Estratégia Nacional de Soberania em IA (ENSA-IA)

5.1 Vetor 1 — Capacidade Computacional Soberana

Proposta: Programa Nacional de Infraestrutura de IA (PNIA)

Objetivos para 2030:

  • Cluster nacional de treinamento de IA com 10.000 GPUs de alta performance (estimativa: R$ 8-12 bilhões)
  • Pelo menos 2 datacenters soberanos (federal + regional) com certificação de segurança
  • Plataforma pública de computação para pesquisa acadêmica (1.000 GPUs em 2027, 5.000 em 2030)

Modelo de financiamento:

  • BNDES: R$ 5 bilhões em debêntures incentivadas para infraestrutura
  • Fundo Soberano do Brasil: R$ 3 bilhões em equity em joint ventures com parceiros estratégicos
  • Concessão: parceria público-privada para operação com garantia de acesso público a 30% da capacidade

Inspiração: EuroHPC JU (Europa), NAIRR (EUA), National Computing Grid (China).

5.2 Vetor 2 — Ecossistema de Modelos Fundacionais Nacionais

Proposta: Programa de Modelos Fundacionais Brasileiros (PMFB)

Objetivos:

  • Modelo fundacional em português brasileiro de nível internacional até 2028 (equivalente a GPT-4 em benchmarks PT-BR)
  • Modelos especializados em domínios críticos: direito brasileiro, medicina tropical, agricultura tropical, administração pública
  • Política de open source para modelos financiados com recursos públicos

Mecanismo:

  • Consórcio público-privado liderado por MCTI, com USP/Unicamp/UFMG, Embrapa, BNDES e startups
  • Criação do Instituto Nacional de IA (INAIA) como organização de P&D com governança independente
  • Licença de dados para treinamento: framework brasileiro de licença coletiva (proposta WP-2026-017)

Dados para treinamento:

  • Corpus Jurídico Brasileiro: 50 milhões de decisões judiciais, legislação e doutrina (já parcialmente disponível via JusCode)
  • Corpus de Saúde SUS: anonimização e licenciamento de dados do DATASUS para treinamento (com RIPD obrigatório)
  • Corpus da Imprensa Brasileira: acordo com associações de editores para licença de treinamento com remuneração

5.3 Vetor 3 — Regulação de Transferência de Dados para IA

Proposta: Emendas à LGPD e ao PL 2338/2023

Emenda 1 — Princípio de Soberania de Dados de IA: Qualquer empresa que use dados pessoais de brasileiros para treinar ou aprimorar modelos de IA deve: a) Registrar o uso na ANPD com descrição técnica do modelo treinado b) Disponibilizar versão do modelo para licenciamento no mercado brasileiro em condições equivalentes às praticadas internacionalmente c) Pagar contribuição de 0,5% da receita gerada com o modelo no Brasil ao Fundo de Soberania em IA

Emenda 2 — Localização de Sistemas Críticos: Sistemas de IA de alto risco que processam dados de mais de 1 milhão de brasileiros devem: a) Ter modelos de inferência hospedados em território nacional ou em países com acordo de adequação mútua b) Manter cópias de segurança do modelo acessíveis a autoridades brasileiras para fins regulatórios e de continuidade

Emenda 3 — Auditabilidade Transfronteiriça: Empresas estrangeiras que oferecem sistemas de IA no Brasil devem: a) Designar representante legal no Brasil com poderes de auditoria b) Submeter-se a auditorias da ANPD mediante denúncia fundamentada c) Não invocar segredo comercial para se opor a auditorias regulatórias de sistemas de alto risco

5.4 Vetor 4 — Programa de Talentos em IA

Diagnóstico:

  • Brasil forma ~2.000 PhDs em computação por ano, mas perde 40% para o exterior
  • Salários em IA nos EUA são 5-8x maiores que no Brasil para o mesmo perfil
  • Startups brasileiras de IA são adquiridas por empresas estrangeiras antes de escalar

Proposta: Programa Nacional de Talentos em IA (PNTIA)

Componentes:

  • Bolsas de pesquisa IA: 1.000 bolsas PhD/PD de R$ 8.000/mês (vs. R$ 2.200 atual do CNPq) + moradia
  • Incentivo de retorno: benefício fiscal de 10 anos para pesquisadores de IA que retornam ao Brasil após pós-doutorado no exterior
  • Programa IA nas Universidades Públicas: 100 novas posições de professor em IA em universidades federais e estaduais até 2028
  • Lei da Startup de IA: regime tributário simplificado para startups de IA fundadas por pesquisadores acadêmicos brasileiros

6. Análise de Viabilidade e Precedentes Internacionais

6.1 Casos de Sucesso Comparados

França — Mistral AI: Com financiamento inicial de €105 milhões (incluindo participação pública via Bpifrance), a Mistral desenvolveu modelos de fronteira open source (Mistral-7B, Mixtral) competitivos com GPT-3.5. Hoje é avaliada em €6 bilhões e exporta tecnologia para a Europa. Lição: empresa nacional com financiamento público inteligente pode competir globalmente.

Emirados Árabes Unidos — Falcon: O Technology Innovation Institute (TII) do governo dos EAU desenvolveu a família Falcon de LLMs, hoje entre os modelos open source mais usados do mundo. Investimento: ~$300 milhões. Lição: país de renda média-alta pode desenvolver modelos fundacionais competitivos com investimento direcionado.

Índia — INDIAai: O governo indiano lançou plano de US$ 1,25 bilhão para IA nacional, incluindo R$ 860 milhões para infraestrutura computacional e desenvolvimento de modelos em 22 línguas indianas. Lição: países emergentes com diversidade linguística têm incentivo específico para desenvolver capacidade nacional.

6.2 Estimativas de Custo-Benefício para o Brasil

Cenário conservador de investimento público (2026-2030):

  • Infraestrutura: R$ 5 bilhões
  • Modelos fundacionais: R$ 2 bilhões
  • Talentos: R$ 1,5 bilhão
  • Regulação e governança: R$ 0,5 bilhão
  • Total: R$ 9 bilhões em 5 anos

Retorno estimado:

  • Captura adicional de valor no mercado de IA: R$ 8-15 bilhões/ano até 2030
  • Redução de dependência em compras governamentais: R$ 2 bilhões/ano
  • Criação de 50.000-80.000 empregos de alta qualificação
  • Multiplicador econômico estimado: 3-5x o investimento público

7. Conclusão

A soberania tecnológica em IA não é um objetivo xenófobo ou protecionista — é uma condição de poder participar como ator relevante, e não apenas como mercado consumidor, na governança global da inteligência artificial. Brasil que não tem capacidade computacional não pode regular efetivamente empresas de IA. Brasil sem modelos próprios não pode garantir que valores constitucionais brasileiros sejam incorporados nos sistemas que medeiam direitos de seus cidadãos. Brasil que exporta dados e importa modelos está em posição estruturalmente análoga à de quem exporta commodities e importa manufaturados.

A boa notícia é que a janela ainda está aberta. O mercado de IA ainda não está consolidado; modelos fundacionais open source criam oportunidades para países com capital humano qualificado; e o Brasil tem ativos únicos — maior mercado latino-americano, diversidade linguística e cultural, ecossistema de pesquisa robusto — que podem ser mobilizados com estratégia e investimento adequados.

A ENSA-IA proposta neste paper é ambiciosa, mas viável. A decisão de implementá-la ou não é, em última análise, uma decisão política sobre o tipo de país que o Brasil quer ser na era da inteligência artificial.


Referências Selecionadas

  • MCTI. Estratégia Brasileira de Inteligência Artificial (EBIA). 2021.
  • BNDES. Plano de Transição Digital e Tecnológica. 2025.
  • IDC Brasil. Mercado de IA no Brasil: Projeções 2025-2030. 2025.
  • European Commission. EuroHPC JU Annual Report 2024.
  • Technology Innovation Institute. Falcon: Open Foundation and Fine-Tuned Chat Models. 2023.
  • Government of India. IndiaAI Mission Implementation Plan. 2024.
  • OECD. AI Infrastructure and Compute: National Strategies. 2025.
  • Almeida, T.; Nakamura, A. Regulação de Modelos de Fundação no Brasil (WP-2026-014). IBGIA, 2026.

Sobre o IBGIA

O Instituto Brasileiro de Governança em IA (IBGIA) é uma organização independente dedicada à pesquisa e promoção da governança responsável de inteligência artificial no Brasil. Esta publicação integra a Série Working Papers do IBGIA.

Contato: [email protected] | Site: ibgia.org

CompartilharLinkedInWhatsApp