
(Tookitook/Shutterstock)
Levante a mão se você já ouviu falar de dados não estruturados. Agora levante a mão se você realmente entender seu valor e poder. Se eu fosse uma pessoa aposta, diria que havia menos mãos levantadas para a segunda declaração do que a primeira. E o que é particularmente interessante sobre esse fato preocupante é que os dados não estruturados não são novos e, no entanto, se tornou um tópico quente para líderes de tecnologia e CTOs ao longo de 2025.
Vejamos como chegamos aqui e como os CTOs corporativos podem dimensionar a IA com confiança depois de estabelecer uma base robusta para governar dados não estruturados em toda a organização.
Uma retrospectiva do valor dos dados não estruturados: 2019 vs 2023 vs 2025
Em 2019, a Deloitte lançou um Relatório e pesquisa aprofundados Isso revelou apenas 18% das organizações relataram poder aproveitar os dados não estruturados. Quando você considera o fato de que 80-90% dos dados não são estruturados (por exemplo, texto, vídeo, áudio e mídias sociais), isso destaca que havia-e até certo ponto ainda é-um recurso inexplorado que as empresas eram e não têm certeza de como se aproveitar.
O relatório da Deloitte também revelou algumas outras descobertas interessantes: 64% das organizações relataram confiar em dados estruturados de recursos/sistemas internos. Por outro lado, de acordo com o mesmo relatório, os executivos que disseram que os dados não estruturados são uma das fontes de insights mais valiosas têm 24% mais probabilities de exceder suas metas de negócios. As empresas que podem identificar e ativar seus dados não estruturados ultrapassarão aqueles que não podem, pois a IA se torna essencial para a estratégia de negócios.
No entanto, antes que você possa ter iniciativas bem -sucedidas e exceder as metas de negócios, você deve enfrentar onde os desafios estão dentro da sua empresa. De acordo com um 2023 Relatório IDCmais da metade dos líderes corporativos dizem que os dados não estruturados permanecem principalmente em um silo, e menos da metade das informações é realmente compartilhada entre funcionários ou sistemas. Além disso, para dois em cada cinco líderes corporativos, a maioria dos dados que suas lojas de sua empresa são usadas apenas uma vez e depois deixadas não acesos.
Nos últimos dois anos, testemunhamos avanços rápidos em grandes modelos de idiomas (LLMS). À medida que esses modelos se tornam cada vez mais poderosos – e mais comoditizados – a verdadeira vantagem competitiva para as empresas estará na qual a eficácia elas aproveitam seus dados internos. O conteúdo não estruturado forma a base dos sistemas modernos de IA, tornando essencial que as organizações construam uma forte infraestrutura de dados não estruturados para obter sucesso na period orientada à IA.
É isso que queremos dizer com uma base de dados não estruturada: a capacidade de as empresas identificarem rapidamente quais dados não estruturados existem em toda a organização, avaliam sua qualidade, sensibilidade e segurança, enriquecem e contextualizam-o para melhorar o desempenho da IA e, finalmente, criar um sistema governado para gerar e manter produtos de dados de alta qualidade em escala.
Em 2025, dados não estruturados são tanto sobre qualidade quanto sobre quantidade. “Qualidade” no contexto de dados não estruturados permanece em grande parte território desconhecido. As empresas precisam de estruturas claras para avaliar dimensões como relevância, frescura e duplicação. Nos últimos seis anos, o quantity e a variedade de dados não estruturados – e o número de aplicativos de IA que geram ou dependem – explodiram. Muitos o chamaram de maior e mais valiosa fonte de dados dentro de uma organização, e eu concordo – especialmente à medida que a IA se torna cada vez mais central na maneira como as empresas operam. Aqui está o porquê.
Dados não estruturados de alta qualidade para a IA: o que as empresas não podem se dar ao luxo de errar em 2025 e além
Quando dados de baixa qualidade entram nos modelos de IA, eles levam a um novo conjunto de problemas: duplicadosAssim, imprecisõesAssim, informações desatualizadase Alucinações Isso prejudica a confiabilidade, a confiança e a confiança geral.
Existem diferentes abordagens para resolver isso – um ser para evitar esses problemas antes que eles aconteçam. No entanto, aqui é onde as empresas devem concentrar seus esforços no mundo digital de hoje.
- Comece com qualidade: Se seu conteúdo for inconsistente, desatualizado ou cheio de ruído, sua IA também será. Isso significa insights não confiáveis, más decisões e experiências de clientes que caem. O conteúdo limpo e de alta qualidade é não negociável.
- Dê o contexto: Os dados não estruturados são valiosos apenas quando estão conectados ao seu negócio. Um contrato significa algo diferente do Authorized do que a aquisição. O mesmo vale para ingressos de suporte ou avaliações de clientes. A IA não pode entregar sem entender quem, o quê e por que por trás do conteúdo.
- Automatize o que importa – liberte seus especialistas: Os dados não estruturados são valiosos apenas quando são contextualizados corretamente – geralmente através da adição de metadados de negócios. Hoje, hoje, muitas empresas confiam fortemente em especialistas em domínio para rotular manualmente os documentos e definir taxonomias, que são lentas, caras e fundamentalmente indescritíveis. Para desbloquear o valor whole do conteúdo não estruturado de IA e pesquisa, as empresas precisam se inclinar para a automação nativa genai-acelerar o enriquecimento de metadados, mantendo a entrada de especialistas focada onde mais importa.
- Governar agora – não mais tarde: Se você não está governando seu conteúdo não estruturado, está deixando a porta aberta para alucinações de IA, lacunas de conformidade e riscos de segurança. As empresas mais inteligentes já estão estendendo seus programas de governança de dados para cobrir arquivos, documentos, gravações e muito mais.
Conclusão: os dados não estruturados têm potencial maciço, mas apenas se você estiver pronto para governá -los. Na period da AI de hoje, ignorar não é apenas uma oportunidade perdida – é um risco competitivo.
Sobre o autor: Felix van de Maele é o co-fundador e CEO da Collibrauma empresa de inteligência de dados. Antes de co-fundir Collibra em 2008, Van De Maele atuou como pesquisador no Laboratório de Pesquisa de Tecnologia e Aplicações de Semântica (Starlab) no Vrije Universiteit Bruxel, onde se concentrou em rastreadores focados na ontologia para a Internet semântica e a integração de dados semânticos.
Itens relacionados:
Tocando nos dados não estruturados Goldmine for Enterprise em 2025