Início Tecnologia Podcast: como obter valor de dados não estruturados

Podcast: como obter valor de dados não estruturados

4
0

 

 

Conversamos com o fundador da Nasuni e diretor de tecnologia (CTO) Andres Rodriguez sobre as características necessárias do armazenamento para fazer uso ideal de dados não estruturados na empresa, bem como o desafio de sua escala.

Ele diz que a nuvem mudou tudo, com o modelo de nuvem de trabalho fornecendo um plano para um único pool de armazenamento acessível de qualquer lugar.

Ele também diz que as empresas precisam classificar, marcar e curar dados para criar metadados ricos que podem aumentar o conhecimento corporativo e o acesso a dados, bem como acessá -los para inteligência artificial (AI), como via VIA Modelo Protocolo de Contexto (MCP) conectores.

Qual é a natureza dos obstáculos ao uso ideal de dados não estruturados na empresa?

É realmente tudo sobre escala. Quero dizer, se você voltar ao que são dados não estruturados, são todos os arquivos nos servidores de arquivos, o NAS [network-attached storage]etc.

É todo esse produto de trabalho. Então, se você é um escritório de arquitetura, são desenhos de design. Se você é uma empresa de fabricação, são desenhos e simulações de design. Tudo isso acaba nos arquivos, nos sistemas de arquivos da empresa.



E em todas as organizações, além disso, existem os documentos clássicos do escritório – Excel e PowerPoints e documentos do Word e PDFs. Esses são genéricos em todos os setores. E assim, você acaba com esse tipo de enorme repositório em potencial que pode ser extraído para agregar valor à organização.

Mas o desafio é: como você o acessa? Como você controla o acesso a ele ao mesmo tempo em que pode acessá -lo? E então, como você o conecta às ferramentas que fornecerão informações sobre esses dados? E fazer isso em escala é um desafio realmente formidável.

Então, o que os clientes precisam da maneira como os dados não estruturados são armazenados para que possam obter o máximo de informações possível?

A primeira coisa é que há tanto nas organizações que o que acaba acontecendo com as abordagens tradicionais é que você acaba com muitos silos de dados. Você sabe, os dados são armazenados em dispositivos, os dispositivos estão por todo o lado, etc.

Se for uma grande organização, pode haver diferentes locais geográficos onde os funcionários estão localizados e precisam de acesso de alto desempenho aos arquivos nesses locais. Então você acaba construindo silos para eles.

Pode ser apenas capacidade. Você fica sem capacidade em um servidor de arquivos, para implantar outro e outro e acaba com esse número incrível de servidores de arquivos. Portanto, quando você procura fazer coisas valiosas com os dados, percebe que se tornou impossível porque os dados estão em tantos silos diferentes, e é difícil chegar aos silos e agregá -los de qualquer tipo de maneira lógica.

A nuvem mudou tudo isso. Muitas organizações, especialmente grandes organizações que consolidaram seus dados não estruturados, seus dados de arquivo, na nuvem, perceberam esse enorme ganho, que é que os dados agora são consolidados em um espaço lógico que é infinitamente escalável e está disponível em níveis muito altos de desempenho de qualquer lugar do mundo.

A nuvem é infinita e a nuvem está em toda parte. E assim, essa é uma peça fundamental incrível para que eles possam explorar esse repositório de dados, esse repositório de dados não estruturado e coletar informações dos dados.

Quais tecnologias sustentam o uso ideal de dados não estruturados para os clientes, especialmente nesta era da IA?

Eu acho que existem várias peças.

No nível fundamental, você deseja tecnologia que permita a consolidação do NAS. Uma de nossas especialidades é fornecer esse tipo de NAS, ativado com a nuvem, que oferece escala e alto desempenho em qualquer lugar que você desejar. Esse é o primeiro bloco de construção.

Em seguida, em cima desse bloco, você precisa ter ferramentas de gerenciamento de dados não estruturadas que permitam tomar esse repositório enorme e fazê -lo corretamente em escala.

Para tudo o que estou falando, você está lutando contra um vento em escala, então precisa ter a tecnologia que permita chegar a centenas de milhões ou bilhões de arquivos e petabytes de armazenamento; caso contrário, você acabará sendo prejudicado em seus esforços pela escala pura do problema.

Portanto, nesta próxima camada de gerenciamento de dados não estruturado, você deseja ter ferramentas muito escaláveis ​​que permitam classificar dados, marcar dados, definir controles de acesso em nível global para os dados – em outras palavras, selecione os dados.

Quero dizer, se você olhar para o que as pessoas estão tentando fazer agora com a IA e obtendo idéias da IA, o fracasso da maioria desses projetos pode ser atribuído à falta de dados de qualidade suficientes para o LLMS [large language models]. Na escola de engenharia, eles costumavam nos ensinar, você coloca o lixo em um modelo, tira lixo de um modelo.

A primeira prioridade é limpar os dados que estão entrando em seus modelos. Isso significa ferramentas que permitem fazer isso em escala com os dados não estruturados regulares que sua organização está produzindo, para que, à medida que a organização continue evoluindo, esse conjunto de dados seja atualizado automaticamente.

Não porque você está fazendo algum tipo especial de elevação e esforço, mas porque você já configurou os pipelines e todos os sistemas estão limpando automaticamente os dados e disponibilizando os dados para os modelos de aprendizado de máquina.

É assim que você obtém um sistema que não funciona apenas uma vez quando você está executando o projeto, mas adiciona informações à organização continuamente.

E assim, a última camada é esse tipo de plug-in de uso geral em todos os modelos LLM disponíveis. Não haverá um único que atenda a todas as suas necessidades.

Você precisa ter um tipo de hub que permita que você se conecte. O termo que as pessoas estão usando agora são as interfaces do MCP que oferecem acesso padrão a diferentes modelos. Esse tipo de padronização no nível dos modelos é crucial porque o conjunto de dados não vai mudar.

Quero dizer, isso vai mudar quando os trabalhadores mudarem, mas não mudará com base no modelo que você está usando. Você deve ser capaz de conectar qualquer modelo mais adequado à meta que você está tentando alcançar.

E se não funcionar, ou se você deseja uma atualização, ou se deseja mudar de fornecedores, precisará alterar isso. É o que chamamos de encadernação tardia e, mais tarde, no projeto, você precisa tomar essa decisão.

E então, é claro, você precisa fechar o loop e ver através de algum tipo de relatório de interface – coisas como o Tableau – as idéias que você está recebendo dos dados.

O que nossos clientes normalmente querem fazer é analisar os dados e a estimativa do projeto, este projeto será pontual? Vai estar dentro do orçamento com base em sinais provenientes dos dados não estruturados?

Ou você deseja poder cumprir um nível mais alto de conhecimento. Talvez você queira entender não apenas o que está nos arquivos, mas como os usuários finais interagem com esses arquivos, como esses arquivos mudaram com o tempo. Isso pode fornecer informações enormes sobre o comportamento de seus dados não estruturados e como sua organização está usando ou não esses dados.

Então, é realmente sobre a integração dessas três camadas; A consolidação do NAS fundamental ou a camada de consolidação de dados não estruturada, que trata de armazenamento e garantir que os dados sejam protegidos, certificando -se de ter capacidade e alto desempenho. Acima disso, é uma camada de gerenciamento de dados não estruturada que permite curar os dados e prepará -los para que você os disponibilize para a terceira camada, que é a interface para todos os modelos de aprendizado de máquina.

Eu acho que a parte da camada de curadoria e classificação das coisas é sobre os metadados. Seria esse o caso?

Isso é correto.

Às vezes, você pode aproveitar os dados para criar metadados, mas as regras sempre são baseadas em metadados.

Então, a ideia é que você precisa ter uma estrutura rica. É por isso que a primeira camada, a consolidação do NAS, é tão importante.

É porque você precisa de uma estrutura rica em seu sistema de arquivos que permita anotar seus dados com novos metadados para permitir que as regras sejam definidas com base nesses metadados que controlam a curadoria, o comportamento dos dados não estruturados.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui