Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
Uma nova técnica de Universidade de Zhejiang e Grupo Alibaba fornece aos agentes do Modelo de Linguagem Grandes uma memória dinâmica, tornando -os mais eficientes e eficazes em tarefas complexas. A técnica, chamada MEMPfornece aos agentes uma “memória processual” que é atualizada continuamente à medida que ganham experiência, assim como os humanos aprendem com a prática.
O MEMP cria uma estrutura de aprendizado ao longo da vida, onde os agentes não precisam começar do zero para todas as novas tarefas. Em vez disso, eles se tornam progressivamente melhores e mais eficientes, à medida que encontram novas situações em ambientes do mundo actual, um requisito essencial para uma automação corporativa confiável.
O caso da memória processual em agentes de IA
Os agentes da LLM são promissores para automatizar processos de negócios complexos e de várias etapas. Na prática, porém, essas tarefas de longo horizonte podem ser frágeis. Os pesquisadores apontam que eventos imprevisíveis, como falhas de rede, alterações na interface do usuário ou esquemas de dados de mudança, podem inviabilizar todo o processo. Para os agentes atuais, isso geralmente significa começar de maneira alguma, o que pode ser demorado e caro.
Enquanto isso, muitas tarefas complexas, apesar das diferenças de superfície, compartilham comuns estruturais profundos. Em vez de reaprender esses padrões sempre, um agente deve ser capaz de extrair e reutilizar sua experiência de sucessos e falhas passados, apontam os pesquisadores. Isso requer uma “memória processual” específica, que em humanos é a memória de longo prazo responsável por habilidades como digitar ou andar de bicicleta, que se tornam automáticas com a prática.
Ai escala atinge seus limites
Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:
- Transformando energia em uma vantagem estratégica
- Arquitetagem Inferência eficiente para ganhos reais de rendimento
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Prenda seu lugar para ficar à frente:
Os sistemas de agentes atuais geralmente não têm essa capacidade. Seu conhecimento processual é tipicamente criado por desenvolvedores, armazenado em modelos de immediate rígidos ou incorporado nos parâmetros do modelo, que são caros e lentos para atualizar. Mesmo as estruturas existentes com a memória fornecem apenas abstrações grosseiras e não abordam adequadamente como as habilidades devem ser construídas, indexadas, corrigidas e eventualmente podadas sobre o ciclo de vida de um agente.
Consequentemente, os pesquisadores observam o papel deles“Não há maneira de quantificar com a eficiência um agente evolui seu repertório processual ou garantir que novas experiências melhorem em vez de corroer o desempenho”.
Como funciona o MEMP
O MEMP é uma estrutura agnóstica de tarefas que trata a memória processual como um componente principal a ser otimizado. Consiste em três estágios -chave que funcionam em um loop contínuo: construir, recuperar e atualizar a memória.
As memórias são construídas a partir de experiências passadas de um agente, ou “trajetórias”. Os pesquisadores exploraram o armazenamento dessas memórias em dois formatos: ações literalmente, passo a passo; ou destilando essas ações em abstrações de nível superior e tipo scripts. Para recuperar, o agente procura sua memória pela experiência passada mais relevante quando recebe uma nova tarefa. A equipe experimentou diferentes métodos, essa pesquisa de vetores, para corresponder à descrição da nova tarefa a perguntas anteriores ou extrair palavras -chave para encontrar o melhor ajuste.
O componente mais crítico é o mecanismo de atualização. O MEMP apresenta várias estratégias para garantir que a memória do agente evoluir. À medida que um agente conclui mais tarefas, sua memória pode ser atualizada simplesmente adicionando a nova experiência, filtrando apenas resultados bem -sucedidos ou, de maneira mais eficaz, refletindo sobre as falhas para corrigir e revisar a memória authentic.

Esse foco na memória dinâmica e em evolução coloca o MEMP dentro de um campo crescente de pesquisas destinadas a tornar os agentes de IA mais confiáveis para tarefas de longo prazo. O trabalho é paralelo a outros esforços, como o MEM0, que consolida informações importantes de longas conversas em fatos estruturados e gráficos de conhecimento para garantir a consistência. Da mesma forma, o A-MEM permite que os agentes criem e vinculem autonomamente “Notas de memória” a partir de suas interações, formando uma estrutura de conhecimento complexa ao longo do tempo.
No entanto, o co-autor Runnan Fang destaca uma distinção crítica entre o MEMP e outras estruturas.
“MEM0 e A-MEM são excelentes trabalhos … mas eles se concentram em lembrar o conteúdo saliente dentro de Uma única trajetória ou conversa ”, comentou Fang para VentureBeat. Em essência, eles ajudam um agente a lembrar“ o que ”aconteceu.“ Memp, por contraste, tem como alvo a memória processual de trajetória cruzada ”. Ele se concentra no conhecimento “como fazer” que pode ser generalizado em tarefas semelhantes, impedindo que o agente reexplique do zero.
“Ao destilar os fluxos de trabalho de sucesso anteriores em anteriores reutilizáveis processuais, o MEMP aumenta as taxas de sucesso e reduz as etapas”, acrescentou Fang. “Fundamentalmente, também introduzimos um mecanismo de atualização para que essa memória processual proceed melhorando – afinal, a prática também é perfeita para os agentes.”
Superando o problema do ‘Begin Chilly’
Embora o conceito de aprender com as trajetórias passadas seja poderoso, levanta uma questão prática: como um agente constrói sua memória inicial quando não há exemplos perfeitos para aprender? Os pesquisadores abordam esse problema de “início frio” com uma abordagem pragmática.
Fang explicou que os desenvolvedores podem primeiro definir uma métrica de avaliação robusta, em vez de exigir uma trajetória de ouro perfeita. Essa métrica, que pode ser baseada em regras ou mesmo outro LLM, obtém a qualidade do desempenho de um agente. “Uma vez que a métrica esteja em vigor, deixamos os modelos de ponta explorarem dentro do fluxo de trabalho do agente e reteremos as trajetórias que atingem as pontuações mais altas”, disse Fang. Esse processo aprimora rapidamente um conjunto inicial de memórias úteis, permitindo que um novo agente se atualize sem uma extensa programação guide.
MEMP em ação
Para testar a estrutura, a equipe implementou o MEMP em cima de LLMs poderosos como GPT-4O, Claude 3,5 sonetos e QWEN2.5, avaliando-os em tarefas complexas, como tarefas domésticas no benchmark Alfworld e em busca de informações no TravelPlanner. Os resultados mostraram que a construção e a recuperação da memória processual permitiu a um agente destilar e reutilizar sua experiência anterior de maneira eficaz.
Durante os testes, os agentes equipados com MEMP não apenas alcançaram taxas de sucesso mais altas, mas também se tornaram muito mais eficientes. Eles eliminaram exploração infrutífera e julgamento e erro, levando a uma redução substancial no número de etapas e no consumo de token necessário para concluir uma tarefa.

Uma das descobertas mais significativas para aplicativos corporativos é que a memória processual é transferível. Em um experimento, a memória processual gerada pelo poderosa GPT-4O foi dada a um modelo muito menor, QWEN2.5-14B. O modelo menor viu um impulso significativo no desempenho, melhorando sua taxa de sucesso e reduzindo as etapas necessárias para concluir as tarefas.
De acordo com Fang, isso funciona porque os modelos menores geralmente lidam bem com as ações simples e de uma etapa, mas vacilam quando se trata de planejamento e raciocínio de longo horizonte. A memória processual do modelo maior preenche efetivamente essa lacuna de capacidade. Isso sugere que o conhecimento pode ser adquirido usando um modelo de ponta e, em seguida, implantado em modelos menores e mais econômicos, sem perder os benefícios dessa experiência.
Para agentes verdadeiramente autônomos
Ao equipar agentes com mecanismos de atualização da memória, a estrutura do MEMP permite que eles construam e refinem continuamente seu conhecimento processual enquanto operam em um ambiente ao vivo. Os pesquisadores descobriram que isso dotou o agente de um “domínio contínuo, quase linear da tarefa”.
No entanto, o caminho para a autonomia complete exige superar outro obstáculo: muitas tarefas do mundo actual, como a produção de um relatório de pesquisa, não têm um sinal de sucesso simples. Para melhorar continuamente, um agente precisa saber se fez um bom trabalho. Fang diz que o futuro está em usar os próprios LLMs como juízes.
“Hoje frequentemente combinamos modelos poderosos com regras artesanais para calcular as pontuações de conclusão”, observa ele. “Isso funciona, mas as regras escritas à mão são quebradiças e difíceis de generalizar.”
Um LLM-AS-JUDGE poderia fornecer o suggestions diferenciado e de supervisão necessário para que um agente se auto-corteva em tarefas subjetivas e complexas. Isso tornaria todo o ciclo de aprendizado mais escalável e robusto, marcando um passo crítico para construir os trabalhadores resilientes, adaptáveis e verdadeiramente autônomos necessários para a sofisticada automação corporativa.
avots