MM - Feedback Loops

Conceito técnico de feedback: informação comunicada em resposta a uma ação

Na Teoria Geral de Sistemas (TGS), um Feedback Loop ocorre quando os outputs(informações) de um sistema afetam seus próprios comportamentos.

É a saída de informação afetando o próprio sistema
Pensei no arquivo de log, que registra uma informação (registro) das operações de uma determinada aplicação, onde podemos até programar para dar ‘print’ de xx se x ocorrer ou dar ‘print’ de yy se y ocorrer.

Existem 2 tipos básicos de Feedback Loops:
1 - Feedback Loop Equilibrador (Balancing) ou Negativos.
“Objetivo: EQUILÍBRIO. Agem como um freio, trazendo a variável de volta para uma faixa desejável.”
Exemplo: Termostato & sistema de aquecimento.
Informação sobre temperatura -> Termostato -> Ajuste de saída do forno para manter temperatura desejada.

2 - Feedback Loop Reforçador (Reinforcing) ou Positivos.
“Objetivo: AMPLIFICAÇÃO.** Agem como um acelerador, impulsionando o sistema/processo específico para longe de seu ponto de partida.”
Exemplo: Popularidade das trends da moda e ciclos envolvidos na pobreza
Para quebrar esses ciclos reforçadores, muitas vezes é necessária intervenção externa ou uma nova mudança de condições.

Tipologia do Feedback Loop	Efeito no sistema	Exemplo de resultado positivo	Exemplo de resultado negativo
REFORÇADOR (Positivo)	Amplificação / Aceleração	Popularidade crescente de um produto excelente.	Aumento da pobreza ou crime (Sequestro)
BALANCEADOR (Negativo)	Estabilidade / Freio	Mantém a temperatura da casa ideal	Mantém um mau hábito em equilíbrio (difícil de mudar).

A classificação de “negativo” ou “positivo” (bom/ruim) é, na prática, uma avaliação do valor da consequência (o que chamamos de efeitos de segunda ordem ou posteriores) que o ciclo amplificado está gerando.

O mundo é um grande emanador de feedbacks sobre o que funciona e o que não funciona.

Para o feedback ser útil é preciso aprender a filtrá-lo.
É fundamental aprender a identificar o feedback bom, aceitá-lo e incorporá-lo rapidamente. É o que faz progredir.
Em sistemas complexos, o feedback raramente é imediato.
Esse atraso pode dificultar o estabelecimento da causa e efeito.*
O maior problema para nossas decisões surge quando o feedback das nossas ações é atrasado ou indireto

Relação de atraso nos feedbacks: Você decide comer um doce cheio de açúcar e gordura.

Feedback Imediato (Curto Prazo):

Você sente um prazer instantâneo. Seu corpo responde à gordura e ao açúcar com uma sensação de recompensa. Esse é um ciclo reforçador de prazer imediato.

Feedback Atrasado (Médio Prazo):

Depois de um tempo, você se sente pesado ou recebe outras indicações do seu corpo de que a escolha teve consequências negativas.

Feedback Atrasado (Longo Prazo):

*Ao longo de períodos mais longos, as condições de saúde, como diabetes tipo 2 ou pressão alta, fornecem ainda mais feedback sobre o impacto real dos seus hábitos.

No caso, você fica preso a um comportamento ruim (mal-adaptativo) porque recebeu um feedback positivo de curto prazo (pico de dopamina).

“Iterar” significa repetir um processo, ajustando-o levemente a cada vez:

“Shorter feedback loops means more iterations, and it’s the number of iterations, not the number of hours, that drives learning.” - Naval Ravikant Ação -> Resposta (Feedback) -> Filtro -> Resultado

OBS: O feedback também pode causar problemas se for muito rápido e muito forte, pois o sistema pode entrar em surto ou “oscilação”. O que queremos é um feedback de intensidade equilibrada.

O economista Adam Smith, pai da economia moderna e do capitalismo, em sua obra filosófica ‘The Theory of Moral Sentiments’, descreveu uma força invisível que nos guia: a aprovação e a desaprovação dos outros, seja real ou imaginária (mecanismo de feedback).

Ele diz que por natureza nós somos egoístas. Para a maioria das pessoas, perder o dedo mindinho seria mais estressante do que a notícia da morte de milhares de estranhos em outro país.
Smith diz que fomos dotados pela Natureza de um desejo fundamental de agradar os outros e uma aversão básica a ofendê-los.
As interações sociais então tornam-se um circuito de feedback constante.
Para Smith, o feedback das reações dos outros às nossas ações é a base da civilização. Se fazemos algo bom, recebemos reação positiva (condiciona busca por prazer). Se fazemos algo egoísta, recebemos reação negativa (condiciona fuga da dor).
Conectando com o contexto, o infanticídio seria um exemplo de feedback loop reforçador, pois a prática era reforçada pela falta de desaprovação social, já que era considerado algo comum.

Feedback Loops balanceadores são mais comuns em sistemas por que são sustentáveis. Em muitas sociedades, um sistema jurídico serviu para impedir feedback loops reforçadores de desmoronarem a infraestrutura social.

Agora, como ajustar esses feedback loops em sistemas grandes, complexos e que nos beneficiem? Usando as ==4 lentes de análise:==

Criação dos Incentivos Futuros Corretos
Influência do Comportamento nas Margens
Lidar com Cascatas de Informação
Construção de Confiança(Trust)

==Primeira Lente:== Criação dos incentivos futuros corretos

Olhar para o futuro ao tomar uma decisão hoje, focando em minimizar a chance de criar um feedback loop reforçador negativo lá na frente.
Quando agimos, estamos sempre enviando uma mensagem, e esta pode criar um incentivo para que o comportamento (bom ou ruim) se repita ou se amplifique.
Sempre considere os incentivos futuros que uma decisão irá gerar.

Exemplo 1: Imagine que uma criança quebrou um brinquedo. O problema imediato é o brinquedo quebrado. Se você simplesmente compra um novo imediatamente, a criança pode entender: “Quebrar coisas resulta em ganhar coisas novas”. Essa resposta cria um incentivo futuro que reforça o comportamento de quebrar, criando um feedback loop reforçador negativo.

Exemplo 2: O ato de pagar resgate a sequestradores ilustra perfeitamente essa lente de análise. • Problema Imediato (Curto Prazo): Alguém foi sequestrado, e a demanda é por dinheiro para libertá-lo. Pagar o resgate salva uma vida e resolve o problema agora. • Feedback Criado (Longo Prazo): Sua resposta (pagar o resgate) comunica aos sequestradores que você cede às suas demandas. Isso cria um incentivo para eles sequestrarem novamente (ciclo reforçador) e sinaliza a outros aspirantes a sequestradores que o crime é lucrativo.

==Segunda Lente:== Influenciando o comportamento nas margens

Pense em uma sociedade. Mudar o comportamento de todo mundo (de uma vez) é quase impossível e caríssimo. Mudar o comportamento nas margens, no entanto, pode ser muito mais eficaz a levar a uma mudança duradoura no sistema inteiro.

Pense em um grande rebanho de ovelhas e que seria mais fácil um lobo caçar as desgarradas que ficam mais apartadas do grupo central, ou seja, as que estão nas margens.

Não olhe apenas para o todo (pensamento binário) “Pensando nas margens, o mais importante, significa olhar para os problemas não de forma inteira/total, como se fosse tudo ou nada, mas em incrementos/partes: vendo o comportamento como um monte de decisões sobre quando fazer um pouco menos em uma direção e fazer um pouco mais em outra direção.”
- Ward Farnsworth

Exemplo: fazer as pessoas pararem de beber refrigerante PENSAMENTO BINÁRIO: Ou elas consomem ou não consomem PENSAMENTO MARGINAL: Observa-se onde pode-se influenciar o comportamento em diferentes aspectos

• Como posso fazer com que as pessoas consumam um pouco menos?
• Como posso incentivá-las a trocar o refrigerante normal por um sem açúcar?

As margens, são, muitas vezes, o lugar onde os feedbacks loops reforçadores negativos começam.

Por exemplo, em um negócio, não é o cliente leal de 20 anos que provavelmente deixará a empresa após um aumento de preço; é a pessoa que comprou recentemente (o cliente na margem). Se esse cliente marginal sair e for para um concorrente, ele pode desencadear uma reação negativa que faz as vendas despencarem.
Para evitar isso, a empresa pode criar feedback loops balanceadores nas margens, como um programa de fidelidade para os clientes novos.

Quando um sistema, como uma cidade ou país, torna-se muito grande, o número de margens a serem ajustadas aumenta.

Se você tenta forçar substituições, pode acabar criando outras substituições não desejadas, ou seja, ao tentar criar um feedback loop balanceador em um lugar, pode-se iniciar um ciclo de feedback reforçador negativo em outro lugar.

Exemplo: Se for imposto que o consumo de bebidas açucarados seja mais difícil em locais públicos (para equilibrar o consumo), as pessoas podem ser forçadas a consumir mais em espaços privados, como em casa.

Aumento de consumo em casa
Normalização de tal comportamento para as crianças ao ver o exemplo dos pais
“O conceito de feedback inicia a ideia de que um sistema pode causar seu próprio comportamento” Donella H. Meadows

==Terceira Lente:== Lidando com cascatas de informações

Cascatas de Informação são feedback loops reforçadores, seja positivo ou negativo.

Exemplo 1: Imagine que você está andando na rua e vê uma fila enorme na porta de uma sorveteria que você nunca ouviu falar. Você pensa: “Nossa, se tanta gente está nessa fila, deve ser o melhor sorvete do mundo!”. E você entra na fila também. É exatamente assim que funcionam as Cascatas de Informação.

Exemplo 2: Um artista de rua atrai um pequeno grupo. O grupo fica maior à medida que pessoas com baixos limites de curiosidade vêm ver o que está acontecendo. Então a multidão realmente cresce, pois pessoas com limites normais veem uma massa de espectadores convergindo para a calçada e não resistem a investigar do que se trata todo esse alvoroço.

Exemplo 3: O próprio uso da inteligência artificial deriva de uma tendência reforçada por mais e mais pessoas.

Elas são um fenômeno em sistemas sociais onde a decisão de uma pessoa de adotar algo (entrar na fila, comprar um produto, seguir uma tendência, ou até cometer um ato ilícito) é amplificada quando outras pessoas a veem fazendo o mesmo.

Em uma Cascata de Informação, a informação se propaga e se amplifica, como uma bola de neve:

Ação inicial: Uma pessoa adota um comportamento (Ex.: Entra na fila do restaurante).
Feedback: Outras pessoas veem essa ação (a fila).
Reforço: A visão da fila atrai pessoas que estavam indecisas sobre o restaurante.
Amplificação: A fila fica maior, criando uma impressão ainda mais forte sobre o próximo grupo de pessoas que passa, atiçando o interesse de um novo nível de limiar (ou seja, mais gente é convencida a entrar).

Cresce através de: Popularidade aparente>Lógica

O professor Farnsworth diz que o “solo” mais fértil para uma Cascata de Informação crescer é onde tem aignorância e a incerteza, pois o ser humano busca o máximo de absolutez possível para fazer algo. Quando isso não é possível, a ação dos outros se torna a sua informação, e você confia nela, permitindo que a cascata se espalhe.

==Quarta Lente:== Construindo Confiança

Imagine que vivemos em uma cidade muito, muito grande, cheia de pessoas fazendo muitas coisas diferentes. Para que essa “cidade” funcione sem cair no caos total, precisamos ter certeza de que a maioria das pessoas fará o que é esperado. Essa certeza é o que chamamos de confiança.

As sociedades complexas exigem uma boa dose de confiança entre seus membros para funcionar

Exemplo 1: Pense, por exemplo, em algo tão comum quanto dirigir um carro. Você confia que os outros motoristas vão parar nos sinais vermelhos e ficarão em suas faixas. Você fica atento a um erro ocasional, claro, mas a base é a crença de que todos seguirão as mesmas regras.

Essa confiança constrói-se a partir de feedback loops.

Para explicar melhor a relação dos feedback loops na confiança, há um exemplo clássico da Game Theory chamado Dilema do Prisioneiro.

a Teoria dos Jogos é uma forma matemática de modelar como as decisões individuais afetam os resultados coletivos, focando nas interações e nos benefícios (ou perdas) resultantes

imagem

Dois criminosos são capturados e colocados em celas separadas. Eles não conseguem conversar entre si e são acusados de um crime que cometeram juntos. A polícia não tem provas suficientes para condenar ambos a uma pena máxima, mas está determinada a garantir que os dois passem algum tempo na prisão.

A polícia oferece a cada prisioneiro (A e B) um acordo, com as seguintes condições:

Se ambos os prisioneiros se acusarem mutuamente (ou seja, se ambos disserem que o outro cometeu o crime), cada um pegará dois anos de prisão.
Se o prisioneiro A acusar o prisioneiro B, mas o prisioneiro B ficar em silêncio, o prisioneiro B pegará cinco anos de prisão, e o prisioneiro A pegará zero anos (e vice-versa).
Se ambos os prisioneiros ficarem em silêncio, cada um pegará apenas um ano de prisão.

As Opções e o Raciocínio (A Falta de Confiança) Na Teoria dos Jogos, a decisão de ficar em silêncio (o comportamento altruísta) é chamada de “cooperar”, enquanto a decisão de acusar o outro é chamada de “desertar”.

O que eles deveriam fazer? Se eles pudessem conversar e confiassem um no outro (o que raramente acontece nesse tipo de cenário, pois as pessoas tendem a agir por interesse próprio), a escolha mais racional para o grupo seria permanecer em silêncio. Assim, cada um pegaria apenas um ano, que é a menor pena total.

No entanto, o problema é a confiança. • Cada prisioneiro pensa: “Como posso saber que o outro não vai me acusar para sair livre (pegar zero anos)?”. • O risco de ser o único a ficar em silêncio é muito alto (pegar cinco anos).

Assim, o resultado de equilíbrio (o que geralmente acontece quando o jogo é jogado uma única vez) é que ambos se acusam (desertam) e cada um cumpre dois anos de prisão.

A estratégia clássica mais eficaz nesse cenário repetido é chamada de “Tit-for-Tat” (Olho por Olho, mas com uma nuance de começar positivo):

O jogador começa cooperando (ficando em silêncio).
Nas rodadas subsequentes, o jogador faz o que o outro jogador fez na rodada anterior (reciprocidade).

Ao cooperar primeiro, você cria um feedback loop que sinaliza sua capacidade e vontade de confiar. O sucesso dessa estratégia demonstra como as interações repetidas entre agentes egoístas podem levar ao comportamento cooperativo.

A tática Tit-for-Tat (TfT) não é puramente um feedback loop reforçador positivo, mas sim um Feedback Loop de Reciprocidade que, quando funciona bem, reforça a cooperação e atua para manter o equilíbrio da confiança.

O exemplo do Dilema do Prisioneiro ilustra que a confiança é construída através de mecanismos de feedback – o que aconteceu antes influencia o que acontecerá depois – e isso é fundamental para a funcionalidade de sociedades complexas

==OBS: Iterações de Kandinsky:==

O modelo das iterações é simples de entender: nós aprendemos com os nossos esforços.

Imagine que você está tentando desenhar um círculo perfeito. Na primeira vez, ele sai todo torto. O ato de olhar para o círculo torto e compará-lo com o que você queria é o feedback. Se você usa essa informação para tentar desenhar de novo, corrigindo a mão, você está iterando.

Rever citação do Naval Ravikant

O famoso artista Wassily Kandinsky nos dá um exemplo perfeito disso: Kandinsky criou uma de suas obras mais famosas, a pintura chamada Painting with White Border.

Não foi um flash de inspiração: Essa obra não foi resultado de um momento único de gênio. Foi um processo que durou meses.
O Feedback Guiou a Mão: Kandinsky usou o feedback que recebia de pequenas mudanças em seus esboços para se aproximar de sua visão final.
A Jornada das Vinte Tentativas: Ele começou com um primeiro rascunho. Com base no que viu, ele continuou a iterar, fazendo vinte esboços no total.
Ajustes Minúsculos, Grande Impacto: Cada esboço subsequente era apenas uma ou duas etapas diferente do anterior, mas esse processo sutil levou cinco meses.

Kandinsky estava, na verdade, tentando resolver problemas específicos em sua pintura (podemos chamar isso de objetivos artísticos). Cada iteração lhe dava um feedback se ele estava mais perto ou mais longe de resolver esses problemas. Eventualmente, ele teve informação suficiente para produzir o quadro que queria, que foi sua 21ª pintura.

A iteração é, na verdade, um feedback loop aplicado continuamente para aprimoramento.

2025-12-04

../