Topo

Blog do Dunker

Por que preferimos máquinas a humanos quando se trata de falar com uma IA

cookie_studio/ Freepik
Imagem: cookie_studio/ Freepik

31/01/2021 04h00

Receba os novos posts desta coluna no seu e-mail

Email inválido

Aparentemente, o próximo capítulo da digitalização de nossas vidas será determinado pelos programas que conseguem mimetizar a voz humana.

Depois de décadas ouvindo vozes metálicas por trás de serviços bancários, tendo que escolher por meio de teclas o próximo passo, para uma reclamação com uma companhia telefônica, chegamos ao ano de 2020 fartos de vozes artificiais.

Elas cansam mais, nos irritam em geral quando já estamos irritados e foram associadas com recursos desrespeitosos tais como tempo de espera desnecessariamente longos e bloqueio de ligações.

Além disso fomos invadidos, durante anos, por vozes de call center oferecendo produtos e demandando atenção. As péssimas condições de trabalho que encontramos por trás dos trabalhadores de call center ficaram associadas com o que há de pior na relação com grandes companhias, inclusive de high tech.

Agora dispomos de programas como o Capuccino que nos permite empregar a voz de pessoas queridas para ler os textos que recebemos. Algo que se poderia aplicar também aos sistemas de apoio à vida doméstica como Alexa, Waze e Discord, que traduz a voz em texto para facilitar a comunicação entre jogadores de videogame, ou o Checkmate , que oferece serviço de encontros com suporte de voz. O Twitter está testando a opção envio de voz e há programas em teste para uso de voz em redes sociais, como o Capiche.

O retorno da voz terá que se haver com o passivo deixado pelos anos de predomínio da escrita.

O truque aqui foi duplo. Primeiro associamos a presença da voz digital com o processo no qual passamos a trabalhar para o outro de graça: agora coloque o dinheiro no envelope, digite seu código, introduza o envelope na máquina. Ao final o banco dispensa o antigo caixa e encontra alguém que faz o serviço de graça para ele: você.

Essa operação seria insuportável se não fosse o ganho de modernidade que ela traz consigo: menos filas, a experiência de fazer você mesmo, decidindo quando e como. Tudo isso nos faz sentir "mais modernos e integrados". Por isso não conseguimos entender quando pessoas de outras gerações resistem a essa troca, como vimos no filme "Eu, Daniel Blake" (Ken Loach, 2016) .

Quando nos integramos aos sistemas de comunicação como email, WhatsaApp e redes sociais, com exceção do Clubhouse, fomos abandonando a comunicação oral e nos acostumando com as vantagens da escrita.

Com isso o problema da voz foi reduzido ao uso de letras maiúsculas aqui e ali. Junto com a solução perdemos a entonação, o ritmo, as variações de volume, as torções átonas e tônicas bem como as emoções que são decisivas para formar a paisagem de sentimentos que definem e redefinem, permanentemente, o valor da mensagem.

Isso terminou por estabilizar conversas digitais em torno de dois polos: positividade tóxica ou ódio dependência.

O retorno da voz recoloca o risco representado pelo coeficiente de intimidade que ela implica.

Nosso repúdio à voz maquínica, seja pelas vantagens da comunicação por escrito seja por sua associação com o engano, a falsidade e a impostura, promete mudar nossos circuitos de afetos digitais.

A escrita digital é sintética. Comprime palavras, cria gírias, vai direto ao ponto, acelerando trocas e fixa o esquema: pergunta-resposta ou oferta-demanda.

A escrita digital habilita que façamos várias coisas ao mesmo tempo, escolhendo o que vem primeiro e o que fica para depois. Por isso, hoje, quando recebemos um áudio, cria-se uma complicação, não consigo ouvir, nem responder, se estou no ônibus ou no meio de uma reunião. Nos acostumamos com a precariedade da troca verbal sob tais circunstâncias.

Diálogo conversa smartphone - Gerd Altmannn/ Pixabay - Gerd Altmannn/ Pixabay
Imagem: Gerd Altmannn/ Pixabay

No mundo da escrita acreditamos que "sabemos" qual é o truque, ao passo que quando escutamos uma voz, produzida por um algoritmo, onde faltam certas frequências, isso nos irrita sem que saibamos por quê.

Muita angústia e muita confusão ocorreram, durante estes anos, pela modulação temporal da mensagem entre amantes, ou seja, vida íntima.

Quando o outro não responde, ou demora para responder, ou responde de maneira pouco "empolgada", concluímos imediatamente que há um decréscimo de interesse. Muitos amores iniciantes foram interrompidos simplesmente por uma revogação da conversa, também conhecida como um "perdido".

Ora, a ausência da voz é decisiva na abertura e no encerramento da conversa. O modo como dizemos "oi" e a forma como dizemos "tchau" diz muito sobre o que aconteceu no meio e sobre a relação entre esta conversa e outras futuras. Ela é chave para o que chamamos de passagem de turno, ou seja, o momento em que a palavra passa de uma pessoa para outro. Há certos traços de entonação que indicam "agora é sua hora de falar", outros que apontam para "me deixe entrar", que são essenciais para a modulação da paisagem de afetos da conversa.

Uma das razões para o retorno da voz é a quarentena e o uso massivo de telas.

Sabidamente a voz cansa menos que o escrito. Mas isso só vale se a voz for realmente agradável, familiar e amistosa. Confirmando mais uma vez nosso dilema do porco-espinho, quando nos abrimos para a proximidade afetiva trazida pela voz, baixamos muros também para sermos ofendidos por um tom agressivo, por uma enunciação maliciosa, por uma variação tonal de desdém, ou por uma ironia que passaria desapercebida no texto escrito.

Isso talvez ajude a entender por que se pudermos escolher entre uma voz impessoal de uma máquina e uma voz falsamente empática como a Siri do iPhone, preferimos a primeira.

Ao contrário dos filtros de imagem, que nos tornam mais belos e desejáveis, até chegar a conta da realidade malfazeja, nada pode ser pior do que uma voz falsa. Ela acende uma luz amarela no cérebro onde se lê escrito em letras gigantes "mentira", ali mesmo onde uma bela imagem desperta a mensagem "me engana que eu gosto".

A voz, como protagonista de nossas mensagens, depois de décadas submetida à redução imposta pela língua escrita trará uma janela de aprendizagem para o nosso atual analfabetismo digital. Talvez isso aconteça porque seremos expostos ao hiato entre a letra e a voz.

Explico. No ocidente usamos predominantemente línguas glossolálicas, ou seja, nas quais os fonemas equivalem de forma perfeita e constante a letras, somos prisioneiros fáceis da ilusão de que a escrita é meramente a representação da fala, como se fosse apenas um outro modo de dizer a mesma coisa.

Mas há muitas línguas, como o mandarim, por exemplo, onde saber ler a língua não nos ajuda nada a falar e inversamente, escutando alguém falar, não conseguiremos transcrever os sons para sinais constantes. Isso ocorre porque na China a escrita se desenvolveu como uma prática que durante muitos séculos ficou restrita aos funcionários do Estado, o que estabeleceu uma espécie de código que se transformou de maneira diferente das mudanças que ocorreram na língua falada.

Em menor escala enfrentaremos algo parecido, no choque entre a língua escrita-digital e a língua-oral.

Seguindo o exemplo chinês, a voz estaria para a intimidade e a vida privada, assim como a escrita está para a vida pública e a experiência comum.

Durante décadas, aprendemos sem nos darmos conta a praticar uma espécie de etiqueta para reduzir ambiguidades problemáticas: faça o cabeçalho de um email sempre com expressão simpática, exagere no tom afetivo, faça despedidas mais carinhosas do que você faria, para não deixar margem à dúvida. Depois os emoticons, stickers e memes vieram delimitar mais claramente o tom da conversação.

A interpenetração voz e escrita acontece fora da linguagem digital. A escrita invade a interpretação que temos sobre a fala. Nas trocas naturais os dois trabalham juntos como se fossem uma coisa só sem que nos demos conta.

Por exemplo, qual a diferença, na linguagem oral entre a palavra "ouve" e a palavra "houve". Nenhuma, ainda que o verbo ouvir opere gramaticalmente diferente do verbo haver. O recurso à leitura serve tanto para separar sentidos quanto para criar ambiguidades, como por exemplo quando digo: "grande sertão", e quando opto por ler um intervalo entre "ser" e "tão", de tal maneira que eu confirmo, um sentido redundante: "ser" "tão" é ser "grande".

Esperemos então que mais confusão nos tire desta confusão a que chegamos. Talvez o retorno da voz nos faça hesitar um pouco mais antes de concluir o sentido das mensagem e das não-mensagens, antes de concluirmos quem é quem e quem é ninguém.