Topo

Cientistas tiveram que renomear genes humanos por culpa do Excel

Getty Images/iStockphoto
Imagem: Getty Images/iStockphoto

Marcella Duarte

Colaboração para Tilt

07/08/2020 14h01

Nenhum de nós desconfiava, mas um clássico programa de escritório há anos era o terror dos dados dos cientistas. No último ano, pelo menos 27 genes humanos tiveram que ser renomeados por causa de erros em planilhas do Excel, que lia seus símbolos como datas. E foi mais fácil criar novas regras de nomenclatura para os genes do que mudar o funcionamento do software.

Há cerca de 30 mil genes no genoma humano. Eles são pequenos segmentos de uma fita de DNA, que guarda nossas características únicas. Há genes da cor dos olhos, da altura, do tipo de cabelo. Cada um deles recebe um nome e um código alfanumérico único, chamado de "símbolo", que os cientistas usam em suas pesquisas.

O problema fazia sentido, já que o Excel é pensado para aplicações numéricas cotidianas, e não estudos científicos. Por exemplo, quando se colocava o nome MARCH1 (do gene "Membrane Associated Ring-CH-Type Finger 1"), a planilha automaticamente convertia para a data 1-Mar.

Isso acabava sendo frustrante para os pesquisadores, que tinham de corrigir manualmente cada erro. Era até arriscado, pois podia corromper informações importantes, e bastante comum. Um estudo de 2016 examinou dados genéticos em 3.597 artigos publicados e descobriu que aproximadamente um quinto havia sido afetado por erros do Excel.

Mas não havia maneira simples de corrigir a dificuldade dos cientistas. O Excel não oferece a opção de desativar essa formatação automática. A única maneira de evitar era mudando o tipo de informação de cada coluna (ela pode ser associada para um tipo de dado: números inteiros, números decimais, texto, dados monetários, datas e horas etc). Mas, ao ser aberta por outro pesquisador, a planilha poderia ser desconfigurada e os erros retornavam.

A solução tão aguardada veio por meio do Hugo Gene Nomenclature Committee (HGNC), um corpo científico com a missão de padronizar a nomenclatura dos genes. Nesta semana, o comitê publicou na Revista Nature novas orientações, inclusive para "símbolos que afetam a manipulação e recuperação de dados".

De agora em diante, os nomes dos genes humanos devem considerar a autoformação do Excel. E, mesmo antes da publicação oficial, já foram alterados 27 deles: MARCH1, por exemplo, passou a ser MARCHF1, SEPT1 virou SEPTIN1, e assim por diante. Um registro dos símbolos antigos será armazenado pelo HGNC para evitar confusões futuras.

Nos primórdios da pesquisa genética, a nomenclatura dos genes acabava sendo um parque de diversões para os cientistas criativos. Há alguns casos notórios, como "Sonic Hedgehog" (sim, o personagem dos jogos da Sega, pois esse tipo de gene costumava receber nomes de ouriços) e o "Indy" (abreviação da frase "ainda não estou morto", em inglês; já que o gene tem a função de duplicar o tempo de vida das moscas de fruta).

Agora, o comitê Hugo tomou as rédeas e não deixa mais espaço para personalizações. O foco é facilitar as pesquisas e minimizar erros. Mesmo que os problemas no Excel pudessem ser corrigidos, a solução será benéfica a longo prazo para a comunidade científica. É sempre melhor usar termos que funcionem em qualquer situação.

Os nomes dos genes devem ser breves e específicos e os símbolos devem usar apenas letras latinas e algarismos arábicos, e evitar formar uma palavra de qualquer idioma —principalmente as ofensivas.

Para facilitar as buscas, símbolos que formavam palavras também foram renomeados: CARS para CARS1, WARS para WARS1, MARS para MARS1. Outras mudanças foram feitas para evitar similaridades com palavrões. De acordo com o HGNC, a ideia é sempre imaginar um médico tendo de explicar para um pai sobre uma mutação genética em seu filho.