Mandhri Abeysooriya, uma aluna de doutorado na Austrália, escreve sobre a comédia de erros nas planilhas de Excel dos estudos de genômica num editorial “Guest post: Genomics has a spreadsheet problem”, de 20 de setembro de 2023. Levantamento na literatura mostra que há muitos e muitos erros acumulando na literatura. Uma das medidas que estão sendo tomadas é a de renomear certos genes sujeitos a erros. Isso é feito pelo Gene Nomenclature Committee do HUGO que é a Organização que dá nome aos genes humanos. O gene AGO2 não é uma data no espanhol e TAMM41 não é 41 de janeiro (em finlandês)! Esses são erros tipicamente cometidos quando se usa Excel como planilhas de dados.
Os erros são tantos que o professor australiano Mark Ziemann iniciou uma base de dados de acesso público onde estão registrados os erros identificados ou genes com problemas de identificação. As melhores revistas têm o maior número de problemas identificados. Nesta lista estão Nature Communications, PLOS ONE, Scientific Reports, BMC Genomics, PLOS Genetics. Os problemas não param aí. Um exemplo é dado por Mary Pat Campbell numa tabela de mortalidade onde 1-4 (idade de 1 a 4 anos) virou 4 de janeiro na planilha. Boas práticas quando se trata de dados para fugir das armadilhas do Excel são mandatórias! Veja as dicas dela no youtube :)
Mandhri Abeysooriya, a PhD student in Australia, writes about the comedy of errors in Excel spreadsheets used in genomic studies, in the article “Guest post: Genomics has a spreadsheet problem”, September 20, 2023. A search of published studies shows there are many, many errors building up throughout the literature. One of the measures taken is to rename error-prone genes. This is being done by the Gene Nomenclature Committee from HUGO, the organization responsible for the naming of human genes. The gene AGO2 is not a Spanish date and TAMM41 is not January 41 (in Finnish)! These mistakes typically occur when Excel is being used to register data. There are so many of these that the Australian professor Mark Ziemann has put up a database with public access where errors already determined or genes with identification problems are listed. The best journals have the majority of problems identified. In this list you find Nature Communications, PLOS ONE, Scientific Reports, BMC Genomics, and PLOS Genetics. These are not the only problems. Another example is given by Mary Pat Campbell where, on a mortality table, the value1-4 (ages from 1 to 4) became January 4. Good practices when dealing with data, to avoid the traps set by the use of Excel are mandatory! See her tips on youtube :)
Comments