La herramienta de búsqueda acentúa lo negativo, elimina lo positivo

¿Te sientes negativo con tus búsquedas en PubMed? No estas solo. Debido a la forma en que se configuran los motores de búsqueda, la búsqueda de correlaciones entre, digamos, "gen X" y "cáncer", arrojará muchos resultados positivos. Por otro lado, los estudios que no encuentran correlación, resultados negativos o nulos, son difíciles de encontrar (si se publican). Escribir la palabra "no" en su búsqueda solo empeora las cosas: "gen X NO cáncer" devuelve solo documentos en los que el cáncer no se menciona en absoluto.

Afortunadamente, ahora hay una aplicación para encontrar esos resultados nulos: BioNOT, un nuevo motor de búsqueda desarrollado por el informático biomédico Hong Yu y el estudiante graduado Shashank Agarwal en la Universidad de Wisconsin, Milwaukee. La inteligencia artificial del programa rastrea PubMed en busca de términos ingresados, como "vacunas" y "autismo", y devuelve documentos con texto que muestra que los dos no están relacionados.

El objetivo en este momento, dice Yu, es ayudar con los esfuerzos de anotación de genes y permitir que los motores de búsqueda determinen mejor si la investigación actual vincula o no una condición a un gen. Los cánceres complejos, por ejemplo, pueden involucrar cientos de variantes genéticas; Observar todos los documentos sobre todos ellos juntos, dice, puede enmascarar los resultados reales y debilitar la fuerza estadística de la correlación. Y, quizás lo más importante, diferentes laboratorios que estudian un gen obtienen resultados diferentes. Buscar en PubMed y BioNOT en paralelo podría dar a los investigadores dos listas de documentos que encuentran resultados positivos y negativos, lo que les permite comparar fácilmente la fuerza de los datos en cada lista.

En un artículo que el equipo publicó en BMC Bioinformatics la semana pasada, los investigadores usaron BioNOT para buscar genes que se cree que están involucrados en tres enfermedades: autismo, Alzheimer y Parkinson. La herramienta desenterró resultados negativos que, de lo contrario, podrían haberse perdido, dicen los autores. En este momento, BioNOT está limitado a textos completos de la megaeditora Elsevier (que Yu dice está interesada en invertir en un mayor desarrollo de BioNOT), publicaciones de acceso abierto y resúmenes de PubMed. Esto le da a la herramienta unos 32 millones de oraciones negadas para trabajar, y Yu espera que más publicaciones le permitan a BioNOT acceder a su texto completo en el futuro.

Los curadores de literatura que anotan genomas o literatura científica "text mine" están interesados ​​en la aplicación. "Hay muchas aplicaciones de minería de texto, pero esta es bastante única", dice Emily Dimmer, directora del programa de anotación de proteínas UniProt GO en el Instituto Europeo de Bioinformática (EBI) en el Reino Unido. EBI, dice, acaba de comenzar a usar BioNOT para enfocar mejor sus esfuerzos de recopilación de datos y anotación de proteínas.

El programa todavía tiene algunos problemas: la búsqueda de correlaciones entre el cáncer y los teléfonos celulares, por ejemplo, muestra una serie de documentos que contienen oraciones negadas pero que no tienen nada que ver con la correlación entre los dos. Pero Yu dice que planean mejorar este aspecto del programa. Y los investigadores están animados por el interés de editores y bioinformáticos como EBI. "No solo es agradable, sino también un trabajo gratificante", dice, ya que puede mejorar el descubrimiento biomédico. "Estamos en un momento en que la IA [inteligencia artificial] es muy poderosa".