ChemSpider

noviembre 4, 2021abril 26, 2022 Bases de datos, Herramientas508 visitas

Actualizado en abril 26, 2022

Tiempo de lectura estimado: 6 minutos

ChemSpider es una de las mayores bases de datos químicos del mundo, que contiene datos sobre más de 65 millones de estructuras químicas. Estos datos están disponibles gratuitamente para el público en ChemSpider.com, un sitio web publicado por la Royal Society of Chemistry.

ChemSpider fue adquirido por la Royal Society of Chemistry (RSC) en mayo de 2009. Antes de la adquisición por parte de la RSC, ChemSpider estaba controlado por una empresa privada, ChemZoo Inc. El sistema se lanzó por primera vez en marzo de 2007 en forma de versión beta.

¿Cómo se sustentan ChemSpider?
¿Qué se incluye en ChemSpider?
Fuentes de datos
Filtros automatizados y curación de la información
Revisión por parte de la comunidad.

¿Cómo se sustentan ChemSpider?

ChemSpider.com es un servicio independiente que no depende de subvenciones directas o de investigación. La Royal Society of Chemistry mantiene el sitio web con los excedentes generados por las actividades de publicación, lo que permite ofrecer un servicio sostenible y fiable. También se generan ingresos a partir de la publicidad y proporcionando servicios web de pago, como nuestras API, para usuarios no académicos. Estas actividades contribuyen a mantener la sostenibilidad financiera de ChemSpider y ayudan a sufragar los costes del servidor, las horas de trabajo del personal y el desarrollo.

Estos servicios permiten poner el sitio a disposición de cualquier persona en el mundo de forma gratuita, y llegó a más de seis millones de usuarios únicos en 2017. Estos usuarios van desde estudiantes de colegios que buscan ayuda para sus deberes, pasando por investigadores que trabajan en el mundo académico y la industria, hasta usuarios generales que quieren mantener sus conocimientos químicos al día. Proceden de todos los continentes, excepto la Antártida, y de casi todos los países de la Tierra.

¿Qué se incluye en ChemSpider?

Los datos de ChemSpider proceden de la propia comunidad de las ciencias químicas: los envían investigadores, bases de datos, editores, proveedores de productos químicos y muchos más.

Los datos de ChemSpider se someten a dos criterios principales de inclusión:

Legibilidad mecánica – Los depositantes deben proporcionar estructuras en un formato legible por máquina, normalmente un archivo .mol que sea interpretable por InChI, el algoritmo de representación de estructuras químicas de código abierto. Esto significa que sólo puede representar con precisión moléculas pequeñas con estructuras definidas.

Para ChemSpider, «pequeñas» significa estructuras de hasta 4000 daltons, incluyendo péptidos cortos, oligonucleótidos y otras estructuras. Las proteínas grandes, las redes cristalinas extendidas o los nucleótidos largos son demasiado grandes para describirlos de forma razonable en ChemSpider, pero están disponibles en otras bases de datos adecuadas para moléculas más grandes.

Te puede interesar Historia de la tabla periódica IX

Además, sólo se aceptan «estructuras definidas» -compuestos con longitudes de cadena exactas, grupos funcionales totalmente expresados y órdenes de enlace enteros- debido al requisito de describir cada átomo pesado de una molécula. Esto significa que sólo pueden aceptar estructuras para las que se genera un InChI válido.

La mayoría de las estructuras de ChemSpider son moléculas orgánicas. Sin embargo, aceptan algunos compuestos inorgánicos y organometálicos, con métodos específicos para curarlos.

Compuestos reales – No se acepta compuestos virtuales o hipotéticos.

En la medida de lo posible, sólo se aceptan compuestos que hayan sido sintetizados o aislados en forma física. Esto significa que no se aceptan estados de transición, compuestos predichos teóricamente, compuestos virtuales de proveedores o compuestos predichos de patentes.

Fuentes de datos

ChemSpider recibe datos de casi 250 fuentes de datos únicas, que incluyen datos de proveedores de productos químicos, bases de datos especializadas, individuos, grupos de investigación y editores. Estas fuentes abarcan toda la gama de las ciencias químicas: bioquímica, farmacología y toxicología, productos naturales, espectroscopia y cristalografía. Cada registro de ChemSpider incluye enlaces a todas las fuentes de datos del compuesto, lo que permite a los usuarios encontrar y comprobar la procedencia de los datos.

La lista de fuentes de datos cambia continuamente, a medida que se encuentran nuevas fuentes de datos que añadir y eliminar fuentes de datos obsoletas o de baja calidad.

Ya no se aceptan datos de otros agregadores de datos. Se ha tomado esta medida para equiparar los requisitos de calidad con los de otras bases de datos y reducir la propagación de los errores generados algorítmicamente que pueden surgir de fuentes poco confiables. Un ejemplo de ello es el llamado Chessboardane, que se originó a partir de un programa de reconocimiento de estructuras ópticas que interpretó una tabla de datos contenida en una patente como una estructura química. El resultado fue una estructura cuadriculada de 81 carbonos, identificada erróneamente como un alcano cíclico complejo, que se depositó en un repositorio público y se compartió entre múltiples agregadores.

Por ello, ChemSpider solo utiliza datos directamente de las fuentes originales, donde se tiene una mayor certeza sobre la procedencia y la exactitud de los datos, y trabajan constantemente para conservar los datos heredados que todavía están en ChemSpider.

Debido a ejemplos como el de Chessboardane, el equipo de ChemSpider se ha vuelto cauto a la hora de aceptar datos procedentes de fuentes de texto y minería de datos que los usuarios colaboradores han extraído mediante programación del texto o de imágenes codificadas en patentes o literatura científica.

Te puede interesar Christopher Kelk Ingold

Filtros automatizados y curación de la información

Una comprobación manual de cada uno de los 65 millones de registros de ChemSpider llevaría a una persona más de 600 años trabajando sin descanso, incluso si sólo se invirtieran cinco minutos de tiempo de curación por registro.

En lugar de ello, se pasa cada depósito por una serie de filtros automatizados para eliminar las estructuras inadecuadas, como las que tienen valencias incorrectas, cargas desequilibradas o falta de estereoquímica. Además de los filtros de estructura, también se aplica un filtrado básico de nombres y sinónimos y revisamos regularmente los archivos procesados para poder mejorar los filtros.

ChemSpider está dirigida por un pequeño equipo de conservadores a tiempo completo, que trabajan para añadir nuevos compuestos, eliminar errores y responder a los comentarios de los usuarios. El personal tiene una amplia experiencia tanto en datos químicos como en química práctica, con antecedentes en campos como la síntesis orgánica y la conservación de arte, y una gran experiencia trabajando en otras bases de datos de la Royal Society of Chemistry, como The Merck Index* Online y Analytical Abstracts.

Revisión por parte de la comunidad.

Como no es posible revisar todos los registros por parte de los curadores, ChemSpider tiene la puerta abierta a los comentarios o correcciones de sus usuarios. La forma más fácil de ayudar a mejorar ChemSpider es dejar un comentario o enviar un correo electrónico cuando detecte un error.

Los usuarios que deseen involucrarse más pueden depositar directamente estructuras y curar sinónimos relacionados con su investigación o trabajo, sin tener que enviar un correo electrónico al equipo de ChemSpider.

Sitio web http://www.chemspider.com/

Para más información Behind the Scenes at ChemSpider