La tecnología que se pretende desarrollar se entrenará utilizando diversos conjuntos de datos, incluyendo aquellos integrados en la herramienta de software CELL by GENE (CZ CELLxGENE) de Chan Zuckerberg, que contiene el conjunto más grande de datos unicelulares estandarizados con más de 50 millones de células. Además, se incorporarán recursos generados por institutos de investigación afiliados a CZI, como el atlas de ubicación e interacción de proteínas OpenCell y el atlas de células Tabula Sapiens, construido por Chan Zuckerberg Biohub San Francisco. También se aprovecharán conjuntos de datos de imágenes del Instituto Chan Zuckerberg de Imágenes Biológicas Avanzadas (CZ Imaging Institute), junto con datos disponibles públicamente.