Would you like to read this page in English? → Data curation & annotation
¿Qué es la curación de datos?
La curación de datos consiste en la creación de un corpus (o conjunto de datos) para un caso de uso específico, recopilando datos y asegurando que sean consistentes y relevantes para tu problema. Este corpus se puede utilizar, entre otras cosas, para el entrenamiento y/o evaluación de modelos o pipelines de aprendizaje automático o inteligencia artificial.
Un buen corpus debe contener ejemplos variados de entradas y, si es necesario, sus salidas esperadas.
¿Qué es la anotación de datos?
La anotación de datos consiste en agregar notas a tu conjunto de datos. Dependiendo del caso de uso estas notas pueden tomar la forma de etiquetas, calificaciones, cuadros delimitadores o incluso texto, entre otros.
Si estás realizando anotaciones como parte de un proyecto de inteligencia artificial o aprendizaje automático, puedes considerar estas anotaciones como ejemplos de la salida esperada de un modelo dada una entrada específica.
Para obtener más información sobre anotaciones, puedes consultar esta página: 📚 Recursos sobre anotación de datos.
¿Cuál es la diferencia entre curación de datos y anotación de datos?
Aunque la anotación de datos es parte del proyecto de curación de datos, la curación de datos es más que simplemente anotar un conjunto de datos. Se trata de decidir qué debe y qué no debe formar parte de tu corpus y cómo debe estructurarse. Algunas cosas que se pueden considerar al curar un conjunto de datos son:
- ¿Qué tipos de ejemplos deben incluirse o excluirse?
- ¿Qué metadatos son necesarios (si es que se necesitan)?
- ¿Debería seguirse algún formato estándar para los datos?