Corpus de entrenamiento

El corpus de entrenamiento es el conjunto masivo de datos, textos y documentos utilizados para enseñar a un modelo de lenguaje a comprender y generar respuestas. Es la base fundamental sobre la que se construye la inteligencia del sistema y, por extensión, el factor determinante para la visibilidad de cualquier fuente de información en un motor generativo. En la estrategia GEO, el objetivo es que el contenido propio forme parte de este corpus, lo cual se logra mediante la publicación de información de alta calidad, técnica y estructurada que sea seleccionada por los algoritmos de filtrado durante la fase de pre-entrenamiento o ajuste fino. La composición de este corpus define la 'cosmovisión' del modelo y su capacidad para citar o referenciar temas específicos. Conceptos relacionados: LLM, Entrenamiento de modelos, Datos estructurados.