ChatGPT usa datos publicados en internet. Estos datos pueden ser de cualquier tipo, también están incluidos datos personales que hayamos podido hacer públicos en alguna ocasión. Cuando hablamos de datos, nos referimos a todo tipo de información publicada en internet, que pueden ser noticias, artículos, textos de ficción, entradas de blog, conversaciones, etc.
De dónde saca los datos ChatGPT
Tras analizar uno de los conjuntos de datos utilizados para entrenar IA, cuyos datos provienen de más de 15 millones de sitios web. Durante el proceso de investigación y análisis se descartaron cinco millones de esos sitios por no poder categorizarlos.
Problemas de privacidad
Así mismo, la investigación detectó que algunas de las fuentes de ChatGPT presentan problemas de privacidad. Se encontraron dos sitios que alojaban copias privadas de bases de datos de registro de votantes, así como información confidencial alojada en Kickstarter y Patreon, que son dos sitios online para la búsqueda de financiación para proyectos. Este hecho podría suponer un problema con la propiedad intelectual e industrial, si la información extraída de estos sitios es usada por ChatGPT para sugerir ideas a sus usuarios.
¿ChatGPT roba datos?
Es una pregunta que no tiene respuesta simple. Técnicamente, los datos con los que se alimenta este modelo de lenguaje están publicados en Internet. Sin embargo, que estén publicados no significa que estén libres de derechos de autor y que puedan usarse sin permiso de sus creadores o de quienes ostentan los derechos de uso o explotación de los mismos.
¿La información es correcta?
El propio ChatGPT nos advierte al decirnos que puede cometer errores y que sus respuestas no siempre ofrecen información correcta. Puede estar sesgada o ser directamente falsa. De hecho, diferentes medios han publicado conversaciones con ChatGPT en las que directamente se inventa la información. Además, cómo ya dijimos, la información con la que se le ha entrenado solo llega hasta 2021, por lo cual su «conocimiento» de la actualidad es limitado.