Reddit ha presentado una demanda contra la empresa de inteligencia artificial (IA) Anthropic, acusándola de extraer ilegalmente comentarios de usuarios para entrenar a su chatbot Claude. La plataforma social alega que Anthropic utilizó bots automatizados para acceder al contenido de Reddit a pesar de las solicitudes de que no lo hiciera, entrenando intencionalmente con los datos personales de los usuarios sin su consentimiento.
La Demanda de Reddit
La demanda, presentada en el Tribunal Superior de California en San Francisco, donde ambas compañías tienen su sede, afirma que Anthropic accedió a la plataforma más de 100,000 veces desde julio de 2024, después de haber afirmado que había bloqueado sus bots. Reddit describe a Anthropic como una empresa de IA de reciente aparición que se presenta como el caballero blanco de la industria, alegando que en realidad es todo lo contrario.
La Postura de Reddit
Ben Lee, jefe del departamento legal de Reddit, declaró que las empresas de IA no deberían poder extraer información y contenido de las personas sin limitaciones claras sobre cómo pueden usar esos datos. Subrayó que el contenido generado por la comunidad de Reddit, con casi 20 años de discusiones sobre prácticamente todos los temas imaginables, es único y esencial para entrenar modelos de lenguaje como Claude.
Anthropic se Defiende
Anthropic ha respondido a las acusaciones, declarando que no está de acuerdo con las reclamaciones de Reddit y que se defenderá enérgicamente. Anteriormente, Anthropic había afirmado haber dejado de rastrear Reddit en mayo de 2024.
Acuerdos de Licencia de Reddit
Reddit ha firmado previamente acuerdos de licencia con empresas como Google y OpenAI, que pagan para poder entrenar sus sistemas de IA con los comentarios públicos de los más de 100 millones de usuarios diarios de Reddit. Estos acuerdos permiten a Reddit hacer cumplir protecciones significativas para sus usuarios, incluyendo el derecho a eliminar contenido, protección de la privacidad y evitar el spam.
La demanda destaca la importancia del contenido generado por los usuarios y la necesidad de protegerlo del uso no autorizado por parte de empresas de IA, buscando establecer límites claros sobre cómo se pueden utilizar los datos personales para entrenar modelos de lenguaje.