Cómo los gigantes tecnológicos toman atajos para recopilar datos para la inteligencia artificial

La carrera por liderar la inteligencia artificial se ha convertido en una búsqueda desesperada de los datos digitales necesarios para hacer avanzar la tecnología. Para obtener dichos datos, empresas de tecnología como OpenAI, Google y Meta tomaron atajos, ignoraron las políticas de la empresa y debatieron cómo cambiar la ley, según un análisis del New York Times.

Según grabaciones de reuniones internas obtenidas por el Times, el año pasado gerentes, abogados e ingenieros de Meta, el propietario de Facebook e Instagram, discutieron la compra de la editorial Simon & Schuster para adquirir obras de larga duración. También acordaron recopilar datos protegidos por derechos de autor de todo Internet, incluso si eso significaba enfrentar acciones legales. Negociar licencias con editores, artistas, músicos y la industria de las noticias llevaría demasiado tiempo, dijeron.

Al igual que OpenAI, Google transcribió vídeos de YouTube para recopilar texto para sus modelos de inteligencia artificial, dijeron cinco personas familiarizadas con las prácticas de la empresa. Esto potencialmente violó los derechos de autor de los videos, que pertenecen a sus creadores.

El año pasado, Google también amplió sus condiciones de servicio. Una razón para el cambio, según miembros del equipo de privacidad de la compañía y según un mensaje interno visto por el Times, fue darle a Google acceso a Google Docs disponibles públicamente, reseñas de restaurantes en Google Maps y otro material en línea para obtener más información. Productos de inteligencia artificial.

Las acciones de las empresas ilustran cómo la información en línea (noticias, obras de ficción, publicaciones en foros, artículos de Wikipedia, programas de computadora, fotografías, podcasts y películas) se ha convertido cada vez más en el alma de la floreciente industria de la inteligencia artificial. La creación de sistemas innovadores depende de tener suficientes datos para enseñar a las tecnologías a producir instantáneamente textos, imágenes, sonidos y videos que se parezcan a lo que crea un ser humano.