Harvard publica datos gratuitos para entrenar IA financiados por OpenAI y Microsoft

El responsable del proyecto afirma que permitir el acceso a la colección de libros de dominio público ayudará a "igualar las condiciones" en la industria de la IA.
Image Preview (Placeholder)
 La Universidad de Harvard anunció la publicación de un conjunto de datos de alta calidad de casi un millón de libros de dominio público; datos que cualquier persona podría utilizar para entrenar grandes modelos de lenguaje (LLM) y otras herramientas de inteligencia artificial. El conjunto de datos fue creado por la recién formada Iniciativa de Datos Institucionales (IDI) de Harvard con financiamiento de Microsoft y OpenAI. Contiene libros escaneados como parte del proyecto Google Books que ya no están protegidos por derechos de autor.

La base de datos de la IDI abarca géneros, décadas e idiomas: clásicos de Shakespeare, Charles Dickens y Dante, junto a oscuros manuales de matemáticas checos y diccionarios de bolsillo galeses. Greg Leppert, director ejecutivo de la iniciativa, afirma que el proyecto es un intento de "nivelar el terreno de juego" dando al público en general, incluidos los pequeños actores de la industria de la IA y los investigadores individuales, acceso al tipo de repositorios que normalmente solo las Big Tech tenían recursos para reunir: "Ha pasado por una revisión rigurosa", agrega

Datos adicionales para los chatbots
Leppert cree que la nueva base de datos de dominio público podría utilizarse junto con otros materiales bajo licencia para construir modelos de IA: "Es parecido al modo en que Linux se ha convertido en un sistema operativo fundamental para gran parte del mundo". Señala que las empresas seguirán necesitando datos de entrenamiento adicionales para diferenciar sus modelos de sus rivales.

Burton Davis, vicepresidente y Consejero General Adjunto de Propiedad Intelectual de Microsoft, subrayó que el apoyo de la empresa al proyecto concuerda con sus convicciones más amplias de crear "grupos de datos accesibles" para que las empresas de IA los utilicen y sean "gestionados en interés del público". En otras palabras, Microsoft no tiene previsto sustituir todos los datos de entrenamiento de IA por alternativas de dominio público, como libros de la nueva base de Harvard: "Utilizamos datos de dominio público para entrenar nuestros modelos". Por su parte, Tom Rubin, jefe de propiedad intelectual y contenidos de OpenAI, mencionó en un comunicado que la compañía estaba "encantada" de apoyar el proyecto.

A medida que decenas de demandas interpuestas por el uso de datos protegidos por derechos de autor para el entrenamiento de la IA se abren camino en los tribunales, el futuro de cómo se construyen las herramientas de inteligencia artificial pende de un hilo. Si las empresas de IA ganan sus casos, podrán seguir recopilando información de internet sin necesidad de firmar acuerdos de licencia. Pero si pierden, serían obligadas a una revisión de cómo se crean sus modelos. Una oleada de proyectos como la base de datos de Harvard siguen adelante con el supuesto de que, pase lo que pase, habrá apetito por los conjuntos de datos de dominio público.

Además del tesoro de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora son de dominio público, y sugiere estar abierta a formar colaboraciones similares más adelante. El modo exacto en que se hará público el conjunto de datos sobre libros aún no está decidido. En un comunicado, Kent Walker, presidente de Asuntos Globales de Google subrayó que la empresa estaba "orgullosa de apoyar".

Una larga lista de apoyo a los bancos de datos IA
Independientemente de cómo se publique el conjunto de datos de la IDI, se unirá a una serie de proyectos, nuevas empresas e iniciativas similares que prometen dar a compañías y startups acceso a materiales de formación en IA sustanciales y de alta calidad sin el riesgo de encontrarse con problemas de derechos de autor. Corporaciones como Calliope Networks y ProRata apoyan la concesión de licencias y la gestión de planes de compensación para que los creadores y titulares de obras reciban una remuneración por proporcionar datos para nutrir modelos de inteligencia artificial.

También hay otros nuevos proyectos de dominio público. La primavera pasada, la empresa francesa de IA Pleias lanzó su propio conjunto de datos, Common Corpus, que contiene entre 3 y 4 millones de libros y colecciones de publicaciones periódicas, según informa el coordinador del proyecto, Pierre-Carl Langlais. El plan, respaldado por el Ministerio de Cultura francés, se ha descargado más de 60,000 veces solo en este mes en la plataforma de IA de código abierto Hugging Face. La semana pasada, Pleias anunció la publicación de su primer conjunto de LLM entrenados con este banco de datos. Langlais declaró a WIRED este es un paso adelante para la constitución de "los primeros modelos entrenados exclusivamente con datos abiertos y conforme a la Ley de la Unión Europea sobre IA".

Lo más visto
ChatGPT Voice ahora es gratuito para todos los usuarios: cómo usarlo y lo que debes saber
Negocios
ChatGPT Voice ahora es gratuito para todos los usuarios: cómo usarlo y lo que debes saber
Por Diego Barbera
Siria se convirtió en un narcoestado bajo el régimen de Assad
Politica
Siria se convirtió en un narcoestado bajo el régimen de Assad
Por Riccardo Piccolo
Un detector de ondas gravitacionales a escala galáctica ha producido nuevos mapas del universo
Espacio
Un detector de ondas gravitacionales a escala galáctica ha producido nuevos mapas del universo
Citi por fin se separa de Banamex: qué pasará con tu cuenta
Negocios
Citi por fin se separa de Banamex: qué pasará con tu cuenta
Por Fernanda González
También, la empresa de IA Spawning lanzó su propia base de datos, Source.Plus, que contiene imágenes de dominio público de Wikimedia Commons, así como de diversos museos y archivos. Varias instituciones culturales importantes llevan tiempo poniendo sus propios archivos a disposición del público como proyectos independientes, como el Museo Metropolitano de Arte de Nueva York. Ed Newton-Rex, antiguo ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de IA formadas éticamente, sustenta que el auge de estos conjuntos de datos demuestra que no hay necesidad de robar materiales protegidos por derechos de autor para crear modelos de alto rendimiento y calidad. OpenAI ya refutó a los legisladores del Reino Unido que sería "imposible" crear productos como ChatGPT sin utilizar obras protegidas por derechos de autor. "Grandes conjuntos de datos de dominio público como estos dejan a las grandes empresas de IA sin un pretexto para continuar empleando obras con derechos de autor para entrenar sus modelos", expresa Newton-Rex.

Sin embargo, aún tiene sus reservas sobre si la IDI y proyectos similares cambiarán realmente el statu quo del entrenamiento de la IA; argumenta que estos conjuntos de datos solo tendrán un impacto positivo si se utilizan a la par de una licencia para otros datos, sustituyendo los contenidos con derechos de autor. "Si solo se añaden a la mezcla, es decir, una parte de la información pública con los datos de licencia, se beneficiará indudablemente a las gigantes de inteligencia artificial".
Etiquetas:
Sin Etiquetas
Imagen de perfil
placehoder publicity
placehoder publicity