{"id":3346,"date":"2022-01-20T13:41:46","date_gmt":"2022-01-20T12:41:46","guid":{"rendered":"https:\/\/bitacoraenlared.com\/internet\/?p=3346"},"modified":"2022-02-09T13:46:54","modified_gmt":"2022-02-09T12:46:54","slug":"2021-el-ano-de-los-modelos-de-inteligencia-artificial-gigantes","status":"publish","type":"post","link":"https:\/\/bitacoraenlared.com\/internet\/2021-el-ano-de-los-modelos-de-inteligencia-artificial-gigantes\/","title":{"rendered":"2021: el a\u00f1o de los modelos de inteligencia artificial gigantes"},"content":{"rendered":"<p>Este a\u00f1o ha estado marcado por los modelos de inteligencia artificial (IA) de gran tama\u00f1o.<\/p>\n<p>Cuando OpenAI lanz\u00f3\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/13206\/tr10-gpt-3-representa-lo-mejor-y-lo-peor-de-la-ia-actual\" target=\"_blank\" rel=\"noopener\">GPT-3<\/a>, en junio de 2020, la aparente comprensi\u00f3n del lenguaje de esta red neuronal resultaba asombrosa.\u00a0Pod\u00eda generar frases convincentes, conversar con personas e incluso autocompletar c\u00f3digo.\u00a0GPT-3 tambi\u00e9n era enorme, m\u00e1s grande que cualquier otra red neuronal jam\u00e1s construida, y desencaden\u00f3\u00a0<strong>una tendencia completamente nueva en IA, la de\u00a0<em>cuanto m\u00e1s grande, mejor<\/em>.<\/strong><\/p>\n<p>A pesar de\u00a0<strong>la predisposici\u00f3n de GPT-3 a imitar el\u00a0<\/strong><strong><a href=\"https:\/\/www.technologyreview.es\/s\/12790\/el-reto-casi-imposible-de-crear-un-chatbot-que-no-sea-racista-y-machista\" target=\"_blank\" rel=\"noopener\">sesgo y la toxicidad<\/a><\/strong>\u00a0inherentes al texto\u00a0<em>online<\/em>\u00a0con el que se entren\u00f3, y aunque se necesita una cantidad enorme e insostenible de potencia inform\u00e1tica para ense\u00f1ar esos trucos a un modelo tan grande, elegimos GPT-3 como una de las tecnolog\u00edas innovadoras de 2020,\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/13206\/tr10-gpt-3-representa-lo-mejor-y-lo-peor-de-la-ia-actual\" target=\"_blank\" rel=\"noopener\">para bien y para mal<\/a>.<\/p>\n<p>Pero el impacto de GPT-3 qued\u00f3 a\u00fan m\u00e1s claro en 2021. Este a\u00f1o ha tra\u00eddo una proliferaci\u00f3n de grandes modelos de IA, construidos por varias empresas de tecnolog\u00eda y los mejores laboratorios de inteligencia artificial, muchos de los cuales superaron al GPT-3 en tama\u00f1o y capacidad.\u00a0<strong>\u00bfQu\u00e9 tama\u00f1o pueden llegar a tener y a qu\u00e9 precio?<\/strong><\/p>\n<p>GPT-3 llam\u00f3 la atenci\u00f3n del mundo no solo por lo que pod\u00eda hacer, sino tambi\u00e9n por c\u00f3mo lo hac\u00eda.\u00a0El sorprendente salto en el rendimiento, especialmente la capacidad de GPT-3 para generalizar tareas del lenguaje en las que no hab\u00eda sido entrenado espec\u00edficamente,\u00a0<strong>no provino de mejores algoritmos<\/strong>\u00a0(aunque depende bastante de un tipo de red neuronal inventada por Google en 2017, llamada transformador), sino de su tama\u00f1o.<\/p>\n<p>En un reciente debate en la principal conferencia sobre inteligencia artificial NeurIPS, el investigador de OpenAI y uno de los dise\u00f1adores de GPT-3 Jared Kaplan admiti\u00f3: \u00abPens\u00e1bamos que\u00a0<strong>necesit\u00e1bamos una nueva idea, pero lo logramos solo gracias a la escala<\/strong>\u00ab.<\/p>\n<p>Por su parte, en octubre, dos investigadores de Microsoft publicaron una\u00a0<a href=\"https:\/\/www.microsoft.com\/en-us\/research\/blog\/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model\/\" target=\"_blank\" rel=\"noopener\">publicaci\u00f3n de blog anunciando el enorme modelo Megatron-Turing NLG de la empresa<\/a>, construido en colaboraci\u00f3n con Nvidia, en la que afirmaron: \u00abSeguimos viendo un enorme incremento en tama\u00f1o de los modelos de IA que\u00a0<strong>conducen a un mejor rendimiento, aparentemente sin un fin a la vista<\/strong>\u00ab.<\/p>\n<hr \/>\n<p><img decoding=\"async\" src=\"https:\/\/teletrabajoynegocios.com\/teletrabajador\/wp-content\/uploads\/sites\/3\/2020\/07\/articulos.png\" \/><\/p>\n<p>[wp-rss-aggregator template=\u00bbDefault\u00bb]<\/p>\n<hr \/>\n<p>\u00bfQu\u00e9 significa que un modelo sea tan enorme?\u00a0El tama\u00f1o de un modelo, de una red neuronal entrenada, se mide por la cantidad de par\u00e1metros que tiene.\u00a0Se trata de los valores que se modifican una y otra vez durante el entrenamiento y luego se usan para las predicciones del modelo.\u00a0En t\u00e9rminos generales,\u00a0<strong>cuantos m\u00e1s par\u00e1metros tenga un modelo, m\u00e1s informaci\u00f3n podr\u00e1 absorber<\/strong>\u00a0de sus datos de entrenamiento y m\u00e1s precisas ser\u00e1n sus predicciones sobre los datos nuevos.<\/p>\n<p>GPT-3 tiene 175.000 millones de par\u00e1metros, 10 veces m\u00e1s que su predecesor, GPT-2.\u00a0Pero ya ha quedado eclipsado por la generaci\u00f3n de 2021. El gran modelo de lenguaje Jurassic-1, disponible comercialmente, lanzado este septiembre por la\u00a0<em>start-up<\/em>\u00a0estadounidense AI21 Labs, super\u00f3 a GPT-3 con 178.000 millones de par\u00e1metros.\u00a0Gopher, el nuevo modelo lanzado por DeepMind en diciembre, tiene 280.000 millones de par\u00e1metros.\u00a0Megatron-Turing NLG tiene 530.000 millones.\u00a0Los modelos\u00a0<strong>Switch-Transformer y GLaM de Google tienen un bill\u00f3n y 1,2 billones de par\u00e1metros<\/strong>, respectivamente.<\/p>\n<p>Esta tendencia no ocurre solo en EE. UU.\u00a0Este a\u00f1o, el gigante tecnol\u00f3gico chino Huawei construy\u00f3 un modelo de lenguaje de 200.000 millones de par\u00e1metros llamado PanGu.\u00a0Inspur, otra empresa china, present\u00f3 el modelo Yuan 1.0 de 245.000 millones de par\u00e1metros.\u00a0Baidu y el instituto de investigaci\u00f3n de Shenzhen (China) Peng Cheng Laboratory, anunciaron PCL-BAIDU Wenxin, su modelo con 280.000 millones de par\u00e1metros que Baidu ya est\u00e1 usando en una variedad de aplicaciones, como la b\u00fasqueda en internet,\u00a0<em>feeds<\/em>\u00a0de noticias y altavoces inteligentes.\u00a0La Academia de IA de\u00a0<strong>Beijing (China) lanz\u00f3 Wu Dao 2.0, que tiene 1,75 billones de par\u00e1metros<\/strong>.<\/p>\n<p>Adem\u00e1s, la empresa surcoreana de b\u00fasqueda en internet Naver hizo p\u00fablico su modelo denominado HyperCLOVA, con 204.000 millones de par\u00e1metros.<\/p>\n<p>Cada uno de estos modelos es una considerable haza\u00f1a de ingenier\u00eda.\u00a0Para empezar,\u00a0<strong>entrenar un modelo con m\u00e1s de 100.000 millones de par\u00e1metros es muy complejo<\/strong>: cientos de GPU (unidades de procesamiento gr\u00e1fico) individuales (el hardware elegido para entrenar las redes neuronales profundas) deben estar conectadas y sincronizadas, y la divisi\u00f3n de datos de entrenamiento debe ir por fragmentos distribuidos en el orden correcto y en el momento adecuado.<\/p>\n<p>Los grandes modelos de lenguaje se han convertido en proyectos de prestigio que muestran la destreza t\u00e9cnica de una empresa.\u00a0No obstante,\u00a0<strong>pocos de estos nuevos modelos ayudan a avanzar la investigaci\u00f3n<\/strong>\u00a0m\u00e1s all\u00e1 de repetir la demostraci\u00f3n de que la mayor escala da buenos resultados.<\/p>\n<p>Solo hay un pu\u00f1ado de innovaciones.\u00a0Despu\u00e9s de entrenarse, Switch-Transformer y GLaM de Google usan una fracci\u00f3n de sus par\u00e1metros para realizar predicciones y ahorrar algo de potencia inform\u00e1tica.\u00a0PCL-Baidu Wenxin combina un modelo como GPT-3 con un gr\u00e1fico de conocimiento (la t\u00e9cnica utilizada en la IA simb\u00f3lica de la vieja escuela para almacenar datos).\u00a0Junto con Gopher, DeepMind lanz\u00f3\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/13859\/retro-la-pequena-ia-de-lenguaje-de-deepmind-que-iguala-los-gigantes-del-campo\" target=\"_blank\" rel=\"noopener\">RETRO<\/a>, su modelo de lenguaje con solo 7.000 millones de par\u00e1metros que\u00a0<strong>compite con otros modelos 25 veces su tama\u00f1o<\/strong>, consultando una base de datos de documentos cuando genera texto.\u00a0Esto hace que sea menos costoso entrenar a RETRO que a sus rivales gigantes.<\/p>\n<p>Sin embargo, a pesar de los impresionantes resultados, los investigadores a\u00fan no comprenden exactamente\u00a0<strong>por qu\u00e9 aumentar el n\u00famero de par\u00e1metros conduce a un mejor rendimiento.<\/strong>\u00a0Tampoco tienen una soluci\u00f3n para el lenguaje t\u00f3xico y la desinformaci\u00f3n que estos modelos aprenden y repiten.\u00a0Como reconoci\u00f3 el equipo original de GPT-3 en un\u00a0<a href=\"https:\/\/proceedings.neurips.cc\/paper\/2020\/file\/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf\" target=\"_blank\" rel=\"noopener\">art\u00edculo que describe su tecnolog\u00eda<\/a>: \u00abLos modelos entrenados en internet contienen los sesgos de internet\u00bb.<\/p>\n<p>DeepMind afirma que la base de datos de RETRO es m\u00e1s f\u00e1cil de filtrar en busca de lenguaje nocivo que un modelo monol\u00edtico de caja negra, pero no lo ha demostrado del todo.\u00a0M\u00e1s informaci\u00f3n podr\u00eda provenir de\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/13400\/modelos-de-lenguaje-el-nuevo-gran-problema-social-de-la-ia\" target=\"_blank\" rel=\"noopener\">la iniciativa BigScience<\/a>, el nuevo consorcio creado por la empresa de inteligencia artificial Hugging Face, que consta de alrededor de 500 investigadores, muchos de ellos de grandes empresas tecnol\u00f3gicas, que ofrecen su tiempo como\u00a0<strong>voluntarios para construir y estudiar un modelo de lenguaje de c\u00f3digo abierto.<\/strong><\/p>\n<p>En un art\u00edculo publicado a principios de este a\u00f1o, la investigadora Timnit Gebru y sus colegas\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/12958\/claves-del-articulo-por-el-que-google-despidio-la-lider-de-etica-de-ia\" target=\"_blank\" rel=\"noopener\">destacaron una serie de problemas no<\/a>\u00a0<a href=\"https:\/\/www.technologyreview.es\/s\/12958\/claves-del-articulo-por-el-que-google-despidio-la-lider-de-etica-de-ia\" target=\"_blank\" rel=\"noopener\">resueltos con los modelos como GPT-3<\/a>: \u00ab<strong>Nos gustar\u00eda saber si se ha pensado lo suficiente en los posibles riesgos<\/strong>\u00a0asociados con su desarrollo y en las estrategias para mitigar estos riesgos\u00bb.<\/p>\n<p>A pesar de todo el esfuerzo realizado este a\u00f1o en la construcci\u00f3n de nuevos modelos de lenguaje, la IA todav\u00eda queda en la sombra de GPT-3.\u00a0\u00abEn 10 o 20 a\u00f1os, los modelos a gran escala ser\u00e1n la norma\u00bb, asegur\u00f3 Kaplan durante el debate de NeurIPS.\u00a0Si fuera as\u00ed, es hora de que los investigadores se centren\u00a0<strong>no solo en el tama\u00f1o de un modelo, sino tambi\u00e9n en lo que hacen con \u00e9l.<\/strong><\/p>\n<p><a href=\"https:\/\/www.technologyreview.es\/\"><em>Will Douglas Heaven<\/em><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Este a\u00f1o ha estado marcado por los modelos de inteligencia artificial (IA) de gran tama\u00f1o. Cuando OpenAI lanz\u00f3\u00a0GPT-3, en junio de 2020, la aparente comprensi\u00f3n del lenguaje de esta red neuronal resultaba asombrosa.\u00a0Pod\u00eda generar frases convincentes, conversar con personas e incluso autocompletar c\u00f3digo.\u00a0GPT-3 tambi\u00e9n era enorme, m\u00e1s grande que cualquier<span class=\"more-link\"><a href=\"https:\/\/bitacoraenlared.com\/internet\/2021-el-ano-de-los-modelos-de-inteligencia-artificial-gigantes\/\">Seguir leyendo<\/a><\/span><\/p>\n","protected":false},"author":1,"featured_media":3347,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":"","_links_to":"","_links_to_target":""},"categories":[9],"tags":[4,3],"class_list":["entry","author-admin","post-3346","post","type-post","status-publish","format-standard","has-post-thumbnail","category-tecnologia","tag-fuprisa","tag-jose-manuel-fuentes-prieto"],"nelio_content":{"autoShareEndMode":"never","automationSources":{"useCustomSentences":false,"customSentences":[]},"efiAlt":"","efiUrl":"","followers":[1],"highlights":[],"isAutoShareEnabled":true,"networkImageIds":[],"permalinkQueryArgs":[],"series":[],"suggestedReferences":[]},"jetpack_featured_media_url":"https:\/\/bitacoraenlared.com\/internet\/wp-content\/uploads\/sites\/2\/2022\/02\/madre-triste-ignorando-consuelo-hija.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/posts\/3346","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/comments?post=3346"}],"version-history":[{"count":2,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/posts\/3346\/revisions"}],"predecessor-version":[{"id":3356,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/posts\/3346\/revisions\/3356"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/media\/3347"}],"wp:attachment":[{"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/media?parent=3346"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/categories?post=3346"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bitacoraenlared.com\/internet\/wp-json\/wp\/v2\/tags?post=3346"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}