La revista Nature explica que el reto de la inteligencia artificial era desarrollar algoritmos que aprendan conceptos difíciles con una competencia humana. Ahora el AlphaGoZero lo ha logrado.
En 2016 se hizo famosa la primera versión de este programa, el Alpha Go. Este sistema requería de 48 TPU (chips especializados que simulan las redes neuronales) para funcionar. Para poder vencer al campeón mundial del Go, el Alpha Go necesitó de 30 millones de partidas de entrenamiento durante varios meses.
Ahora, el Alpha Go Zero ha logrado lo mismo con muchos menos recursos. Este utiliza solo 4 TPU, le bastaron 4.9 millones de partidas para entrenarse en tan solo 70 horas. En comparación es un programa sumamente más eficiente que su predecesor.
La diferencia entre los programas es que el segundo aprendió por si solo, mientras el primero aprendió a jugar en base a partidas de expertos.
El reto de los ingenieros en la nueva versión del algoritmo era lograr que aprendiera el juego partiendo de una “tabula rasa” y sin ningún conocimiento de partidas humanas previas.
Alpha Go Zero ha adquirido su maestría en el juego de estrategia únicamente disputando partidas contra sí mismo.
Empezó a jugar con movimientos de fichas al azar y fue aprendiendo en cada partida en base a los errores y aciertos cometidos.
El algoritmo funciona en una única computadora dotada con cuatro Unidades de Procesamiento de Tensor (TPU, en inglés), circuitos integrados desarrollados específicamente para el aprendizaje de máquinas.
Los autores del trabajo, ingenieros de la compañía británica DeepMind -adquirida por Google en 2014-, subrayan que su programa de inteligencia artificial ha descubierto de forma independiente algunos conceptos del juego del Go que los humanos tardaron siglos en conceptualizar.
AlphaGo Zero también ha desarrollado nuevas estrategias que no habían sido antes puestas en práctica y que arrojan nueva luz sobre las posibilidades del juego, inventado en China hace más de 2.500 años.