IA · De la neurona de papel a la era del razonamiento

Ochenta años de oscilaciones entre euforia y abandono, desde un modelo matemático de neurona hasta modelos de lenguaje que razonan en tiempo real.

0001

El arco

La IA nace dos veces: primero como proyecto simbólico (reglas, lógica, sistemas expertos) y luego como proyecto estadístico y conexionista (redes, gradientes, datos masivos). Cada ciclo tiene su invierno. El punto de inflexión real llega en 2012 con AlexNet y la GPU barata: las redes neuronales escalan, la curva no se detiene. A partir de 2017, el Transformer unifica casi todo. A partir de 2022, el campo ya no trabaja con modelos sino con productos de consumo masivo que llegan a 100 millones de usuarios en dos meses. El problema que la columna resuelve es uno: hacer que las máquinas aprendan de la experiencia, no de las reglas escritas a mano.

0010

La cadena

1943

Neurona artificial — McCulloch y Pitts

Warren McCulloch (neurocientífico) y Walter Pitts (matemático de 18 años, autodidacta) publican A Logical Calculus of the Ideas Immanent in Nervous Activity. Proponen un modelo matemático de neurona que opera con lógica binaria: la neurona se activa o no según el umbral de sus entradas. Pitts había llegado a Chicago como vagabundo; McCulloch lo acogió y colaboraron en la cocina de su casa.

El paper no construye nada físico. Es pura abstracción: demostrar que redes de neuronas formales pueden computar cualquier función lógica.

Conduce a: Perceptrón (1958) · Depende de: 03_ARQUITECTURA#1936 · Máquina universal (Turing), 01_LOGICA#1847 · Álgebra booleana (Boole)

1950

Test de Turing — Alan Turing

Alan Turing publica Computing Machinery and Intelligence en Mind. Propone el "juego de imitación": si un evaluador humano no puede distinguir la respuesta de una máquina de la de un humano, la máquina puede considerarse inteligente. El paper dedica más espacio a anticipar objeciones que a defender la idea.

Turing no pretende dar una definición de inteligencia. Propone un criterio operativo. La pregunta "¿pueden pensar las máquinas?" se convierte en "¿pueden engañar a los humanos?".

Conduce a: Conferencia Dartmouth (1956)

1956

Conferencia Dartmouth — McCarthy, Minsky, Shannon, Rochester

John McCarthy (Dartmouth), Marvin Minsky (Harvard), Claude Shannon (Bell Labs) y Nathaniel Rochester (IBM) organizan un workshop de 6 semanas en Hanover, New Hampshire. McCarthy acuña el término "Artificial Intelligence" para evitar la carga del término "cibernética" de Wiener. Asisten 10 investigadores en total.

El workshop no produce resultados técnicos directos. Produce un campo: nombre, agenda, y una red de personas que dominarán la disciplina durante 30 años.

Conduce a: Perceptrón, ELIZA, sistemas expertos · Depende de: Test de Turing (1950)

1958

Perceptrón — Frank Rosenblatt

Frank Rosenblatt (Cornell Aeronautical Laboratory) construye el Perceptrón Mark I: hardware dedicado que aprende a clasificar imágenes mediante ajuste de pesos. El New York Times lo describe como "el embrión de un ordenador electrónico que se espera sea capaz de caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia."

Rosenblatt demuestra el teorema de convergencia: si los datos son linealmente separables, el perceptrón aprende en tiempo finito.

Conduce a: Invierno IA (1969) · Depende de: Neurona artificial (1943), Conferencia Dartmouth (1956)

1965

ELIZA — Joseph Weizenbaum

Joseph Weizenbaum (MIT) crea ELIZA: simula a un psicoterapeuta rogeriano mediante pattern-matching y sustitución de palabras clave. La secuencia "Estoy triste" se convierte en "¿Por qué estás triste?". Sin comprensión. Sin estado. Sin memoria.

Weizenbaum queda perturbado por la reacción: su secretaria le pide privacidad para hablar con el programa. Su propia hija desarrolla apego emocional. El "efecto ELIZA" — antropomorfizar cualquier sistema que responde en lenguaje natural — tiene 60 años de antigüedad.

Conduce a: Sistemas expertos (1980) · Depende de: Conferencia Dartmouth (1956)

1969

Invierno IA — Minsky y Papert

Marvin Minsky y Seymour Papert publican Perceptrons: análisis matemático riguroso de las limitaciones del perceptrón simple. El resultado clave: el perceptrón de una capa no puede aprender XOR. El DARPA recorta financiación. El conexionismo entra en hibernación.

El libro era técnicamente correcto sobre el perceptrón de una capa. No demostraba que múltiples capas tuvieran la misma limitación — pero la industria no distinguió.

Conduce a: Backpropagation (1986) · Depende de: Perceptrón (1958)

1980

Sistemas expertos — XCON, MYCIN, Prolog

Pico comercial de la IA simbólica. R1/XCON (Digital Equipment Corporation) configura pedidos de minicomputadoras VAX: ahorra 40M USD/año a DEC. MYCIN (Stanford, Edward Shortliffe y Bruce Buchanan) diagnostica infecciones bacterianas con precisión superior a médicos junior. El proyecto japonés Fifth Generation Computer Systems (1982) inyecta 500M USD en Prolog.

El paradigma: si codificas el conocimiento experto en reglas, la máquina razona. Funciona en dominios cerrados. Fracasa en el mundo real: las reglas no escalan, el mantenimiento es insostenible. El mercado colapsa entre 1987 y 1993.

Conduce a: Backpropagation (1986) como alternativa · Depende de: LISP (1958) para implementación

1986

Backpropagation — Rumelhart, Hinton, Williams

David Rumelhart, Geoffrey Hinton y Ronald Williams popularizan el algoritmo de retropropagación del error en Learning Representations by Back-propagating Errors (Nature, 1986). Paul Werbos lo había formulado en su tesis doctoral de 1974, ignorada durante 12 años.

La clave matemática: la regla de la cadena aplicada recursivamente permite calcular gradientes en redes multicapa. La red puede ahora aprender representaciones intermedias, no solo clasificar.

Conduce a: Deep Belief Nets (2006), LeNet-5 (1998) · Depende de: Invierno IA (1969)

1997

Deep Blue — IBM

IBM Deep Blue vence a Garry Kasparov en un match de 6 partidas (Filadelfia, mayo 1997): 3.5–2.5. El equipo lo componen Feng-hsiung Hsu, Murray Campbell y Joe Hoane, entre otros. Deep Blue evalúa 200 millones de posiciones por segundo con hardware dedicado.

No aprende. Busca con fuerza bruta + función de evaluación heurística ajustada por gran maestros. Es IA simbólica llevada al límite. Kasparov acusa a IBM de trampa; IBM rechaza su petición de revisar los logs. La polémica dura décadas.

Conduce a: AlphaGo (2016) como comparación · Depende de: 15_ALGORITMOS#1928 · Minimax

1998

LeNet-5 — Yann LeCun

Yann LeCun (AT&T Bell Labs) publica LeNet-5: red convolucional entrenada con backprop para reconocimiento de dígitos manuscritos. Los bancos la usan para leer cheques. La arquitectura: convolución → pooling → convolución → pooling → fully connected.

LeCun lleva 15 años insistiendo en que las redes profundas funcionan. Los patrocinadores no creen en el escenario más allá de este nicho específico.

Conduce a: AlexNet (2012) · Depende de: Backpropagation (1986)

2006

Deep Belief Nets — Geoffrey Hinton

Geoffrey Hinton (University of Toronto) publica A Fast Learning Algorithm for Deep Belief Nets en Science. La idea: pre-entrenar capa a capa con máquinas de Boltzmann restringidas (RBM) antes del fine-tuning supervisado. Resuelve el problema del gradiente evanescente en redes profundas.

El paper se publica en el desierto: la mayoría de la comunidad sigue apostando por SVM. Hinton convierte a un pequeño grupo de estudiantes — entre ellos Ruslan Salakhutdinov — en el núcleo de lo que será el deep learning moderno.

Conduce a: AlexNet (2012) · Depende de: Backpropagation (1986)

2009

ImageNet — Fei-Fei Li

Fei-Fei Li (Princeton, luego Stanford) lidera la creación de ImageNet: 14 millones de imágenes etiquetadas en 22.000 categorías, usando Amazon Mechanical Turk y 50.000 trabajadores. La competición ILSVRC (ImageNet Large Scale Visual Recognition Challenge) arranca en 2010.

La tesis de Li: los algoritmos son secundarios. El problema de la visión por ordenador es un problema de datos. ImageNet demuestra que tiene razón.

Conduce a: AlexNet (2012) · Depende de: ningún nodo previo en cadena directa — punto de inflexión autónomo de datos

2012

AlexNet — Krizhevsky, Sutskever, Hinton

Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton (University of Toronto) ganan ILSVRC 2012 con error top-5 del 15.3%, frente al 26.2% del segundo clasificado. El margen de 10 puntos porcentuales es tan grande que el comité piensa en un error.

Entrenado en 2× GTX 580 (3 GB VRAM cada una) durante 5–6 días. 60 millones de parámetros. La clave: dropout para regularización, ReLU en lugar de tanh/sigmoid, y data augmentation masiva.

Conduce a: AlphaGo (2016), Transformer (2017), AlphaFold 1 (2018), GANs (2014) · Depende de: Deep Belief Nets (2006), ImageNet (2009), 12_PARALELISMO#2006 · CUDA

2013

Word2Vec — Tomas Mikolov

Tomas Mikolov y equipo en Google (inc. Kai Chen, Greg Corrado, Jeff Dean) publican Word2Vec: vectores densos de palabras entrenados con redes neuronales superficiales. La demo: rey - hombre + mujer ≈ reina. La analogía vectorial revela estructura semántica latente.

El paper clave es el segundo de septiembre 2013. El primero (enero) describe la arquitectura; el segundo explica los trucos que lo hacen práctico (negative sampling, subsampling de palabras frecuentes).

Conduce a: Transformer (2017) · Depende de: Backpropagation (1986), LISP como raíz conceptual del simbolismo que Word2Vec supera

2014

GANs — Ian Goodfellow

Ian Goodfellow (Université de Montréal) propone las Generative Adversarial Networks en un paper de junio 2014. La arquitectura: un generador crea datos sintéticos; un discriminador los evalúa. Los dos se entrenan en oposición. La idea surge en una discusión en un bar después de la defensa de tesis de un amigo.

El paper original genera imágenes de 28×28 píxeles borrosas. En 10 años, el principio escala a DALL-E, Midjourney y Stable Diffusion.

Conduce a: Diffusion (2022) · Depende de: AlexNet (2012)

2016

AlphaGo — DeepMind

DeepMind (Demis Hassabis, David Silver y equipo) vence a Lee Sedol en Go: 4–1 (Seúl, marzo 2016). Go tiene más posiciones que átomos en el universo observable. La fuerza bruta no alcanza.

AlphaGo combina redes de política (qué jugada hacer), redes de valor (qué tan buena es una posición) y MCTS (Monte Carlo Tree Search). El entrenamiento: primero aprendizaje supervisado con 160.000 partidas humanas, luego reinforcement learning contra sí mismo.

La jugada 37 del partido 2 — un movimiento que ningún humano habría jugado, que resultó ganador — es el momento en que el mundo comprende que el sistema no imita humanos; los supera.

Conduce a: Algoritmos agénticos (2024) · Depende de: AlexNet (2012), 15_ALGORITMOS#1928 · Minimax

2017

Transformer — Vaswani et al.

Ashish Vaswani y 7 coautores en Google Brain publican Attention Is All You Need en NeurIPS 2017. La idea: descartar las RNN/LSTM y dejar que cada token atienda a todos los demás simultáneamente. Self-attention paraleliza lo que antes era secuencial.

El paper sale de un proyecto interno de traducción automática EN→DE. Jakob Uszkoreit propone la idea inicial de usar solo atención. Noam Shazeer reescribe el código. Llion Jones lo implementa en el framework Tensor2Tensor. Nadie predice que en 5 años cambiará todo.

Conduce a: GPT-1 (2018), BERT (2018), ChatGPT (2022), Claude, Gemini · Depende de: Word2Vec (2013), AlexNet (2012), 12_PARALELISMO#2017 · Tensor Cores

2018

AlphaFold 1 — DeepMind

DeepMind gana CASP13 (dic 2018): primer salto cualitativo de IA en predicción de plegamiento de proteínas. El equipo lo lidera Andrew Senior y John Jumper. AlphaFold 1 usa redes residuales profundas para predecir mapas de distancias entre residuos de aminoácidos.

El récord anterior requería años de trabajo experimental por proteína (cristalografía de rayos X, cryo-EM). AlphaFold 1 no resuelve el problema — pero demuestra que el deep learning puede atacarlo.

Conduce a: AlphaFold 2 (2021) · Depende de: AlexNet (2012), Transformer (como arquitectura paralela)

2018

GPT-1 — OpenAI

OpenAI publica GPT-1 (jun 2018): transformer decoder-only preentrenado en 117M parámetros sobre BookCorpus (~4.5 GB de texto). El diseño es de Alec Radford, Karthik Narasimhan, Tim Salimans e Ilya Sutskever.

La apuesta: pretraining + fine-tuning escala mejor que entrenar desde cero para cada tarea. La demostración es modesta. La dirección es clara.

Conduce a: GPT-3 (2020) · Depende de: Transformer (2017)

2018

BERT — Google

Google libera BERT (oct 2018): Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova. Transformer bidireccional encoder-only, preentrenado con masked language modeling y next sentence prediction. 110M/340M parámetros.

BERT supera a humanos en 11 benchmarks de NLP el día de su publicación. En semanas, Google lo integra en su motor de búsqueda — el mayor cambio en el ranking de búsqueda en 5 años.

Conduce a: GPT-3 (2020) · Depende de: Transformer (2017)

2020

GPT-3 · scaling — OpenAI

OpenAI publica GPT-3 (175B parámetros, jun 2020). El paper clave: Kaplan et al. (ene 2020) había publicado las "scaling laws" — el rendimiento mejora predeciblemente con tamaño + datos + cómputo. GPT-3 es la primera demostración a escala de few-shot learning sin fine-tuning.

Tom Brown lidera el equipo de GPT-3. El coste de entrenamiento estimado: 4.6M USD. El mensaje a la industria: si tienes cómputo y datos, escala.

Conduce a: ChatGPT (2022), LLaMA (2023) · Depende de: GPT-1 (2018), BERT (2018)

2021

AlphaFold 2 — DeepMind

DeepMind resuelve el plegamiento de proteínas con precisión cristalográfica. CASP14 (dic 2020): puntuación media GDT 92.4 — comparable a los mejores resultados experimentales. El equipo: John Jumper (PI), Demis Hassabis (CEO), Richard Evans, y decenas de investigadores.

En julio 2022 liberan la base de datos completa: 214 millones de estructuras predichas — prácticamente todas las proteínas conocidas. El acceso es gratuito.

Premio Nobel de Química 2024 a Hassabis y Jumper junto a David Baker por diseño de proteínas.

Conduce a: Foundation simulation (2027) · Depende de: AlphaFold 1 (2018), GPT-3 (como contexto de escala)

2022

ChatGPT — OpenAI

OpenAI lanza ChatGPT (30 nov 2022). 100 millones de usuarios en 2 meses — el producto de mayor adopción en la historia del software. El modelo subyacente es GPT-3.5 ajustado con RLHF (Reinforcement Learning from Human Feedback). Sam Altman (CEO), Greg Brockman (CTO), equipo de seguridad y RLHF.

La diferencia técnica con GPT-3 puro es modesta. La diferencia de producto es enorme: interfaz conversacional, safety filtering, respuestas útiles y no solo coherentes.

Conduce a: GPT-4 (2023), LLaMA (2023), MCP (2024) · Depende de: GPT-3 (2020), Transformer (2017)

2022

Diffusion — Stability AI, OpenAI, Midjourney

Stable Diffusion (Stability AI, ago 2022) · DALL-E 2 (OpenAI, abr 2022) · Midjourney (mar 2022). Los modelos de difusión latente (basados en trabajo de Jonathan Ho, Chitwan Saharia y otros) democratizan la generación de imágenes.

Stable Diffusion se libera con pesos abiertos. En 72 horas hay versiones locales en ordenadores domésticos. En un mes, el mercado del stock de imágenes siente el impacto.

Conduce a: GPT-4 multimodal (2023) · Depende de: GANs (2014) como antecesor conceptual

2023

GPT-4 — OpenAI

OpenAI lanza GPT-4 (mar 2023): primer modelo multimodal masivo (texto + imagen como entrada). Puntuación en el bar exam: percentil 90. En USMLE Medical Licensing: aprueba. En GRE Verbal: percentil 99.

La arquitectura es un secreto. OpenAI no publica el número de parámetros. Sam Altman dice que las "scaling laws" ya no funcionan igual — la eficiencia importa más que la escala bruta.

Conduce a: o1 (2024), Gemini (2023), DeepSeek-R1 (2025) · Depende de: ChatGPT (2022), Diffusion (2022)

2023

LLaMA — Meta

Meta libera LLaMA (feb 2023): primer LLM competitivo con pesos abiertos. El equipo lo lidera Hugo Touvron y Thibaut Lavril entre otros. LLaMA 2 (jul 2023), LLaMA 3 (abr 2024), LLaMA 4 (2025). Hugging Face explota en tráfico.

La filtración de los pesos de LLaMA 1 (3 días después de la publicación restringida) acelera todo: en semanas hay versiones fine-tuneadas para instrucciones que compiten con ChatGPT.

Conduce a: Mistral (2023), DeepSeek-R1 (2025) · Depende de: ChatGPT (2022), GPT-4 (2023)

2023

Mistral · open EU — Mistral AI

Mistral AI (París, fundada jun 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix, ex-DeepMind y ex-Meta): Mistral 7B (sep 2023) · Mixtral 8x7B (dic 2023, Mixture of Experts) · Mistral Large (feb 2024).

Mistral 7B supera a LLaMA 2 13B en todos los benchmarks a la mitad de parámetros. La estrategia: eficiencia + pesos abiertos + Europa. Mixtral introduce MoE: solo 2 de 8 expertos activos por token — velocidad de 12.9B con capacidad de 45B.

Conduce a: DeepSeek-R1 (2025) · Depende de: LLaMA (2023)

2023

Gemini Ultra → 2.5 — Google DeepMind

Google DeepMind lanza Gemini Ultra (dic 2023): multimodal nativo desde el pretraining (texto + imagen + audio + vídeo en el mismo modelo). Primer modelo que supera a humanos en MMLU. El proyecto unifica DeepMind y Google Brain bajo Demis Hassabis.

Gemini 2.5 (2025) añade extended thinking. Se ejecuta sobre TPUs propios — la única arquitectura frontier que no depende de NVIDIA.

Conduce a: Claude Opus 4.7 (2026) como contexto competitivo · Depende de: Transformer (2017), 12_PARALELISMO#TPU v5p

2024

o1 · reasoning — OpenAI

OpenAI lanza o1 (sep 2024): el modelo genera cadenas de razonamiento internas largas (chain-of-thought) antes de responder, entrenadas con reinforcement learning. En matemáticas de competición (AIME 2024): 83% frente al 13% de GPT-4o. En física (GPQA Diamond): 78% frente al 56% de GPT-4o.

El paradigma cambia: en lugar de hacer el modelo más grande, se le da más tiempo de cómputo en inferencia.

Conduce a: Claude Opus 4.7 (2026), GPT-5 (2025), DeepSeek-R1 (2025) · Depende de: GPT-4 (2023)

2024

Nobel Hopfield+Hinton — Premio Nobel de Física

John Hopfield (Princeton) y Geoffrey Hinton (University of Toronto / Google) reciben el Nobel de Física 2024 "por descubrimientos fundamentales que permiten el aprendizaje automático con redes neuronales artificiales" (oct 2024). Hopfield: las redes asociativas (1982). Hinton: la máquina de Boltzmann y backprop (1986).

El comité del Nobel da el premio de física a dos científicos que no trabajan en física de partículas ni cosmología. La señal es inequívoca.

Conduce a: Reconocimiento de toda la cadena perceptrón → backprop → deep learning · Depende de: Backpropagation (1986)

2024

Phi-3 · small models — Microsoft

Microsoft Research lanza Phi-3 (mayo 2024): 3.8B parámetros competitivo con modelos de 30B. El equipo lo lidera Sebastien Bubeck. La tesis: la calidad de los datos de entrenamiento importa más que la escala. Phi-3 se entrena con datos cuidadosamente filtrados y sintéticos.

El resultado práctico: un modelo que cabe en un teléfono y responde como un modelo de datacenter de hace dos años.

Conduce a: NPU mainstream (2024) via on-device AI · Depende de: GPT-3 (2020) como referencia de escala a superar con menos parámetros

2025

DeepSeek-R1 — DeepSeek (China)

DeepSeek (Hangzhou, China — filial de High-Flyer Capital) libera R1 (ene 2025): primer reasoning model open-weights competitivo con OpenAI o1. El equipo de entrenamiento está liderado por Liang Wenfeng. Coste de entrenamiento declarado: ~6M USD frente a cientos de millones para modelos equivalentes.

El lanzamiento provoca una caída del 17% en la cotización de NVIDIA en un día (585.000M USD de capitalización evaporados). La hipótesis del mercado: si se puede entrenar tan barato, la demanda de GPUs cae.

Conduce a: Claude Opus 4.7 (2026), GPT-5 (2025) · Depende de: o1 (2024), LLaMA (2023), Mistral (2023)

2025

GPT-5 — OpenAI

OpenAI lanza GPT-5 (ago 2025): unifica el linaje 4o (multimodal) y el o-series (reasoning) en un solo modelo. Razonamiento adaptativo: el modelo decide cuánto tiempo de pensamiento dedicar según la dificultad de la pregunta.

Conduce a: cierre del primer ciclo LLM moderno; próxima frontera: agentes autónomos persistentes · Depende de: o1 (2024), GPT-4 (2023)

2026

Claude Opus 4.7 · 1M — Anthropic

Anthropic lanza Claude Opus 4.7 con ventana de contexto de 1 millón de tokens y razonamiento extendido por defecto. La transición de "chat" a "agente": ciclos de pensamiento encadenados, uso de herramientas, memoria persistente entre sesiones.

Conduce a: Memoria agéntica (2027) · Depende de: o1 (2024), DeepSeek-R1 (2025), Gemini 2.5 (2025)

0050

Personas clave

Año	Persona	Aportación	País/Institución
1943	Warren McCulloch	Modelo matemático de neurona	Illinois/MIT
1943	Walter Pitts	Formalización matemática del neurona artificial	MIT (autodidacta, Chicago)
1950	Alan Turing	Test de Turing, marco filosófico IA	UK / Manchester
1956	John McCarthy	Acuña "Artificial Intelligence", organiza Dartmouth	Dartmouth / MIT / Stanford
1956	Marvin Minsky	Co-organizador Dartmouth, MIT AI Lab	MIT
1956	Claude Shannon	Co-organizador Dartmouth	Bell Labs
1956	Nathaniel Rochester	Co-organizador Dartmouth	IBM
1958	Frank Rosenblatt	Perceptrón Mark I	Cornell Aeronautical Lab
1965	Joseph Weizenbaum	ELIZA, primer chatbot	MIT
1969	Marvin Minsky	Co-autor Perceptrons (crítica al conexionismo)	MIT
1969	Seymour Papert	Co-autor Perceptrons	MIT
1974	Paul Werbos	Formulación original backpropagation (tesis)	Harvard
1980	Edward Shortliffe	MYCIN (diagnóstico médico experto)	Stanford
1980	Bruce Buchanan	MYCIN co-autor	Stanford
1986	David Rumelhart	Popularización de backpropagation	UCSD
1986	Geoffrey Hinton	Backpropagation, Deep Belief Nets, Nobel 2024	Toronto / Google
1986	Ronald Williams	Co-autor backpropagation	Northeastern
1997	Feng-hsiung Hsu	Deep Blue, arquitectura hardware	IBM
1997	Murray Campbell	Deep Blue, equipo principal	IBM
1997	Joe Hoane	Deep Blue, equipo principal	IBM
1998	Yann LeCun	LeNet-5, CNNs, padre del deep learning visual	AT&T Bell Labs / Meta
2006	Geoffrey Hinton	Deep Belief Nets (segunda aparición clave)	Toronto
2006	Ruslan Salakhutdinov	Deep Belief Nets co-autor	Toronto
2009	Fei-Fei Li	ImageNet	Princeton / Stanford
2012	Alex Krizhevsky	AlexNet	Toronto
2012	Ilya Sutskever	AlexNet, OpenAI co-fundador	Toronto / OpenAI
2013	Tomas Mikolov	Word2Vec	Google
2013	Kai Chen	Word2Vec	Google
2013	Greg Corrado	Word2Vec	Google
2013	Jeff Dean	Word2Vec, TPU, Google Brain	Google
2014	Ian Goodfellow	GANs	Université de Montréal
2016	Demis Hassabis	AlphaGo, AlphaFold, Nobel 2024	DeepMind / Google
2016	David Silver	AlphaGo PI	DeepMind
2017	Ashish Vaswani	Transformer lead author	Google Brain
2017	Jakob Uszkoreit	Idea inicial del Transformer (solo attention)	Google
2017	Noam Shazeer	Transformer, implementación clave	Google Brain
2017	Llion Jones	Tensor2Tensor, implementación Transformer	Google
2018	Andrew Senior	AlphaFold 1 co-líder	DeepMind
2018	John Jumper	AlphaFold 1, AlphaFold 2 PI, Nobel 2024	DeepMind
2018	Alec Radford	GPT-1 lead	OpenAI
2018	Jacob Devlin	BERT lead	Google
2020	Tom Brown	GPT-3 lead	OpenAI
2021	Richard Evans	AlphaFold 2 equipo	DeepMind
2022	Sam Altman	ChatGPT, CEO OpenAI	OpenAI
2022	Greg Brockman	ChatGPT, CTO OpenAI	OpenAI
2023	Hugo Touvron	LLaMA lead	Meta
2023	Arthur Mensch	Mistral AI co-fundador	Mistral AI
2023	Guillaume Lample	Mistral AI co-fundador	Mistral AI
2023	Timothée Lacroix	Mistral AI co-fundador	Mistral AI
2024	John Hopfield	Redes asociativas, Nobel 2024	Princeton
2024	Sebastien Bubeck	Phi-3 lead	Microsoft Research
2025	Liang Wenfeng	DeepSeek R1	DeepSeek / High-Flyer

0080

Cross-column dependencies

Lo que esta columna recibe de otras columnas:

↗De 03_ARQUITECTURA#1948 · Autómatas autoreplicantes → habilita Perceptrón (neurona como unidad computable)
↗De 01_LOGICA#1847 · Álgebra booleana → sustrato lógico de la neurona artificial
↗De 12_PARALELISMO#2006 · CUDA → hace viable entrenar AlexNet en 2012
↗De 12_PARALELISMO#2017 · Tensor Cores → hardware para entrenar Transformers
↗De 12_PARALELISMO#TPU v1 → habilita escalar modelos de Google a partir de 2016
↗De 07_SOFTWARE#1958 · LISP → lengua franca de la IA simbólica, sustrato de sistemas expertos
↗De 15_ALGORITMOS#1928 · Minimax → lógica de búsqueda en árbol usada por Deep Blue y AlphaGo
↗De 15_ALGORITMOS#2017 · Attention → algoritmo base del Transformer

Lo que esta columna aporta a otras columnas:

↘De Transformer (2017) → habilita 12_PARALELISMO#TPU v5p (diseño de hardware específico)
↘De Transformer (2017) → habilita 12_PARALELISMO#Etched Sohu (ASIC dedicado a Transformers)
↘De ChatGPT (2022) → habilita 09_DATOS#MCP Protocol (estándar agente↔datos)
↘De Transformer (2017) → habilita 14_SIMULACION#World Models/Sora (modelos generativos físicos)
↘De AlphaFold 2 (2021) → habilita 14_SIMULACION#Foundation Simulation
↘De Transformer (2017) → habilita 10_ROBOTICA#Humanoides comerciales
↘De Claude Opus 4.7 (2026) → habilita 09_DATOS#Agentic Memory
↘De Backpropagation (1986) → Nobel 2024 como reconocimiento institucional
↘De AlexNet (2012) → habilita 14_SIMULACION#AlphaFold 1 como primer demo científica

0090

Lectura siguiente

Si te interesa cómo el hardware aceleró el deep learning → 12_PARALELISMO
Si quieres seguir la rama robótica y física → 14_SIMULACION
Si te interesa el límite cuántico de lo que computan las máquinas → 13_CUANTICA

0099

Fuente

Datos extraídos del grafo interactivo en https://zoopa.es/files/historia-computacion-hitos-20260423.html