Estas en lo correcto por las razones equivocadas.
Primero la idea de inteligencia artificial general.
La inteligencia artificial general es cuando sistema pueda hacer el rendimiento en tareas de un ser humano pero sin entrenamiento explicito, sea el propio sistema que haga interacciones, en cierto sentido seria poder reemplazar lo que haga un ser humano por un sistema IAG.
Y el escenario propuesto por la singularidad fue dado en obras tan antiguas como "yo robot" el libro de Asimov de un cerebro cibertronico que puede inventar naves interespaciales casi perfectos o cualquier tecnología, de esta obra vienen las leyes de la robotica, son de ficcion, no algo que existan en el mundo de la investigación.
Ahora el escenario de la singularidad es cuando sea posible crear una IAG, entonces será posible la AIG diseña una AIG mas eficiente y potente en hardware mas potente por lo que podríamos hablar de X cantidad IAG, estas AIG trabajaran 24/7 con coordinación perfecta, con memoria perfecta, por lo que en un punto tendrán la capacidad de descubrir e inventar cualquier cosas, ahora el escenario de la singularidad es cuando se pasa de 1 IAG a 1,000,000 o 1,000,000,000 de IAG en poco mas de una década, teniendo ese poder coordinado, estas podrán encontrar la cura de todas las enfermedades, inventar naves intergaláctica, crear la inmortalidad, el poder de crear un desarrollo tecnológico de siglos en pocos años, entonces pasaría una carrera nuclear por tener mas IAG, la humanidad pasa todo su desarrollo en construir computadores mas grandes, este es escenario de la singularidad, las personas de la singularidad por lo general situan la singularidad, poco años antes de su muerte para tener la inmortalidad, consideran que los problemas sociales y economicos no tienen sentido porque al llevar la singularidad todo problema humano sera resuelto, este grupo nació de personas que lee ciencia ficción y quieren que sea real.
Y el primer enfoque para la IAG seria simplemente copiar el cerebro humano, calcular el numero de neuronas sus interconexiones, un famoso singularidista usaba el numero de transistores, comparado a el numero de neuronas y la ley moore(que Gordon moore murio hace pocos meses) sobre el incremento de transistores de forma exponencial en circuitos integrados.
Ahora con las redes neuronales profundas, se tiene a comparar el numero de parametros o neuronas con el cerebro humano.
Pero que ¿desventajas existen de ese enfoque?
El cerebro humano es biológico, las neuronas y sinapsis tienen muchas mas funciones y son mas complejas, seria mejor pensar en cada neurona como una computadora que como un transitor o un parámetro, algunos incluso especulan que las neuronas tienen procesos cuánticos, los procesos cuanticos son increiblement ineficientes de simular en computadoras fueras de pocos parámetros, si el cerebro es cuántico, es retrasaría en gran medida la llegada de una IAG.
Y entonces que son ¿las redes neuronales de las que tanto se hablan?
Son un modelo de aproximadores universales que usan algebra lineal como base, se modela la idea de modelos neuronales donde una neurona se conecta con otras y los pesos son la fuerza de la conexión entre neuronas 0 ningún, 1 máximo, en si las neuronas no existen en los modelos, pero las interconexiones que son representadas como matrices, para ejecutar la red neuronal, se ejecutan los pesos y la entrada, se multiplican matrices y se obtiene un resultado, el teorema fundamental, es que esas arquitecturas de neuronas pueden aproximar una funcion.
El entrenamiento de redes neuronales, es hacer que aprendan esos pesos, usando datos de entrenamientos para aproximar esas funciones dadas.
¿Y que es ChatGPT?
Es un modelo largo del lenguaje, un modelo largo del lenguaje, un modelo de lenguaje de gran tamaño.
Un modelo de lenguaje es una abstracción de distintas tareas de procesamiento del lenguaje natural, usando maquinas estadistas.
El procesamiento del lenguaje natural es un campo de estudio sobre como las computadoras procesan el lenguaje, se han planteado muchos problemas y sistemas, pero las maquinas estadistas se volvieron muy populares.
En general la idea es transformar las palabras en vectores, dado un diccionario de palabras, cada palabra es substituida por un numero, ahora no se piensan en letras, silabas u otras cosas, si no un numero, el significado de ese numero es la interrelación con otras palabras, el lenguaje como un sistema estadístico, por ejemplo en que contextos se usa la palabra "hola" en un texto, estos sistemas no son entrenados en reglas gramaticales, pero como sistemas estadísticos, ven el significado de las palabras dado miles de millones de ejemplos.
Si creamos un sistema computable que tenga una idea de las palabras y su uso, entonces se podran hacer operaciones sobre estos conjuntos estadísticos, el ejemplo mas usado mujer + rey es reina, si el sistema aprende la relacion de rey, el uso de mujer en distintos cargos, entonces una operación como mujer + rey, regresara la palabra reina, sin saber gramática, sin entender reglas, solo al analizar el texto, la palabra mas probable de mujer + rey es reina.
Ahora un modelo de lenguaje vera el lenguaje como consultas y transfomaciones de vectores, en este caso se puede ocurrir la idea de hacer traductores entre idiomas como analizar miles de millones de paginas de texto de un idioma A un idioma B, el modelo tendrá los vectores de un idioma A para simplemente traducir a idioma B.
Si la traducion de idiomas es solo una consulta, otros detalles, como dada una pregunta da una respuesta puede ser entrenado, un secuencia de palabras pregunta la probabilidad de otra secuencia de palabras.
La base es la misma que un sistema de cadenas de markov, incluso las cadenas de markov se expresan como multiplicaciones de matrices.
Si el lenguaje es un sistema de vectores, los modelos probabilistas para lo que queremos son matrices, ¿entonces que son necesarias las redes neuronales?
Simple, esta idea de tomar todas las palabras y ver su uso en miles de millones de frases, general el problema de necesitar un numero tan enorme de espacio en memoria que es imposible de hacerlo practico, el modelo se transforma en Diccionario elevado al numero de palabras, y entonces las redes neuronales como funciones de aproximación, se ha demostrado un enorme poder de compresión, el poder que creen su propia compresión interna de estados, para consultar, dado un entrenamiento.
Eso serian los modelos largos del lenguaje, el usar Redes neuronales profundas para resolver el problema de el lenguaje como una maquina estadistica.
Por lo que todo lo que ves en ChatGPT, es alimentar a ese sistema con toda wikipedia en todos los idiomas, reddit, Quora(El fundador de Quora es fundador de OpenAI), media internet, Cientos de Terrabytes de texto generado en su mayoria por humanos, si le haces una pregunta, ve el vector de palabras que es una pregunta e intenta ensamblar una respuesta dado los datos de entrenamiento.
En procesamiento del lenguaje estas consultando el estado de una maquina estadistas del lenguaje con vectores que tiene en su propio entrenamiento, una cadena de markov hiper desarrollada.
[Expand Post]
El problema que uno de los primeros spamers en internet fue una cadena de markov que tiraba texto en linea.
https://en.wikipedia.org/wiki/Markovian_Parallax_Denigrate