跳到主要内容

AI 大模型基础原理(上):神经网络——AI 的底层是怎么运作的?

阅读需 6 分钟

开一个新系列,整理我与 AI 的一些对话和思考,记录关于大模型、技术变化与智能时代的持续观察。技术部分是理解的基础,文末用日常语言做整体理解,是这篇的落点。

本文内容较长,分上、中、下三篇发布,此为上篇。可单独读,也可按顺序读。

目标读者:对 AI 好奇,想知道「它是什么,是怎么想的」。


这篇文章讲什么

大模型(LLM,Large Language Model) 是指像 ChatGPT、Claude、Geminii、DeepSeek、Kimi、豆包这类能理解和生成自然语言的 AI 系统。「大」指的是模型参数量巨大(通常数百亿个),「语言模型」指的是它的核心能力是理解和生成语言。

大模型不是在查数据库,也不是在执行人写好的规则——它是通过海量文本训练出来的「概率预测系统」,本质上在做一件事:预测下一个最可能出现的词

这个机制带来了惊人的能力,也带来了一个著名的缺陷:幻觉(Hallucination)——模型会生成听起来很合理但实际上是错误的内容。理解幻觉的根源,是用好 AI 工具的基本功。

大模型预测机制与幻觉

今天说的「AI」,大多数时候指的就是大模型。本篇从神经元、训练过程讲起,帮你建立对大模型工作方式的基本认知。


模型是用代码搭建的吗?它是把人类思维程序化了吗?

是。用代码搭建的,但内部的逻辑不是人写的,是学出来的

代码定义了神经网络的结构(哪些「神经元」怎么连接),但权重(连接的强度)是通过训练自动调整的。没有人写「遇到这个问题用这个推理方法」,模型的「推理能力」是从海量数据里涌现出来的。


神经网络最原始的东西是什么?

一个神经元:收多个输入(x1、x2、x3) → 每个乘以权重(w1、w2、w3) → 加在一起 → 经激活函数处理后输出。

输入 x1, x2, x3
加权求和:x1×w1 + x2×w2 + x3×w3 + b
激活函数:max(0, 结果) ← 引入非线性
输出一个数

可以画成这样:

神经元结构

成千上亿个这样的单元叠在一起 = 神经网络。结构(层数、连接方式)是人设计的,权重值是学出来的。

神经网络的「层」是什么概念?

神经网络层级结构

「深度」学习的「深」,就是指层数多——现代大模型有几十到上百层。

生物神经元也有权重:突触强度 = 反复激活的连接变强,不用的变弱(Hebb 规则,1949年神经科学家 Donald Hebb 发现)。人工神经网络用数字精确模拟了这个机制。


权重是不是就像肌肉记忆?或者「一人通过的小桥」和「十车道大路」?

对,这个比喻非常准确。

权重强弱对比

反复用某条路径 → 路变宽 → 通行更快更稳定。权重越大的连接,信息通过越顺畅,对结果影响越大。

肌肉记忆的神经机制也是这个:弹钢琴时反复练习的指法,对应的神经连接权重增加,不需要有意识控制就能流畅执行。

人工神经网络的训练权重,就是这个机制的数字版。


激活函数为什么要引入「非线性」?

线性叠多少层还是线性,解不了复杂问题。

线性 vs ReLU 非线性

线性:输入翻倍 → 输出翻倍,可预测,只能表达直线关系。

激活函数(如 ReLU):输入小于 0 → 输出 0(截断);大于 0 → 正常输出。这个「截断」就是非线性。

多层叠加非线性 → 模型能学会「这个条件满足才激活,否则静默」——也就是分类、边界识别、复杂模式。

「突破到某个层级后,回报成倍增长」——这也是非线性的一种体现:AI 能力随规模增大出现「涌现」现象,某个阈值后能力突然跳升,不是线性增长。


本篇小结

大模型不是人工写规则的系统——它的「智能」来自结构加数据,逻辑是训练出来的,不是编程进去的。本篇建立的是最底层的认知:

  • 神经元 = 加权求和 + 激活函数:权重决定连接强度,激活函数引入非线性,让模型能学复杂模式
  • 权重是训练出来的:代码定义结构,权重值通过梯度下降自动调整,没有人手写规则
  • 非线性的意义:线性叠多少层还是线性;非线性让「涌现」成为可能——能力随规模超线性增长
  • 内部的逻辑是学出来的:模型的「推理能力」是从海量数据里涌现出来的

延伸思考

简单单元,复杂行为

神经网络的反直觉之处在于:每个最小单元极其简单,只会做加法和乘法;但几十亿个这样的单元叠在一起,配上足够多的数据,就能涌现出读懂语言、理解意图的能力。这不是设计出来的,是学出来的。

类似蚁群:单只蚂蚁没有智能,但整个蚁群能解决复杂问题。大模型的「聪明」不在任何一个神经元里,而在亿万个连接的整体涌现中。

权重就是反应

如果要找一个最贴近「大模型学了什么」的比喻,权重是最准确的答案。它不是存了哪些知识,而是形成了一套反应模式——遇到这种输入,倾向于产生那种输出。就像一个人经历了很多事情之后,形成了自己的直觉和判断方式。这些判断不是规则,是习惯。


下一篇:涌现与训练 积木搭好之后,模型怎么「学会」东西的?为什么小模型和大模型之间存在能力的质变而非量变?训练循环是怎么运转的,梯度和过拟合又意味着什么——中篇展开这些问题。

阅读微信公众号文章
Loading Comments...