AI 大模型基础原理（上）：神经网络——AI 的底层是怎么运作的？

2026年4月28日

阅读需 6 分钟

开一个新系列，整理我与 AI 的一些对话和思考，记录关于大模型、技术变化与智能时代的持续观察。技术部分是理解的基础，文末用日常语言做整体理解，是这篇的落点。

本文内容较长，分上、中、下三篇发布，此为上篇。可单独读，也可按顺序读。

目标读者：对 AI 好奇，想知道「它是什么，是怎么想的」。

这篇文章讲什么

大模型（LLM，Large Language Model） 是指像 ChatGPT、Claude、Geminii、DeepSeek、Kimi、豆包这类能理解和生成自然语言的 AI 系统。「大」指的是模型参数量巨大（通常数百亿个），「语言模型」指的是它的核心能力是理解和生成语言。

大模型不是在查数据库，也不是在执行人写好的规则——它是通过海量文本训练出来的「概率预测系统」，本质上在做一件事：预测下一个最可能出现的词。

这个机制带来了惊人的能力，也带来了一个著名的缺陷：幻觉（Hallucination）——模型会生成听起来很合理但实际上是错误的内容。理解幻觉的根源，是用好 AI 工具的基本功。

大模型预测机制与幻觉

今天说的「AI」，大多数时候指的就是大模型。本篇从神经元、训练过程讲起，帮你建立对大模型工作方式的基本认知。

模型是用代码搭建的吗？它是把人类思维程序化了吗？

是。用代码搭建的，但内部的逻辑不是人写的，是学出来的。

代码定义了神经网络的结构（哪些「神经元」怎么连接），但权重（连接的强度）是通过训练自动调整的。没有人写「遇到这个问题用这个推理方法」，模型的「推理能力」是从海量数据里涌现出来的。

神经网络最原始的东西是什么？

一个神经元：收多个输入（x1、x2、x3） → 每个乘以权重（w1、w2、w3） → 加在一起 → 经激活函数处理后输出。

输入 x1, x2, x3
加权求和：x1×w1 + x2×w2 + x3×w3 + b
激活函数：max(0, 结果)    ← 引入非线性
输出一个数

可以画成这样：

神经元结构

成千上亿个这样的单元叠在一起 = 神经网络。结构（层数、连接方式）是人设计的，权重值是学出来的。

神经网络的「层」是什么概念？

神经网络层级结构

「深度」学习的「深」，就是指层数多——现代大模型有几十到上百层。

生物神经元也有权重：突触强度 = 反复激活的连接变强，不用的变弱（Hebb 规则，1949年神经科学家 Donald Hebb 发现）。人工神经网络用数字精确模拟了这个机制。

权重是不是就像肌肉记忆？或者「一人通过的小桥」和「十车道大路」？

对，这个比喻非常准确。

权重强弱对比

反复用某条路径 → 路变宽 → 通行更快更稳定。权重越大的连接，信息通过越顺畅，对结果影响越大。

肌肉记忆的神经机制也是这个：弹钢琴时反复练习的指法，对应的神经连接权重增加，不需要有意识控制就能流畅执行。

人工神经网络的训练权重，就是这个机制的数字版。

激活函数为什么要引入「非线性」？

线性叠多少层还是线性，解不了复杂问题。

线性 vs ReLU 非线性

线性：输入翻倍 → 输出翻倍，可预测，只能表达直线关系。

激活函数（如 ReLU）：输入小于 0 → 输出 0（截断）；大于 0 → 正常输出。这个「截断」就是非线性。

多层叠加非线性 → 模型能学会「这个条件满足才激活，否则静默」——也就是分类、边界识别、复杂模式。

「突破到某个层级后，回报成倍增长」——这也是非线性的一种体现：AI 能力随规模增大出现「涌现」现象，某个阈值后能力突然跳升，不是线性增长。

本篇小结

大模型不是人工写规则的系统——它的「智能」来自结构加数据，逻辑是训练出来的，不是编程进去的。本篇建立的是最底层的认知：

神经元 = 加权求和 + 激活函数：权重决定连接强度，激活函数引入非线性，让模型能学复杂模式
权重是训练出来的：代码定义结构，权重值通过梯度下降自动调整，没有人手写规则
非线性的意义：线性叠多少层还是线性；非线性让「涌现」成为可能——能力随规模超线性增长
内部的逻辑是学出来的：模型的「推理能力」是从海量数据里涌现出来的

延伸思考

简单单元，复杂行为

神经网络的反直觉之处在于：每个最小单元极其简单，只会做加法和乘法；但几十亿个这样的单元叠在一起，配上足够多的数据，就能涌现出读懂语言、理解意图的能力。这不是设计出来的，是学出来的。

类似蚁群：单只蚂蚁没有智能，但整个蚁群能解决复杂问题。大模型的「聪明」不在任何一个神经元里，而在亿万个连接的整体涌现中。

权重就是反应

如果要找一个最贴近「大模型学了什么」的比喻，权重是最准确的答案。它不是存了哪些知识，而是形成了一套反应模式——遇到这种输入，倾向于产生那种输出。就像一个人经历了很多事情之后，形成了自己的直觉和判断方式。这些判断不是规则，是习惯。

下一篇：涌现与训练 积木搭好之后，模型怎么「学会」东西的？为什么小模型和大模型之间存在能力的质变而非量变？训练循环是怎么运转的，梯度和过拟合又意味着什么——中篇展开这些问题。

这篇文章讲什么​

模型是用代码搭建的吗？它是把人类思维程序化了吗？​

神经网络最原始的东西是什么？​

权重是不是就像肌肉记忆？或者「一人通过的小桥」和「十车道大路」？​

激活函数为什么要引入「非线性」？​

本篇小结​

延伸思考​

简单单元，复杂行为​

权重就是反应​