深度学习（DL）-代码探究-张量怎么变成二维矩阵

博主： Jiale
发布时间：2026 年 01 月 08 日
53 次浏览
暂无评论
1993字数
分类：深度学习

在深度学习代码中出现了张量如何转化为二维矩阵的例子，用AI整理过后形成了本文。

一、先理解：为什么要把张量展平成二维矩阵？

全连接层（仿射层）的核心运算是矩阵乘法：y = X · W + b，而矩阵乘法有严格的维度要求：

输入X必须是二维矩阵（形状：[样本数, 输入特征数]）
权重W是二维矩阵（形状：[输入特征数, 输出特征数]）

但实际场景中，输入往往不是二维的：

比如批量图片：形状是 [批量数, 通道数, 高, 宽]（例：(100, 3, 28, 28) → 100 张 3 通道 28×28 的图片）
比如批量序列数据：形状是 [批量数, 序列长度, 特征维度]（例：(50, 10, 128)）

这些高维张量无法直接和权重矩阵做乘法，必须先展平成二维——固定 “样本数” 为第一维，把剩下的所有维度合并成 “特征数” 一维。

二、核心操作：X.reshape(X.shape[0], -1) 详解

reshape是 NumPy/PyTorch 中重塑数组 / 张量形状的函数，这里的关键是X.shape[0]和-1的组合：

部分	作用
`X.shape[0]`	固定第一维为样本数（批量大小），保证每个样本的特征独立，不混淆。
`-1`	NumPy 的 “自动计算维度” 标记：让程序自动计算这一维的大小，等于「总元素数 ÷ 样本数」。

例子

假设输入是 100 张 3 通道 28×28 的图片，张量形状为 X.shape = (100, 3, 28, 28)：

import numpy as np

# 模拟输入：100张3通道28×28的图片
X = np.random.randn(100, 3, 28, 28)
print("原始形状：", X.shape)  # 输出：(100, 3, 28, 28)

# 展平成二维矩阵
X_flat = X.reshape(X.shape[0], -1)
print("展平后形状：", X_flat.shape)  # 输出：(100, 2352)
# 2352 = 3 × 28 × 28，刚好是单张图片的所有像素数（特征数）

再比如输入是 50 条序列数据（形状(50, 10, 128)）：

X = np.random.randn(50, 10, 128)
X_flat = X.reshape(X.shape[0], -1)
print(X_flat.shape)  # 输出：(50, 1280) → 1280 = 10 × 128

三、original_x_shape 的关键作用：恢复梯度形状

反向传播时，我们计算出的输入梯度dX一开始是展平后的二维形状（比如(100, 2352)），但前一层的输出是高维的（比如卷积层输出是(100, 3, 28, 28)），如果直接把二维的梯度传给前一层，维度会不匹配，导致计算错误。

所以original_x_shape的作用就是保存输入的原始形状，反向传播时用它把梯度恢复成原始维度：

python

运行

# 反向传播时恢复梯度形状
dX = np.dot(dy, self.W.T)  # 计算出的梯度是二维：(100, 2352)
dX = dX.reshape(*self.original_x_shape)  # 恢复成(100, 3, 28, 28)

这里的*self.original_x_shape是 Python 的 “解包” 操作，把保存的形状元组(100, 3, 28, 28)拆解成参数传给reshape，等价于dX.reshape(100, 3, 28, 28)。

总结

X.reshape(X.shape[0], -1) 是高维张量适配全连接层的核心：固定样本数维度，自动展平剩余维度为一维，得到 “样本数 × 总特征数” 的二维矩阵。
original_x_shape 是反向传播的 “维度桥梁”：保存原始形状，确保梯度能恢复成前一层需要的维度，避免维度不匹配错误。
-1 在 reshape 中是 “懒人神器”：无需手动计算展平后的特征数，由程序自动推导，适配任意高维输入。

最后修改：2026 年 01 月 08 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

深度学习（DL）-代码探究-张量怎么变成二维矩阵

Jiale • 2026 年 01 月 08 日

<blockquote>在深度学习代码中出现了张量如何转化为二维矩阵的例子，用AI整理过后形成了本文。</blockquote><h1>一、先理解：为什么要把张量展平成二维矩阵？</h1>全连接层（仿射层）的核心运算是矩阵乘法：<code>y = X · W + b</code>，而矩阵乘法有严格的维度要求：<ul><li>输入<code>X</code>必须是二维矩阵（形状：<code>[样本数, 输入特征数]</code>）</li><li>权重<code>W</code>是二维矩阵（形状：<code>[输入特征数, 输出特征数]</code>）</li></ul>但实际场景中，输入往往不是二维的：<ul><li>比如批量图片：形状是 <code>[批量数, 通道数, 高, 宽]</code>（例：<code>(100, 3, 28, 28)</code> → 100 张 3 通道 28×28 的图片）</li><li>比如批量序列数据：形状是 <code>[批量数, 序列长度, 特征维度]</code>（例：<code>(50, 10, 128)</code>）</li></ul>这些高维张量无法直接和权重矩阵做乘法，必须先展平成二维——固定 “样本数” 为第一维，把剩下的所有维度合并成 “特征数” 一维。<h1>二、核心操作：X.reshape(X.shape[0], -1) 详解</h1><code>reshape</code>是 NumPy/PyTorch 中重塑数组 / 张量形状的函数，这里的关键是<code>X.shape[0]</code>和<code>-1</code>的组合：<table><thead><tr><th>部分</th><th>作用</th></tr></thead><tbody><tr><td><code>X.shape[0]</code></td><td>固定第一维为样本数（批量大小），保证每个样本的特征独立，不混淆。</td></tr><tr><td><code>-1</code></td><td>NumPy 的 “自动计算维度” 标记：让程序自动计算这一维的大小，等于「总元素数 ÷ 样本数」。</td></tr></tbody></table><h4>例子</h4>假设输入是 100 张 3 通道 28×28 的图片，张量形状为 <code>X.shape = (100, 3, 28, 28)</code>：<pre><code class="lang-python">import numpy as np

# 模拟输入：100张3通道28×28的图片
X = np.random.randn(100, 3, 28, 28)
print(&quot;原始形状：&quot;, X.shape)  # 输出：(100, 3, 28, 28)

# 展平成二维矩阵
X_flat = X.reshape(X.shape[0], -1)
print(&quot;展平后形状：&quot;, X_flat.shape) # 输出：(100, 2352)
# 2352 = 3 × 28 × 28，刚好是单张图片的所有像素数（特征数）</code></pre>再比如输入是 50 条序列数据（形状<code>(50, 10, 128)</code>）：<pre><code class="lang-plain">X = np.random.randn(50, 10, 128)
X_flat = X.reshape(X.shape[0], -1)
print(X_flat.shape) # 输出：(50, 1280) → 1280 = 10 × 128</code></pre><h1>三、original_x_shape 的关键作用：恢复梯度形状</h1>反向传播时，我们计算出的输入梯度<code>dX</code>一开始是展平后的二维形状（比如<code>(100, 2352)</code>），但前一层的输出是高维的（比如卷积层输出是<code>(100, 3, 28, 28)</code>），如果直接把二维的梯度传给前一层，维度会不匹配，导致计算错误。所以<code>original_x_shape</code>的作用就是保存输入的原始形状，反向传播时用它把梯度恢复成原始维度：python运行<pre><code class="lang-plain"># 反向传播时恢复梯度形状
dX = np.dot(dy, self.W.T) # 计算出的梯度是二维：(100, 2352)
dX = dX.reshape(*self.original_x_shape) # 恢复成(100, 3, 28, 28)</code></pre>这里的<code>*self.original_x_shape</code>是 Python 的 “解包” 操作，把保存的形状元组<code>(100, 3, 28, 28)</code>拆解成参数传给<code>reshape</code>，等价于<code>dX.reshape(100, 3, 28, 28)</code>。<h2>总结</h2><ol><li><code>X.reshape(X.shape[0], -1)</code> 是高维张量适配全连接层的核心：固定样本数维度，自动展平剩余维度为一维，得到 “样本数 × 总特征数” 的二维矩阵。</li><li><code>original_x_shape</code> 是反向传播的 “维度桥梁”：保存原始形状，确保梯度能恢复成前一层需要的维度，避免维度不匹配错误。</li><li><code>-1</code> 在 reshape 中是 “懒人神器”：无需手动计算展平后的特征数，由程序自动推导，适配任意高维输入。</li></ol>

深度学习（DL）-代码探究-张量怎么变成二维矩阵

一、先理解：为什么要把张量展平成二维矩阵？

二、核心操作：X.reshape(X.shape[0], -1) 详解

例子

三、original_x_shape 的关键作用：恢复梯度形状

总结

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

C++程序设计基础第十二章（暂停更新）

C++程序设计基础第四章

C++程序设计基础第一章

数据科学&&大数据系统平台环境配置

数据库系统概论

绪论

C++程序设计基础第三章

数据科学&&大数据系统平台环境配置

C++程序设计基础第十章

数据结构第一章：数据结构基本认知和前置知识点复习

深度学习（DL）-代码探究-张量怎么变成二维矩阵

一、先理解：为什么要把张量展平成二维矩阵？

二、核心操作：X.reshape(X.shape[0], -1) 详解

例子

三、original_x_shape 的关键作用：恢复梯度形状

总结

发表评论 取消回复 快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

深度学习（DL）-代码探究-张量怎么变成二维矩阵

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ