Skip to content
  • Home
  • Python教學
  • 科技新聞資訊
  • 網站開發教學
Copyright 網絡設計教學 2025
Theme by ThemeinProgress
Proudly powered by WordPress
  • Home
  • Python教學
  • 科技新聞資訊
  • 網站開發教學
網絡設計教學網絡設計教學,網站網頁教學,軟體使用教學
  • You are here :
  • Home
  • python網頁教學
  • 解決Pytorch dataloader時報錯每個tensor維度不一樣的問題 python
python網頁教學

解決Pytorch dataloader時報錯每個tensor維度不一樣的問題 python

Jiking 2022-08-14 Article

使用pytorch的dataloader報錯:

RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1

1. 問題描述

報錯定位:位於定義dataset的代碼中

def __getitem__(self, index):
 ...
 return y    #此處報錯

報錯內容

File “D:\python\lib\site-packages\torch\utils\data\_utils\collate.py”, line 55, in default_collate
return torch.stack(batch, 0, out=out)
RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1

把前一行的報錯帶上能夠更清楚地明白問題在哪裡.

2.問題分析

從報錯可以看到,是在代碼中執行torch.stack時發生瞭報錯.因此必須要明白在哪裡執行瞭stack操作.

通過調試可以發現,在通過loader加載一個batch數據的時候,是通過每一次給一個隨機的index取出相應的向量.那麼最終要形成一個batch的數據就必須要進行拼接操作,而torch.stack就是進行這裡所說的拼接.

再來看看具體報的什麼錯: 說是stack的向量維度不同. 這說明在每次給出一個隨機的index,返回的y向量的維度應該是相同的,而我們這裡是不同的.

這樣解決方法也就明確瞭:使返回的向量y的維度固定下來.

3.問題出處

為什麼我會出現這樣的一個問題,是因為我的特征向量中存在multi-hot特征.而為瞭節省空間,我是用一個列表存儲這個特征的.示例如下:

feature=[[1,3,5],
  [0,2],
  [1,2,5,8]]

這就導致瞭我每次返回的向量的維度是不同的.因此可以采用向量補全的方法,把不同長度的向量補全成等長的.

 # 把所有向量的長度都補為6
 multi = np.pad(multi, (0, 6-multi.shape[0]), 'constant', constant_values=(0, -1))

4.總結

在構建dataset重寫的__getitem__方法中要返回相同長度的tensor.

可以使用向量補全的方法來解決這個問題.

補充:pytorch學習筆記:torch.utils.data下的TensorDataset和DataLoader的使用

一、TensorDataset

對給定的tensor數據(樣本和標簽),將它們包裝成dataset。註意,如果是numpy的array,或者Pandas的DataFrame需要先轉換成Tensor。

'''
data_tensor (Tensor) - 樣本數據
target_tensor (Tensor) - 樣本目標(標簽)
'''
 dataset=torch.utils.data.TensorDataset(data_tensor, 
                                        target_tensor)

下面舉個例子:

我們先定義一下樣本數據和標簽數據,一共有1000個樣本

import torch
import numpy as np
num_inputs = 2
num_examples = 1000
true_w = [2, -3.4]
true_b = 4.2
features = torch.tensor(np.random.normal(0, 1, 
                       (num_examples, num_inputs)), 
                       dtype=torch.float)

labels = true_w[0] * features[:, 0] + \
         true_w[1] * features[:, 1] + true_b

labels += torch.tensor(np.random.normal(0, 0.01, 
                       size=labels.size()), 
                       dtype=torch.float)

print(features.shape)
print(labels.shape)

'''
輸出:torch.Size([1000, 2])
     torch.Size([1000])
'''

然後我們使用TensorDataset來生成數據集

import torch.utils.data as Data
# 將訓練數據的特征和標簽組合
dataset = Data.TensorDataset(features, labels)

二、DataLoader

數據加載器,組合數據集和采樣器,並在數據集上提供單進程或多進程迭代器。它可以對我們上面所說的數據集Dataset作進一步的設置。

dataset (Dataset) – 加載數據的數據集。

batch_size (int, optional) – 每個batch加載多少個樣本(默認: 1)。

shuffle (bool, optional) – 設置為True時會在每個epoch重新打亂數據(默認: False).

sampler (Sampler, optional) – 定義從數據集中提取樣本的策略。如果指定,則shuffle必須設置成False。

num_workers (int, optional) – 用多少個子進程加載數據。0表示數據將在主進程中加載(默認: 0)

pin_memory:內存寄存,默認為False。在數據返回前,是否將數據復制到CUDA內存中。

drop_last (bool, optional) – 如果數據集大小不能被batch size整除,則設置為True後可刪除最後一個不完整的batch。如果設為False並且數據集的大小不能被batch size整除,則最後一個batch將更小。(默認: False)

timeout:是用來設置數據讀取的超時時間的,如果超過這個時間還沒讀取到數據的話就會報錯。 所以,數值必須大於等於0。

data_iter=torch.utils.data.DataLoader(dataset, batch_size=1, 
                            shuffle=False, sampler=None, 
                            batch_sampler=None, num_workers=0, 
                            collate_fn=None, pin_memory=False, 
                            drop_last=False, timeout=0, 
                            worker_init_fn=None, 
                            multiprocessing_context=None)

上面對一些重要常用的參數做瞭說明,其中有一個參數是sampler,下面我們對它有哪些具體取值再做一下說明。隻列出幾個常用的取值:

torch.utils.data.sampler.SequentialSampler(dataset)

樣本元素按順序采樣,始終以相同的順序。

torch.utils.data.sampler.RandomSampler(dataset)

樣本元素隨機采樣,沒有替換。

torch.utils.data.sampler.SubsetRandomSampler(indices)

樣本元素從指定的索引列表中隨機抽取,沒有替換。

下面就來看一個例子,該例子使用的dataset就是上面所生成的dataset

data_iter=Data.DataLoader(dataset, 
                          batch_size=10, 
                          shuffle=False,
sampler=torch.utils.data.sampler.RandomSampler(dataset))

for X, y in data_iter:
    print(X,"\n", y)
    break

'''
輸出:
tensor([[-1.6338,  0.8451],
        [ 0.7245, -0.7387],
        [ 0.4672,  0.2623],
        [-1.9082,  0.0980],
        [-0.3881,  0.5138],
        [-0.6983, -0.4712],
        [ 0.1400,  0.7489],
        [-0.7761, -0.4596],
        [-2.2700, -0.2532],
        [-1.2641, -2.8089]]) 

tensor([-1.9451,  8.1587,  4.2374,  0.0519,  1.6843,  4.3970,  
        1.9311,  4.1999,0.5253, 11.2277])
'''

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支援。

You may also like

πтLOC / pure | Betboom vs Shopify叛亂

(Shopify Dropshipping)!

2024 年 2024 年售價 10000 美元!

2024 年 2024 年 Shopify 購物季

Joomla:joomla 4.3/4.4/5.0 伺服器目標平台上的更新程式 XML 腳本

2023 新年快樂! (Shopify)

相关贴文:

  1. pytorch 6 batch train 批訓練操作 python
  2. pytorch 如何使用batch訓練lstm網絡 python
  3. python讀取一個大於10G的txt文件的方法 python
  4. 用python畫城市輪播地圖 python
  5. 用Python實現一個打字速度測試工具來測試你的手速 python
  6. 如何利用Python識別圖片中的文字詳解 python
  7. python 爬取影視網站下載鏈接 python
  8. 給numpy.array增加維度的超簡單方法 python 程式碼
Tags: 時報, 維度, 腳本

近期文章

  • 如何將Delhivery與WooCommerce(WordPress網站)鏈接| Delhivery WooCommerce API集成
  • 安裝和演示內容導入┇furnique┇現代家具WooCommerce主題。
  • 如何添加優惠券WooCommerce教程(2025)
  • 如何在WooCommerce Elementor中編輯單產品頁面(一步一步)
  • WooCommerce訂單的電報通知 – 插件演練
  • 如何在WooCommerce中編輯結帳頁面2024👍如何自定義您的WooCommerce結帳頁面Bangla
  • 用Terra Wallet添加錢包系統到WooCommerce
  • WooCommerce產品滑塊的Elementor的Loop Carousel(2024)
  • 集成41 | WooCommerce的優惠券推薦計劃

標籤雲

Dropshipping ecommerce JavaScript Joomla OSCHINA博客 python REBELLION Shopify Shopify 商店設置 Shopify 直銷 Woocommerce WordPress 代發貨 刀塔2 和 商店 商業 喬姆拉 在 如何創建 Shopify 商店 如何在 如何建立 Shopify 商店 如何開始代出貨 年 店舖教學 店鋪化 店鋪培訓 教學 獲獎產品 直銷 Shopify 直銷教程 科技資訊 程式碼 網路業務 網路賺錢 臉書廣告 與 行銷 詳解 購物 跨平台 運輸船 適合初學者的 Shopify 教學課程 適合初學者的直銷 電子商務

Copyright 網絡設計教學 2025