你應該懂的AI大模型(七)之 datasets
dataset庫也是Hugging Face 提供的一個強大工具庫,用于加載、處理和操作大規模數據集。它支持多種格式(如 CSV、JSON、Parquet 等)以及在線數據集(如 Hugging Face Hub 上的數據集)。
Transformers庫通常與datasets庫一起使用來處理和準備數據。
我們通過下面的代碼來詳細看一下 dataset 庫是如何使用的。
from datasets import load_dataset,load_from_disk
#在線加載數據
'''
函數中的split參數用于指定數據集的分區,例如“train”、“test”、“validation”等?。通過指定split參數,可以加載數據集的不同部分,例如訓練集、測試集或驗證集。如果不指定split參數,load_dataset函數會返回一個包含所有分區的 DatasetDict 對象?
'''
dataset = load_dataset(path="NousResearch/hermes-function-calling-v1",split="train")
print(dataset)
#轉存為CSV格式
dataset.to_csv(path_or_buf=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
# 加載csv格式數據
dataset = load_dataset(path="csv",data_files=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
print(dataset)
#加載緩存數據
# dataset = load_from_disk(r"D:\PycharmProjects\disanqi\demo_5\data\ChnSentiCorp")
# print(dataset)
test_data = dataset["train"]
for data in test_data:
print(data)
Hugging Face 的 datasets 庫支持多種數據集格式,如 CSV、JSON、TFRecord 等。
加載數據集后,可以查看數據集的基本信息,如數據集大小、字段名稱等。這有助于我們了解數據的分布情況,并在后續步驟中進行適當的處理。

浙公網安備 33010602011771號