728x90

오늘은 허깅페이스에 내가 만든 Dataset을 올리는 방법에 대해 소개해드리려고 합니다. 이를 통해 다른 사람들이 업로드한 데이터셋을 사용할 수 있습니다. Dataset을 업로드하려면 허깅페이스 토큰이 필요합니다. 토큰을 발급받지 않은 분들은 여기를 클릭해서 토큰을 발급해주세요

  1. 데이터셋 저장할 Repo 만들기
  2. 데이터 만들기
  3. 데이터 허깅페이스에 업로드하기

 

코드는 여기에 있습니다.

 

데이터셋 저장할 Repo 만들기


 

허깅페이스 홈페이지에 들어갑니다.

위의 이미지와 같이 프로필을 누르고 New Dataset 버튼을 누릅니다.

 

다음과 같이 저장할 Repo 이름을 작성합니다.

작성을 하고 Create dataset 버튼을 누릅니다.

그러면 다음과 같이 giliit/upload_dataset 이라는 Repo가 생성됩니다.

 

데이터 만들기


데이터셋을 생성

from datasets import Dataset

# Dataset 객체 생성(train)
sample_train = {'first' : '1', 'second' : '2', 'third' : '3'}
sample_train_dataset = Dataset.from_dict(sample_train)

# type과 dataset 내용 확인
print(type(sample_train_dataset))
print(sample_train_dataset)

# Dataset 객체 생성(test)
sample_test = {'first' : '11', 'second' : '22', 'third' : '33'}
sample_test_dataset = Dataset.from_dict(sample_test)

데이터셋을 Dictionary형태로 생성하고 Dataset에서 from_dict 함수를 통해 데이터셋 객체로 변환을 합니다.

데이터셋 train, test 두 개를 생성했습니다. 

 

데이터셋을 담는 데이터셋딕셔너리 생성

from datasets import DatasetDict

# datasetDcit 객체 생성
sample_datasetDict = DatasetDict({"train": sample_train_dataset, "test" : sample_test_dataset})

print(type(sample_datasetDict))
print(sample_datasetDict)

 

데이터셋 허깅페이스에 업로드하기


!huggingface-cli login --token hf_

hf_로 시작하는 토큰을 입력(Write로 써져 있는 Token 발급)

 

sample_datasetDict.push_to_hub('giliit/upload_dataset', token="hf_")

push_to_hub 함수, Repo와 토큰을 입력하고 함수를 실행합니다.

 

from datasets import load_dataset

dataset = load_dataset('giliit/upload_dataset')

print(dataset)

load_dataset 함수를 이용해서 데이터셋을 로드해서 확인합니다.

728x90