DataSet 4

[Pytorch Lightning] BART를 훈련해 Text를 요약해보자 - 2

1편 : 프로젝트 요약 및 LightningModule 설계2편 : Dataset 구축 및 DataLoader 구축3편 : logger 작성, wandb 연동 및 확인4편 : 모델 로딩 및 실행결과(wandb) 확인 이번에는 Dataset 구축 및 DataLoader 구축에 대해 설명하려고 한다. 근데 생각을 해보았을 땐, 이 글을 보는 사람들은 데이터셋 구축은 관심이 없을 것이고 아무래도 어떻게 코드를 짜는지 궁금할 것이라 생각하기 때문에 데이터셋 구축에 대해서는 설명하지 않고 데이터셋이 어떻게 구성되어 있는지만 말하려고 한다.   Dataset 구축# Text : Encoder # function : Decoder# 예시# 음료 개수, 메뉴 개수, 메뉴 개수 -> drink(quantity=1); m..

[PyTorch] DataLoader 기초 및 구현

안녕하세요, 오늘은 PyTorch의 가장 중요한 구성 요소 중 하나인 DataLoader에 대해 자세히 알아보려고 합니다. 이 포스트에서는 DataLoader의 기능, 파라미터, 그리고 실제 사용 예시에 대해 소개해드리려고 합니다. DataLoader란? PyTorch의 'DataLoader'는 'Dataset' 클래스의 데이터들을 불러오게 하는 데이터셋 객체입니다. 모든 Dataset은 DataLoader로 생성하며 DataLoader는 모델 훈련을 위한 데이터를 준비하는 과정을 쉽고 효율적으로 만들어 줍니다. DataLoader를 사용해야하는 이유는 다음과 같습니다. 미니배치 : 'DataLoader'은 데이터셋을 미니배치로 나누어 학습을 가능하게 하여 각자의 GPU 환경에 맞춰서 학습할 수 있도록 ..

AI & DL/Pytorch 2024.03.17

[Hugging Face] Dataset의 map 함수 사용법

이번에는 Hugging Face의 datasets.Dataset의 map 함수에 대해서 설명해 드리겠습니다. 이 함수는 Dataset의 요소들에 함수를 적용하기 위해서 사용하는 함수입니다. 이 함수를 통해 data들을 전처리하여 바로 사용하거나 DataLoader에 넘겨서 사용하기도 합니다. 함수에 대해 정의 및 매개변수에 대해 정의하고 사용하는 방법에 대해 소개해드리겠습니다. 정의 from datasets import Dataset Dataset.map(function= None, batched=False, batch_size= 1000, drop_last_batch= False, remove_columns= None, num_proc= None) 자주 사용하는 매개변수만 적어보았습니다. functio..

[Hugging face] datasets 라이브러리로 dataset과 metric 불러오기

이번 포스팅에서는 Huggingface hub에서 제공하는 dataset의 목록과 dataset을 불러오는 방법에 대해 알려드리겠습니다. * 모든 코드는 Jupyter Notebook 환경에서 실행했습니다. datasets 라이브러리 설치 # Hugging face에서 제공하는 datasets 라이브러리 설치 !pip install datasets dataset 불러오기 datasets 개수 확인(24.01.03 기준) import datasets print(len(datasets.list_datasets())) # 91305 datasets load 방법(emotions) from datasets import load_dataset emotions = load_dataset("emotion") 현재 e..