AI & DL/Hugging Face 7

[Hugging Face] 내가 만든 Dataset을 Hugging Face에 올려보기

오늘은 허깅페이스에 내가 만든 Dataset을 올리는 방법에 대해 소개해드리려고 합니다. 이를 통해 다른 사람들이 업로드한 데이터셋을 사용할 수 있습니다. Dataset을 업로드하려면 허깅페이스 토큰이 필요합니다. 토큰을 발급받지 않은 분들은 여기를 클릭해서 토큰을 발급해주세요데이터셋 저장할 Repo 만들기데이터 만들기데이터 허깅페이스에 업로드하기 코드는 여기에 있습니다. 데이터셋 저장할 Repo 만들기 허깅페이스 홈페이지에 들어갑니다.위의 이미지와 같이 프로필을 누르고 New Dataset 버튼을 누릅니다. 다음과 같이 저장할 Repo 이름을 작성합니다.작성을 하고 Create dataset 버튼을 누릅니다.그러면 다음과 같이 giliit/upload_dataset 이라는 Repo가 생성됩니다. 데이터..

[Hugging Face] 모델 가져오기(Read), 모델 및 데이터 업로드(Write)를 위한 Token 발급 받는 방법

안녕하세요, 오늘은 허깅페이스에서 특정 모델을 읽거나, 데이터나 모델을 업로드하기 위해 필요한 Token을 발급받는 방법에 대해 알려드리려고 합니다. 글의 목차는 다음과 같습니다.허깅페이스 가입하기토큰 발급받기토큰 삭제하기 허깅페이스 가입하기일단 허깅페이스에 가입하기 위해 허깅페이스 홈페이지를 들어갑니다.https://huggingface.co/ Hugging Face – The AI community building the future.The Home of Machine Learning Create, discover and collaborate on ML better. We provide paid Compute and Enterprise solutions. We are building the found..

[Hugging Face] apply_chat_template 함수에 대해 알아보자

안녕하세요, 오늘은 LLM에서 dictionary를 Chat 형식으로 변환하는 apply_chat_template 함수에 대해 알아보려고 합니다. 이 함수는 최근에 Chat Bot, Chat Model이 많아지면서, Chat 형식으로 변환하는 Tokenizer의 필요로 의해 만들어졌습니다. 그래서 이 함수에 대해 자세히 설명해드리려고 합니다. 선언 방법 사용하는 방법은 쉽습니다. Chat(Dialog)에 대해 apply_chat_template()를 사용하면 바로 출력이 나옵니다. from transformers import AutoModelForCausalLM, AutoTokenizer checkpoint = "HuggingFaceH4/zephyr-7b-alpha" tokenizer = AutoToke..

[Hugging Face] 벤치마크 클래스 만들기 ( Benchmark Class)

이번 포스팅에서는 허깅페이스 라이브러리를 이용해서 벤치마크 클래스를 만들어보도록 하겠습니다. 클래스에 특정한 벤치마크를 넣어서 한번에 출력하여 모델의 성능을 판단할 수 있습니다. 모델 성능 : Acc, F1 등으로 모델의 성능을 파악 메모리 : 모델의 파라미터의 양을 파악 레이턴시 : 모델이 얼마나 빠르게 예측을 하는지 파악 총 3가지의 벤치마크를 파악하는 클래스를 만들어보겠습니다. 파이프라인은 텍스트 분류를 통해서 모델의 성능을 벤치마킹하겠습니다. 필요한 모듈 임포트 from transformers import pipeline from datasets import load_dataset from pathlib import Path from time import perf_counter import tor..

[Hugging Face] Dataset의 map 함수 사용법

이번에는 Hugging Face의 datasets.Dataset의 map 함수에 대해서 설명해 드리겠습니다. 이 함수는 Dataset의 요소들에 함수를 적용하기 위해서 사용하는 함수입니다. 이 함수를 통해 data들을 전처리하여 바로 사용하거나 DataLoader에 넘겨서 사용하기도 합니다. 함수에 대해 정의 및 매개변수에 대해 정의하고 사용하는 방법에 대해 소개해드리겠습니다. 정의 from datasets import Dataset Dataset.map(function= None, batched=False, batch_size= 1000, drop_last_batch= False, remove_columns= None, num_proc= None) 자주 사용하는 매개변수만 적어보았습니다. functio..

[Hugging Face] evaluate.evaluator을 이용하여 모델 평가하기

이번에는 Hugging Face에서 Evaluate 라이브러리 사용하여 모델의 Acc, F1, Rouge 등의 metric을 사용하는 방법에 대해 소개해드리겠습니다. Evaluate 라이브러리란? 기계 학습(Machine Learning) 및 데이터셋(Dataset)을 쉽게 평가하기 위한 라이브러리 입니다. 간단한 코드로 다양한 작업(NLP Task, Computer Vision 등)을 수십 가지 평가 방법을 적용할수 있습니다. 전체적인 구조는 다음과 같습니다. Pipeline, Metric과 Dataset을 Evaluator에 넣어서 결과를 도출합니다. 이어서 사용하는 방법에 대해 설명해드리겠습니다. *코드 환경은 기본적으로 Jupyter Noteboo에서 실행합니다! evaluate 설치 pip !p..

[Hugging face] datasets 라이브러리로 dataset과 metric 불러오기

이번 포스팅에서는 Huggingface hub에서 제공하는 dataset의 목록과 dataset을 불러오는 방법에 대해 알려드리겠습니다. * 모든 코드는 Jupyter Notebook 환경에서 실행했습니다. datasets 라이브러리 설치 # Hugging face에서 제공하는 datasets 라이브러리 설치 !pip install datasets dataset 불러오기 datasets 개수 확인(24.01.03 기준) import datasets print(len(datasets.list_datasets())) # 91305 datasets load 방법(emotions) from datasets import load_dataset emotions = load_dataset("emotion") 현재 e..