무슨 생각을 해 그냥 하는거지

[학습정리] 2021-10-25 ~ 2021-10-29 본문

Naver AI Tech 2기/Today I Learned

[학습정리] 2021-10-25 ~ 2021-10-29

빛나는콩 2021. 11. 1. 01:48

[새로 알게 된 것]

💻 HuggingFace의 Datasets 라이브러리에는 Dataset과 Dataset을 합치는 concatenate_datasets라는 함수가 있다. 이 함수를 사용하려면 Dataset 안의 features(column name과 data type ... )가 완전히 동일해야 한다. dataset이라는 Dataset을 만들었으면 dataset.features dataset이 어떤 features를 갖고 있는지 확인할 수 있다.

datasets.concatenate_datasets

💻 features가 동일하려면 features의 순서도 영향을 끼치는 것 같은데, 순서만 다르다면 datasets 라이브러리의 cast라는 함수를 이용해 맞춰줄 수 있다. (순서만 다르다면이 정확한 표현인지는 잘 모르겠다. column name이 같을 때 data type? struct?가 다르니까 에러가 발생했다.)

 

💻 HuggingFace의 Dataset에는 to_pandas, from_pandas라는 아주 좋은 메서드가 있다. 기존에 있던(load_from_disk로 불러온) Dataset에 DataFrame 데이터를 추가하려면 아래와 같이 하면 된다.

  1. dataset이라는 Dataset이 있을 때, Dataset.to_pandas(dataset)로 Dataset을 DataFrame으로 만들어준다.
  2. csv 파일로부터 불러온 DataFrame과 pandas.concat 한다.
  3. concat한 DataFrame을 Dataset.from_pandas를 통해 다시 Dataset으로 만들어준다. 

 

 

[참고자료]

Gradient Accumulation

 

Gradient Accumulation in PyTorch

Increasing batch size to overcome memory constraints

kozodoi.me

LUKE 한국어 모델 관련(아쉽게도 pre-trained 모델은 공개되어있지 않았다.)

 

 

[학습회고]

  • 처음으로 우리 팀이 아닌 다른 오픈소스에 이슈를 작성해봤다. 고작 이슈지만 버그로 인정이 되었다는 게 기뻤다. 다음엔 꼭 pull request를 해봐야지... 조금만 생각해보면 할 수 있을 것 같은데 대회에 집중하는 게 맞는거니까 안하기로 했다😢. 앞으로 이런 기회는 많을 거라고 생각하자. 팀원분들께 민폐는 되지 말자.
  • 멘토링을 통해 내 의사소통 능력이 부족하고, 의견에 근거가 부족하다는 것을 느꼈다. 말하기 전에 상대방이 잘 알아들을 수 있도록 말을 가다듬는 연습을 해야지. 의견을 제시할 때는 논문에 기반한 근거를 꼭 제시해야 상대방을 설득할 수 있다는 것을 절대 잊지 말자.

 

'Naver AI Tech 2기 > Today I Learned' 카테고리의 다른 글

[학습정리] 2021-11-22~2021-11-26  (2) 2021.11.26
[학습정리] 2021-10-22  (2) 2021.10.24
[학습정리] 2021-10-20  (0) 2021.10.21
[학습정리] 2021-10-14  (0) 2021.10.15
[학습정리] 2021-10-13  (0) 2021.10.13