Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 네이버 부스트캠프
- kde
- RNN
- tril
- kernel density estimation
- forward
- pytorch
- tensorflow
- nn.Sequential
- ai tech
- Linux
- LSTM
- triu
- band_part
- GRU
- 크롬 원격 데스크톱
- Chrome Remote Desktop
- Til
- error
- ubuntu
Archives
- Today
- Total
무슨 생각을 해 그냥 하는거지
[학습정리] 2021-10-25 ~ 2021-10-29 본문
[새로 알게 된 것]
💻 HuggingFace의 Datasets 라이브러리에는 Dataset과 Dataset을 합치는 concatenate_datasets라는 함수가 있다. 이 함수를 사용하려면 Dataset 안의 features(column name과 data type ... )가 완전히 동일해야 한다. dataset이라는 Dataset을 만들었으면 dataset.features dataset이 어떤 features를 갖고 있는지 확인할 수 있다.
💻 features가 동일하려면 features의 순서도 영향을 끼치는 것 같은데, 순서만 다르다면 datasets 라이브러리의 cast라는 함수를 이용해 맞춰줄 수 있다. (순서만 다르다면이 정확한 표현인지는 잘 모르겠다. column name이 같을 때 data type? struct?가 다르니까 에러가 발생했다.)
💻 HuggingFace의 Dataset에는 to_pandas, from_pandas라는 아주 좋은 메서드가 있다. 기존에 있던(load_from_disk로 불러온) Dataset에 DataFrame 데이터를 추가하려면 아래와 같이 하면 된다.
- dataset이라는 Dataset이 있을 때, Dataset.to_pandas(dataset)로 Dataset을 DataFrame으로 만들어준다.
- csv 파일로부터 불러온 DataFrame과 pandas.concat 한다.
- concat한 DataFrame을 Dataset.from_pandas를 통해 다시 Dataset으로 만들어준다.
[참고자료]
Gradient Accumulation
LUKE 한국어 모델 관련(아쉽게도 pre-trained 모델은 공개되어있지 않았다.)
[학습회고]
- 처음으로 우리 팀이 아닌 다른 오픈소스에 이슈를 작성해봤다. 고작 이슈지만 버그로 인정이 되었다는 게 기뻤다. 다음엔 꼭 pull request를 해봐야지... 조금만 생각해보면 할 수 있을 것 같은데 대회에 집중하는 게 맞는거니까 안하기로 했다😢. 앞으로 이런 기회는 많을 거라고 생각하자. 팀원분들께 민폐는 되지 말자.
- 멘토링을 통해 내 의사소통 능력이 부족하고, 의견에 근거가 부족하다는 것을 느꼈다. 말하기 전에 상대방이 잘 알아들을 수 있도록 말을 가다듬는 연습을 해야지. 의견을 제시할 때는 논문에 기반한 근거를 꼭 제시해야 상대방을 설득할 수 있다는 것을 절대 잊지 말자.
'Naver AI Tech 2기 > Today I Learned' 카테고리의 다른 글
[학습정리] 2021-11-22~2021-11-26 (2) | 2021.11.26 |
---|---|
[학습정리] 2021-10-22 (2) | 2021.10.24 |
[학습정리] 2021-10-20 (0) | 2021.10.21 |
[학습정리] 2021-10-14 (0) | 2021.10.15 |
[학습정리] 2021-10-13 (0) | 2021.10.13 |