일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ai tech
- tensorflow
- Linux
- pytorch
- error
- 네이버 부스트캠프
- RNN
- forward
- tril
- LSTM
- Til
- 크롬 원격 데스크톱
- GRU
- kde
- ubuntu
- band_part
- nn.Sequential
- triu
- Chrome Remote Desktop
- kernel density estimation
- Today
- Total
목록Naver AI Tech 2기/Today I Learned (26)
무슨 생각을 해 그냥 하는거지
※ 정보전달이 목적인 포스트가 아니라 개인 학습 기록 및 정리가 목적인 포스트입니다 ※ 만났던 오류들 Error loading preloads: Could not find renderer VS code에서 jupyter, python, jupyter notebook renderers 라는 extension들이 설치되어있고, ipykernel을 install한 상태인데도 안된다면 VS code 창을 다시 닫고 다시 열어주면 해결된다. 검색해봤을 때 나오는 해결방법들을 다 해봤을 때 안되면 항상 재시작을 해보자(사실 재시작하라는 것도 검색해서 나옴ㅎ) ImportError: IProgress not found. Please update jupyter and ipywidgets. See https://ipyw..
[새로 알게 된 것] 💻 HuggingFace의 Datasets 라이브러리에는 Dataset과 Dataset을 합치는 concatenate_datasets라는 함수가 있다. 이 함수를 사용하려면 Dataset 안의 features(column name과 data type ... )가 완전히 동일해야 한다. dataset이라는 Dataset을 만들었으면 dataset.features dataset이 어떤 features를 갖고 있는지 확인할 수 있다. 💻 features가 동일하려면 features의 순서도 영향을 끼치는 것 같은데, 순서만 다르다면 datasets 라이브러리의 cast라는 함수를 이용해 맞춰줄 수 있다. (순서만 다르다면이 정확한 표현인지는 잘 모르겠다. column name이 같을 때 ..
[새롭게 알게 된 것] ❔ 지난번에 들었던 의문과 찾아낸 답 datacollator에 model이 들어가는 것과 안들어가는 것의 차이는 뭘까? Transformers에서 제공하는 DataCollator에는 여러 종류가 있는데, 흔히 사용하는 `DataCollatorWithPadding`을 포함한 다른 DataCollator에는 model 인자가 없다. `DataCollatorForSeq2Seq`은 말그대로 decoder 모델이 있어서 model이라는 인자를 추가하면, pretrained 모델이 `prepare_decoder_input_ids_from_labels`를 가지고 있는 경우에 `decoder_input_ids`를 만든다고 한다. `decoder_input_ids`로 label_smoothing할..
학습정리보다는 메모장 [새롭게 알게 된 것] 1. generation-based reader 모델 inference 코드 짜는 중에 label이 없다는 에러가 계속 발생했다. T5는 teacher forcing으로 학습하기 때문에 학습 과정에서는 당연히 label을 필요로 함. 하지만 inference시에는 label이 없기 때문에 자동으로 label=None으로 만들어준다. 직접 변경해줄 필요X 그런데 에러가 자꾸 발생... 왜 그런가 했더니 DataCollatorForSeq2Seq의 인자로 model을 넣어줘서 그랬다. label=None이어도 주어진 model이 prepare_decoder_input_ids 였나 이 attribute를 갖고 있으면 label을 찾아서 에러가 발생한 거였다. 2. e..
※ 정보전달이 목적인 포스트가 아니라 개인 학습 기록 및 정리가 목적인 포스트입니다 ※ 해당 포스트는 네이버 커넥트 재단의 부스트캠프 마스터님이신 서민준 교수님의 강의를 바탕으로 작성되었습니다. 1. 강의 복습 내용 [Passage Retrieval - Scaling Up] passage의 개수가 늘어날수록 passage embedding이 많아지는데, 어떻게 효율적으로 가장 가까운 문서를 찾을 수 있을까? ⇒ Similarity Search ! MIPS (Maximum Inner Product Search) : 주어진 query 벡터(q)에 대해 passage 벡터(v)들 중 가장 질문과 관련된 벡터를 찾는 방법. 이때 얼마나 관련되어 있는가는 내적값의 크기로 볼 수 있음. 앞선 강의들에서는 brute..
※ 정보전달이 목적인 포스트가 아니라 개인 학습 기록 및 정리가 목적인 포스트입니다 ※ 해당 포스트는 네이버 커넥트 재단의 부스트캠프 마스터님이신 서민준 교수님의 강의를 바탕으로 작성되었습니다. 1. 강의 복습 내용 [Generation-based MRC] BART BERT와 입력에는 큰 차이가 없다. (token type id가 사라지긴 했다. 문장 구분을 할 필요성이 줄어들면서(아마 NSP의 효과가 적다고 판단해서일듯) 최근에 나오는 모델들에는 빼는 추세. Roberta에서도 token type id를 사용하지 않는 것을 저번 대회에서 확인했다.) 차이점이 두드러지는 것은 바로 모델 부분. BERT는 (Bidirectional) Encoder이고, GPT는 (Autoregressive) Decoder..
※ 정보전달이 목적인 포스트가 아니라 개인 학습 기록 및 정리가 목적인 포스트입니다 ※ 해당 포스트는 네이버 커넥트 재단의 부스트캠프 특강을 바탕으로 작성되었습니다. 1. 특강 복습 내용 [서비스 향 AI 모델 개발하기] - 이활석님 (현) Upstage CTO (전) 네이버 클로바 임원 실제 서비스에서 사용되는 AI 모델 개발 vs 수업/연구 AI 모델 개발 수업/연구: 데이터셋과 평가 방식이 정해져 있고 이를 사용해 더 좋은 모델을 찾으려 함. 실제 서비스 개발: 데이터셋(학습/테스트)도 없고 평가 방식도 결정되어 있는 게 없음. 오로지 주어진 것은 서비스 요구사항! 그래서 실제 서비스에서는, 학습 데이터셋 준비 테스트 데이터셋/테스트 방법 준비 모델 요구사항 준비 이렇게 세 가지가 추가적으로 필요하..
※ 정보전달이 목적인 포스트가 아니라 개인 학습 기록 및 정리가 목적인 포스트입니다 ※ 해당 포스트는 네이버 커넥트 재단의 부스트캠프 마스터님이신 주재걸 교수님의 강의를 바탕으로 작성되었습니다. 1. 강의 복습 내용 [Transformer] Bi-Directional RNNs 단방향 RNN은 문장의 마지막 단어로부터 멀리 있는 단어에 대한 정보 유실/변질이 발생한다. (Long-Term Dependency) 이를 해결하기 위해 순방향과 역방향을 모두 고려한 Bi-directional RNN이 소개되었다. 위 그림의 파란색 hidden state는 bi-direction RNN의 hidden state로, 순방향의 hidden state와 역방향의 hidden state를 concat하여 단방향 hidde..