13B이하
7B 이하
평가 데이터셋 확인
사용할 데이터셋 형식 확인
사용 가능한 데이터 품질 및 변환 시간 측정
<정리>

- 리더보드를 살펴봤을때, 상위권을 차지하고 있는 모델들은 추가적으로 NEFTune, Direct Preference Optimization (DPO), NearDedup 등을 활용하여 모델을 개선시킴
- 우리도 모델에 이러한 것을 추가적으로 적용을 시킨다면 성능이 올라갈 것 으로 생각됨
- 현재 위의 논문등의 읽고 따로 정리하고 있음
- 현재 조사한 데이터를 기존의 오픈 데이터셋 형식으로 변환하는 것은 chatgpt_api를 사용하는것 이외에는 빠르게 될 것으로 생각됨
- 일반상식 기계독해 / koquad1.0 데이터
- 하지만 만들어진 데이터를 검수를 한다면 시간이 오래걸릴수도 있음
- 기계독해 데이터를 이용하여 지문을 읽고 4지선다에서 답을 고르는 형태로 데이터를 구성하였지만, 추론을 요하거나 모델이 좀 더 복잡하게 생각해야 하는 데이터는 만드는 시간이 오래 걸릴것 같다는 생각이 듦
Perplexity Labs