내맘대로 강의 정리
실제 현업에서 크롤링을 해서 데이터를 제작할 경우에 전처리 과정이 불가피하다. 이러한 경우에 사용하게 되는 라이브러리나 방법들에 대해서 소개를 해주신 느낌.
전처리
실제 현업에서 크롤링을 하게되면 되게 불필요한 정보들이 많이 포함되어 있음 ! → 이 때 사용하게 되는 라이브러리에 대해 배웠음. 전처리 과정에서 정규 표현식과 친숙해야지 좋을 것 같음. 특히 필터링의 끝판왕 konlpy를 사용하면 거의 모든 것을 필터링 할 수 있음 ! 하지만 우리는 한국어라 인코딩이 안맞는 경우도 있어서 유니코드 필터링도 있음..
아무튼 중요한 것은 원하는 목적대로 필터링을 자유자재로 할 수 있도록 라이브러리와 정규표현식을 숙지할 줄 알아야 할 듯 !
Tokenizing
한국어는 다른 언어에 비해 더 다양하게 tokenizing이 가능 ! word, 형태소, 음절, 자소.. 등의 단위로 tokenizing을 할 수 있음 !
결국 bert만 사용하는 것이 아닌 gpt나 electra 등의 다양한 모델을 실험하게 될 텐데.. 이 때 모델마다 사용하는 tokenizing 방식이 다른 것 같음 이 때 익숙함을 가지고 있지 않다면 굉장히 어려움을 겪을 것이다 !
tokenizing 시간이 굉장히 오래 걸릴 것임 !