이 글은 제가 작업했던 내용을 정리하기 위해 수기 형식으로 작성 된 글입니다. 2022.12.09 - [[신.만.추]] - 신입이 만드는 추천시스템-1(개요) 2022.12.09 - [[신.만.추]] - 신입이 만드는 추천시스템-2(데이터 수집, 스크래핑) 텍스트 데이터 수집(크리에이터 컨텐츠, 광고주 제안서) 텍스트 데이터 전처리 및 키워드화 키워드로 워드임베딩 모델 학습 아이템 벡터화 저번에 작성했던 글에서 셀레니움과 뷰티풀수프를 활용한 스크래퍼를 만들고 이를 도커 이미지로 만든 후 많은 개수의 컨테이너를 만들어 스크래핑 시간을 줄였다. 이번에는 셀레니움의 비율을 최소화하고 requests라이브러리를 추가적으로 사용하여 셀레니움의 메모리 점유율을 줄여보겠다. 1. 텍스트 데이터 수집(크리에이터 컨텐츠..
이 글은 제가 작업했던 내용을 정리하기 위해 수기 형식으로 작성 된 글입니다. 1. 텍스트 데이터 수집(크리에이터 컨텐츠, 광고주 제안서) 텍스트 데이터 전처리 및 키워드화 키워드로 워드임베딩 모델 학습 아이템 벡터화 저번에 작성했던 글에서 전체로직을 간단하게 소개했었다. 이제 하나씩 내용을 소개하려 한다. 1. 텍스트 데이터 수집(크리에이터 컨텐츠, 광고주 제안서)-1 데이터를 다루는 입장에서 데이터가 변화한다면 해당 변화를 추적하고 DB를 업데이트 해주어야 한다. 사실상 광고주의 제안서는 새로 추가되는 것 뿐 데이터가 변동되는 부분은 없다. 하지만 크리에이터의 경우 채널에 컨텐츠가 지속적으로 새로 올라오거나, 구독자수가 변동되고, 해당 크리에이터의 채널 자체가 없어지는 경우도 있다. 예를 들어 광고주..