doc2vec based on gensim library
패키지 설치
1
2
3
4
5
6
7
8
9
10
11
12
13
# 0. 만약 윈도우라면 conda 환경 변수 추가
source ~/.bashrc
# 1. 콘다 환경 사용
conda create -n doc2vec python=3.12.3 -y
conda activate doc2vec
pip install torch faiss-cpu
pip install pandas numpy scikit-learn tqdm
pip install gensim
pip install konlpy
pip install transformers
(서빙 패키지 설치)
1
2
3
4
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
pip install fastapi
pip install uvicorn
(크롤링 패키지 설치)
1
2
3
4
5
pip install pdfplumber
pip install bs4
pip install --upgrade torchvision
pip install selenium browsermob-proxy requests beautifulsoup4 pdfminer.six transformers
형태소 분석기
1
2
3
4
5
6
- 연구 논문
- 유형 : 학술논문, 연구 보고서
- 청크 크기: 500
- 오버랩: 125
- include_prev_next_rel: True (연구 논문에서 각 섹션 간의 논리적 연결이 매우 중요)
- tokenizer: KoNLPy의 Okt (다양한 문장 구조와 자연스러운 텍스트 처리가 중요)
1
2
3
from konlpy import jvm
jvm.init_jvm()
This post is licensed under CC BY 4.0 by the author.