[혼공머] Chapter 03-01. 회귀 알고리즘과 모델 규제
·
Data Science/혼자 공부하는 머신러닝
K-최근접 이웃 회귀 (K-Neighbors Regression)K-최근접 이웃 분류와 같이 예측하려는 샘플에 가장 가까운 샘플 K개를 선택선택한 샘플들의 값의 평균을 구함데이터 준비 import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 3..
[NLP] 토큰화 및 형태소 분석, Mecab 윈도우에서 사용하기(사용자 사전 추가, 우선순위 변경)
·
Data Science/NLP
토큰화란? 형태소 분석이란? 자연어처리 과정 중에는 토큰화(Tokenize) 과정이 있다.한국어 토큰화를 진행할 때에는 형태소(morpheme)란 기준으로 토큰화 하기 때문에 '형태소 분석'이라고도 불린다. 한국어 토크나이저 및 형태소 분석기는 Mecab, Okt, Komoran, Kkma, Hannanum 등 여러가지가 있다.그 중 오늘은 Mecab을 사용해서 토큰화 및 형태소분석을 해보려고 한다. Mecab Mecab은 원래 일본어 형태소 분석기로 개발되었다. 일본어와 문법 체계가 비슷한 한국어를 위해 '은전한닢'이라는 한국어로 포팅하는 프로젝트를 통해 한국어 자연어 처리에 크게 기여한 형태소 분석기라고 한다. 위에서 말한 여러 형태소 분석기들이 있지만, 일반적으로 그 중 가장 뛰어난 성능을 보인다고..
[Fine-tuninig] bitsandbytes Error (for LoRA fine tuning)
·
Data Science
Windows 환경에서 LoRA fine-tuning을 위해 bitsandbytes 패키지를 설치하려고 했으나, ‘bitsandbytes’ library는 원래 Windows를 지원하지 않는다고 한다.. 그래도 방법이 있지 않을까??직접여러 솔루션들을 수행해본 결과 3시간 만에 찾아냈다!!Solution1 (Fail) 출처: CUDA error in Windows · Issue #689 · TimDettmers/bitsandbytes CUDA error in Windows · Issue #689 · TimDettmers/bitsandbytesOS: Windows CUDA version: 11.7 torch.version='2.0.1+cu117' Help to Resolve the following Err..
[혼공머] 01-3. 마켓과 머신러닝
·
Data Science/혼자 공부하는 머신러닝
생선 분류 문제 한빛 마켓에서 팔기 시작한 생선: ['도미', '곤들매기', '농어', '강꼬치고치', '로치', '빙어', '송어']-> 이 생선들을 프로그램으로 분류하려고 한다.# 생선 길이>30cm -> '도미'라고 분류한다면?if fish_length >= 30: print('도미') 하지만 생선길이>30cm인 생선이 무조건 도미라고 할 수 없음. 일반적인 프로그램: '누군가 정해준 기준대로 일함머신 러닝(ML: Machine Learning): 누군가 알려주지 않아도 알아서 기준을 찾아서 일함 결론: 머신러닝 기법을 통해 생선의 길이, 무게 데이터를 기반으로 분류해보자!'도미/빙어 분류'와 같이 두 가지 클래스(class)로 분리 하는 것 -> 이진분류(Binary Classificatio..
HaSeon9
'Data Science' 카테고리의 글 목록 (5 Page)