Try Attack/python[basic]

토크나이징(Tokenizing)이란?

D4tai1 2020. 12. 24.

안녕하세요!!

 

나른나른한 탓인지 굉장히 오랜만에 들어왔어요.

 

최근에 노션을 하다보니 블로그에 접속을 덜하게 되었는데

 

오늘은 크리스마스 이브니까!

 

그런데 나는 할게 없으니까,,

 

키보드 타닥타닥하고 있는거겠죠?

 


Q. 본론으로 돌아와서 토크나이징이 뭘까요?

 

A. 우리가 일상에서 사용하는 언어(자연어)

컴퓨터에게 이해시키기 위해

의미가 있는 가장 작은 단어(토큰)로 나누는 것!

 

입니다.

 

토크나이징한 토큰은 주로 텍스트 전처리과정에서 사용됩니다.

 

나무위키에 

한국어의 9품사(명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)에 대한

자세한 설명이 나와있습니다.

(너무 어려워요ㅠㅜㅡ,./)

 

 

 

 

한국어의 5언 9품사 - 나무위키

문장에서 주어나 목적어가 되는 낱말. 그래서 체언(體言)이다. 명사, 대명사, 수사가 포함된다. 다른 품사를 수식하기 위해 존재하는 품사. 문장 안의 다른 성분과 견련되는 관계를 나타내기 위

namu.wiki

 

 

우선 설치한 라이브러리를 말씀드릴게여!!

 

라이브러리를 설치하면서 무얼하려고 설치하는지는 알아야겠죠?

(Windows용)

 

1. JPype1을 설치하기 위해 pip 업그레이드

python -m pip install --upgrade pip

 

2. 엑셀파일을 로드하기 위해 설치

▶ pip install openpyxl

 

3. 데이터분석을 위해 설치

▶ pip install numpy

▶ pip install pandas

▶ pip install matplotlib

 

4. 한국어 자연어처리(NLP)를 위해 설치

(1) JDK설치

www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html에서

Windows용 : jdk-8u271-windows-x64.exe 설치

 


 

(2) JAVA PATH 추가 

검색 : sysdm.cpl

[그림1] JAVA 경로추가

(3) JPype1설치

 다운로드 링크 : www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

(저는 python3.9라서 아래파일을 다운로드했는데 버전이 다르다면

아래 링크를 참고하세요!!)

["(부들부들)버전다른거 설치하고 왜 나만안돼!!!" 하면 안돼요!]

다운로드받은 파일을 설치경로로 이동시켜줍니다.

pip install JPype1‑1.2.0‑cp39‑cp39‑win_amd64.whl

 

※ 내 파이썬이 32비트인지 64비트인지 모른다면?

import struct
print(struct.calcsize("P") * 8)

(4) konlpy 설치

 pip install konlpy

 

▶ 다 되었다면 까알~~~끔하게 실행되는지 확인하는 센스!

from konlpy.tag import Okt

okt = Okt()
data = "저는 파이썬이 너무 어려워여ㅜㅠㅡ"

morphs = okt.morphs(data)

print("result : {}".format(morphs))

 

[그림2] 실행 테스트

 

'Try Attack > python[basic]' 카테고리의 다른 글

백도어 제작  (0) 2021.03.11
python 에서 발생한 예외찾기  (0) 2019.01.29
python으로 zip파일 크랙하기  (0) 2019.01.28
python으로 매크로 제작하기  (0) 2019.01.26
python 코드 분석 방법  (4) 2019.01.25

댓글