전체 글
-
TensorFlow 기초 44 - LSTM을 사용한 삼성전자 주가 예측(종가)TensorFlow 2022. 12. 20. 12:34
# LSTM을 사용한 삼성전자 주가 예측(종가) # KRX: 005930 # !pip install finance-datareader import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import FinanceDataReader as fdr STOCK_CODE = '005930' stock_data = fdr.DataReader(STOCK_CODE) print(stock_data.head()) print(stock_data.tail()) print('상관관계 : \n,', stock_data.corr(method='pearson')) stock_data.reset_index(inplace=..
-
TensorFlow 기초 43 - 케라스에서 제공하는 로이터 뉴스 데이터를 LSTM을 이용하여 텍스트 분류를 진행TensorFlow 2022. 12. 19. 13:20
# 케라스에서 제공하는 로이터 뉴스 데이터를 LSTM을 이용하여 텍스트 분류를 진행해보겠습니다. # 로이터 뉴스 기사 데이터는 총 11,258개의 뉴스 기사가 46개의 뉴스 카테고리로 분류되는 뉴스 기사 데이터입니다. from keras.datasets import reuters from keras.utils import np_utils from keras.models import Sequential from keras.layers import Dense, Embedding, Flatten from keras.utils import pad_sequences import matplotlib.pyplot as plt max_features = 10000 (x_train, y_train), (x_test, y..
-
TensorFlow 기초 42 - IMDB 리뷰 감성 분류하기(IMDB Movie Review Sentiment Analysis)TensorFlow 2022. 12. 19. 12:57
# IMDB 리뷰 감성 분류하기(IMDB Movie Review Sentiment Analysis) import numpy as np import matplotlib.pyplot as plt from tensorflow.keras.datasets import imdb (X_train, y_train), (X_test, y_test) = imdb.load_data() print('훈련용 리뷰 개수 : {}'.format(len(X_train))) print('테스트용 리뷰 개수 : {}'.format(len(X_test))) num_classes = len(set(y_train)) print('카테고리 : {}'.format(num_classes)) print(set(y_train)) # {0, 1} pr..
-
TensorFlow 기초 41 - RNN으로 스펨 메일 분류 (이항 분류)TensorFlow 2022. 12. 19. 11:07
# RNN으로 스펨 메일 분류 (이항 분류) import pandas as pd from nltk.util import pad_sequence data = pd.read_csv('spam.csv', encoding='latin1') print(data.head()) print('샘플 수 :', len(data)) del data['Unnamed: 2'] del data['Unnamed: 3'] del data['Unnamed: 4'] print(data.head(2)) print(data['v1'].unique()) data['v1'] = data['v1'].replace(['ham', 'spam'], [0, 1]) print(data.head(3)) print(data.info()) print(data..
-
TensorFlow 기초 40 - 자소 단위로 분리한 후 텍스트 생성 모델TensorFlow 2022. 12. 16. 10:22
# 자소 단위로 분리한 후 텍스트 생성 모델 # !pip install jamotools # !pip --use-deprecated=legacy-resolver install 모듈명 # 라이브러리를 install 할 때 현재 버전에 안 맞을 때 사용 (낮은 버전의 파이썬에서 임의 모듈 설치치) import jamotools import tensorflow as tf import numpy as np path_to_file = tf.keras.utils.get_file("toji.txt", "https://raw.githubusercontent.com/pykwon/etc/master/rnn_short_toji.txt") train_text = open(path_to_file, 'rb').read().dec..
-
뉴욕타임즈 뉴스 기사 중 헤드라인을 읽어 텍스트 생성 연습(LSTM)TensorFlow 2022. 12. 14. 13:10
# 뉴욕타임즈 뉴스 기사 중 헤드라인을 읽어 텍스트 생성 연습 import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/pykwon/python/master/testdata_utf8/articlesapril.csv') # print(df.head(1)) print(df.columns, len(df.columns)) print() print(df['headline'].head(2)) print() print(df.headline.values) print(df['headline'].isnull().values.any()) # False headline = [] headline.extend(list(df.headline.values)) p..
-
TensorFlow 기초 39 - LSTM을 이용한 텍스트 생성, 문맥을 반영하여 다음 단어를 예측하기TensorFlow 2022. 12. 14. 11:35
# RNN을 이용한 텍스트 생성 # 문맥을 반영하여 다음 단어를 예측하기 import numpy as np from keras.models import Sequential from keras.layers import Embedding, Flatten, Dense, LSTM from keras.preprocessing.text import Tokenizer from keras.utils import pad_sequences, to_categorical from anaconda_project.internal.conda_api import result """ text = ''' 경마장에 있는 말이 뛰고 있다 그의 말이 법이다 가는 말이 고와야 오는 말이 곱다''' """ text = '''수도권 개별 단지들의..
-
TensorFlow 기초 38 - 문자열(corpus - 자연어 데이터 집합) 토큰화 + LSTM으로 감성 분류TensorFlow 2022. 12. 13. 17:30
padding : 서로 다른 길이의 데이터를 가장 긴 데이터의 길이와 같게 만듦 Embedding에 입력될 단어의 수를 지정하는데 가능한 토큰 갯수는 단어 인덱스 최대값 + 1을 부여한다. # 문자열(corpus - 자연어 데이터 집합) 토큰화 + LSTM으로 감성 분류 # 토큰(Token): text를 단어, 문장, 형태소 별로 나눌 수 있는데 이렇게 나뉜 조각들을 token이라고 한다. import numpy as np from keras.preprocessing.text import Tokenizer from keras.utils import pad_sequences docs = ['너무 재밌네요', '최고에요', '참 잘 만든 작품입니다', '추천하고 싶어요', '한 번 더 보고 싶군요', '글쎄..