관심있는 주제/python 5

python zip file 바로 사용하기

너무 큰 데이터 또는 많은 데이터의 경우 zip으로 압축되어 있음 만약 압축 파일 안에 있는 csv 개수가 297,444개 혹은 그 이상이라고 가정했을 때, 서버에서 압축을 풀고 사용하려면 페이지가 엄청 느려지거나 렉 먹을 가능성이 높음 그렇기 때문에 바로 zip 파일을 읽어와 압축을 풀지 않고 파일들을 불러와 데이터를 보고싶을 수도 있음 만약 형식이 같은 데이터들이라면 각각 29만개 이상으로 두는 것보다 변수 하나 만들어서 레이블을 달고 하나로 합치는 것이 더 효율적일 수 있음 예시로 Ednet 데이터를 이용함 (github.com/riiid/ednet) 아래 코드를 보면, 먼저 zip file을 가져와서 파일 리스트를 만들고 필요없는 파일을 리스트에서 제거한 후 하나의 csv를 만드는 코드임 impo..

Microsoft NNI(Neural Network Intelligence)

Microsoft의 AutoML 툴킷인 NNI(Neural Network Intelligence)를 이용해봤다. https://nni.readthedocs.io/en/latest/Overview.html Overview — An open source AutoML toolkit for neural architecture search, model compression and hyper-parameter tuning (NNI v1.4) NNI provides a key capacity to run multiple instances in parallel to find the best combinations of parameters. This feature can be used in various domains,..

Pandas_profiling

https://www.kaggle.com/jacklizhi/creditcard creditcard how to manage the unbalance dataset www.kaggle.com - Data는 kaggle에서 가져온 creditcard dataset을 이용했다. Pandas에 있는 pandas_profiling이라는 라이브러리 발견 심플 EDA를 해주는 거 같아 굉장히 흥미롭다. 이용하는 방법은 아래와 같다. 데이터 불러와서 그냥 바로 profile_report() 적용하면 저렇게 쭉 뜬다. 엄청 간단하다. 만약 html로 저장하고 싶다면 아래와 같이 하면 된다. 이렇게 나온다!

tf.keras.callbacks

내가 필요해서 정리하는 tf.keras의 callback 함수들과 각 설명 1. tf.keras.callbacks.ReduceLROnPlateau 2. tf.keras.callbacks.EarlyStopping 검증 성능이 향상되지 않으면 훈련을 중지합니다. (monitor='val_auc', patience=10, mode='max') 3. tf.keras.callbacks.BaseLogger 4. tf.keras.callbacks.CSVLogger 5. tf.keras.callbacks.Callback 6. tf.keras.callbacks.History 7. tf.keras.LambdaCallback 8. tf.keras.ModelCheckpoint 일정 간격으로 모델의 체크포인트를 저장합니다. (..