오히려 좋아..

상황이 나쁘게만 흘러가는 것 같을 때 외쳐보자.. .

궁금한 마음으로 포트폴리오 보기

분류 전체보기 210

[Pyspark] Pyspark 데이터 전처리 기본기

목차 1. 특정 열 갖고 오기 2. 특정 열의 중간값 찾기 3. 특정 열의 결측치 세기 4. 데이터프레임의 모든 결측치 세기 5. 데이터 프레임에서 여러 Columns 한번에 제거하기 1. 특정 열 갖고 오기 col = df.select('colname') => 리스트 형태로 반환 2. 특정 열의 중간값 찾기 md = df.approxQuantile(c, [0.5], 0.25) => 리스트 형태로 반환 3. 특정 열의 결측치 세기 df.filter((df["ID"] == "") | df["ID"].isNull() | isnan(df["ID"])).count() stackoverflow.com/questions/48229043/python-pyspark-count-null-empty-and-nan 4. 데..

[Pyspark] Pyspark 데이터 전처리 기본기

목차 1. 특정 열 갖고 오기 2. 특정 열의 중간값 찾기 3. 특정 열의 결측치 세기 4. 데이터프레임의 모든 결측치 세기 5. 데이터 프레임에서 여러 Columns 한번에 제거하기 1. 특정 열 갖고 오기 col = df.select('colname') => 리스트 형태로 반환 2. 특정 열의 중간값 찾기 md = df.approxQuantile(c, [0.5], 0.25) => 리스트 형태로 반환 3. 특정 열의 결측치 세기 df.filter((df["ID"] == "") | df["ID"].isNull() | isnan(df["ID"])).count() stackoverflow.com/questions/48229043/python-pyspark-count-null-empty-and-nan 4. 데..

[Pyspark] Trouble Shooting

1. Py4JNetworkError: An error occurred while trying to connect to the Java server (127.0.0.1:46831) 메모리 부족으로 발생한 문제로 그냥 커널을 껐다가 키자.. 추가할 수 있는 메모리가 있으면 메모리를 추가하는 것도 좋은 방법 https://stackoverrun.com/ko/q/11300059 2. SparkWithDataFrame: java.lang.IllegalArgumentException: requirement failed StandardScaler를 사용할 때 발생한 문제 StandardScaling을 하기전에 아래와 같이 VectorAssemble을 해줘야한다. vecAs = [VectorAssembler(input..

[Pyspark] java gateway process exited before sending the driver its port number

로컬에서 pyspark를 돌릴 때의 문제 환경변수로 JAVA_HOME이 안잡혀있을 때 걸리는 문제로 자바 bin이 있는 곳으로 환경변수를 잡아주면된다. 아래글을 참조 cocook.tistory.com/29 Mac Terminal 에서 conda 안될 때 Mac Terminal에서 conda 명령어가 안될 때 해야되는 일 1. 아래 명령어를 통해 conda를 환경 변수로 추가해준다. export PATH="/Users/username/anaconda3/bin:$PATH" # 이거 또는 아래 두개 source /etc/profile.. cocook.tistory.com

Mac Terminal 에서 conda 안될 때

Mac Terminal에서 conda 명령어가 안될 때 해야되는 일 1. 아래 명령어를 통해 conda를 환경 변수로 추가해준다. export PATH="/Users/username/anaconda3/bin:$PATH" # 이거 또는 아래 두개 source /etc/profile source ~/.bash_profile 이렇게 하고 나서 conda activate를 실행했는데 아래와 같은 에러가 뜬다면 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'. To initialize your shell, run 다음의 명령어를 넣어준다. cd ~ #홈으로 이동하고 source ~/anaconda3/e..

Language/Python 2020.11.17

Colab에서 Tensorboard 실행

%load_ext tensorboard %tensorboard --logdir {'로그있는 디렉토리'} %load_ext tensorboard %tensorboard --logdir {'로그있는 디렉토리'} 만약 체크포인트가 여러개의 폴더로 나눠져 있는 경우 라면 상위 디렉토리를 지정해서 볼 수 있다. 가령 아래와 같이 디렉토리가 있다면 log1 |-R1 |-R2 |-R3 %load_ext tensorboard %tensorboard --logdir {'./log1/'} %load_ext tensorboard %tensorboard --logdir {'./log1/'} 이런 식으로 잡으면된다.

Colab에서 Tensorboard 사용하기

프로젝트를 하면서 텐서보드를 사용할 일이 있었는데 구글에는 온통 케라스를 이용한 텐서보드밖에 없었다. 내가 필요한건 케라스가 아니라 텐서플로우로 구현한 Lasso와 Ridge였다. 직접해보고 적는 코랩으로 텐서플로우만을 이용한 텐서보드 사용하기 tensorflow session을 이용해서 tensorboard를 사용하려면 4가지만 기억하자 1. 초기화(tf.reset_default_graph()) 2. 텐서보드에서 볼 변수들을 정한다. A_summary = tf.summary.scalar(name, 변수) 3. 묶어준다. 4. 학습을 진행하면서 기록해준다. merge = tf. import tensorflow.compat.v1 as tf from tensorflow.python.framework impo..