[AWS/Ubuntu/Linux/Anaconda/Selenium] aws에서 작동하는 selenium 패키지를 활용한 python 실행 파일 만들기

 

aws에서 selenium 패키지를 활용하여 웹 크롤링 혹은 스크래핑을 진행하는 데 있어 정말 여러가지 오류들이 있어서, 이참에 아예 한번 싹 정리해봅니다.

 

아예 완전히 aws 인스턴스를 처음 만들었다고 가정합니다.

관련 페이지: https://omnil.tistory.com/67, https://omnil.tistory.com/144

 

1. 아나콘다 다운로드 및 설치

- 관련페이지의 설명과 같이 Anaconda3-2019.10-Linux-x86_64.sh 이 부분만 원하는 버전으로 바꿔주시면 됩니다.

wget https://repo.continuum.io/archive/Anaconda3-2019.10-Linux-x86_64.sh && sh Anaconda3-2019.10-Linux-x86_64.sh

 

2. 배쉬 리프레시 및 설치파일 제거

source ~/.bashrc && rm Anaconda3-2019.10-Linux-x86_64.sh

 

3. 새 폴더 생성 및 이동

mkdir sandbox && cd sandbox

 

4. unzip과 chromium-browser설치

sudo apt update && sudo apt install unzip && sudo apt-get install -y chromium-browser

 

5. chromium-browser version확인

- 여기서 확인한 버전으로 크롬드라이버를 깔아주어야 합니다.

chromium-browser --version

 

6. (위에서 확인한 버전에 맞는) 크롬드라이버 다운로드, unzip, chromedriver 실행권한 변경 및 기본 path로 이동

- 위에서 확인한 버전에 맞는 크롬드라이버 다운로드 링크는 >>여기<<서 확인하실 수 있습니다.
wget https://chromedriver.storage.googleapis.com/79.0.3945.36/chromedriver_linux64.zip

unzip chromedriver_linux64.zip && chmod +x chromedriver && sudo mv chromedriver /usr/bin/chromedriver && rm chromedriver_linux64.zip

 

7. 크롬드라이버 버전 확인

- chromium-browser --version과 동일해야 합니다.

chromedriver --version

 

8. 파이썬 파일에서 사용할 패키지 설치

pip install selenium telepot

 

9. 스크린 작동

- 스크린에 관련하여서는 >>페이지<< 하단에 자세하게 나와있습니다.
screen -S noti

 

10. 파이썬 파일 실행

- 파이썬 파일 이름은 watch_key.py입니다.

python watch_key.py

 

11. 파이썬 파일 내부에서 selenium을 사용할 경우에는 반드시 아래와 같은 옵션을 주고 드라이버를 실행하여야 합니다.

from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=chrome_options)

'Software > AWS' 카테고리의 다른 글

[AWS/Linux] wget으로 아나콘다 깔기  (0) 2019.09.20

[AWS/Linux] wget으로 아나콘다 깔기

1) https://repo.continuum.io/archive/ 에 접속한다

2) 원하는 아나콘다 버전을 찾는다.

3) 링크에서 오른쪽 클릭하여 "링크 주소 복사"를 누른다.

4) 명령 프롬프트에 $ wget [복사한 링크 주소]를 입력한다.

5) 다운 완료!

Git bash에서 jupyter notebook사용하기

 

처음에 아나콘다를 깔 때, add system path ~하는, 체크박스가 위 아래 있는 창에서 위쪽 체크 해제된 체크박스를 체크해주면 시스템 패스에 anaconda가 잡히고, 여기서 바로 jupyter notebook을 사용할 수 있다.

 

[체크하면 빨간색 글씨가 되는데, 처음에는 다들 이거보고 무서워서 체크 안하는데 하는게 다른 프로그램에서 아나콘다 사용하기 좋다.]

Jupyter notebook이 자동으로 브라우저를 열어주지 못할 때 대처법

 

bash command가 작동하는 상황(mac os terminal, git bash, etc)에서

크롬브라우저가 깔려있을 때

 

$ export BROWSER="Chrome";jupyter notebook

 

하면 자동으로 크롬 브라우저가 열린다.

 

이후에는

 

$ jupyter notebook

 

만 쳐도 크롬으로 열린다.

이제 그동안에 인스턴스를 만들고 서버에 접속도 되며, 파일까지 올릴 수 있으니 본격적으로 서버를 활용해 보는 시간을 가져보도록 하겠습니다.

 

일단 요새 프로그래밍 언어 중 가장 핫한 파이썬을 깔아보도록 하겠습니다.

 

파이썬은 여러 패키지가 장점인 만큼 오히려 패키지가 서로 상호 의존적인 부분이 있어 따로 설치시에 가끔씩 오류가 나는 경우가 있어서 요새는 '아나콘다(Anaconda)'라는 Continuum사에서 따로 배포하는 배포판을 받아서 설치할 것입니다.

 

가볍게 '배포판'이라는 것은 파이썬 인터프리터 외에 필수적인 여러 패키지를 한번에 묶어서 배포하는 것 입니다.

 

여기서는 리눅스 자체에서 wget 명령어로 다운받는 방식과 리눅스 실행파일을 받은 뒤 FTP로 올려주는 방법이 있습니다.

(차이는 명령어로 좀 더 쉽게 처리하냐 아니면 수작업을 한번 더 하느냐의 차이일뿐입니다.)

 

1) wget 명령어 활용

      1) https://repo.continuum.io/archive/에 접속하시면 다운받을 수 있는 파일의 이름이 쭉 나옵니다. 이 중에서 원하는 버전(2번대 혹은 3번대. 개인적으로는 3번대를 추천드립니다.)과 원하는 OS(여기서 우리는 Linux 버전), 프로세스 타입(32bit, 64bit) 그리고 원하는 날짜(가장 최근 릴리즈 된 것 등)를 고르신 뒤 .sh로 끝나는 파일명을 오른쪽 클릭하여 링크 주소를 복사합니다.

      2) PuTTY 혹은 커널로 접속한 뒤 wget을 입력한 뒤 한칸 띄우고 아까 복사한 링크를 붙여넣기 합니다. 예를 들어 파이썬 버전 3, 64비트 운영체제 linux 최신 릴리즈(2019.03)인 파일을 다운 받으려면 [wget https://repo.continuum.io/archive/Anaconda3-2019.03-Linux-x86_64.sh]라는 명령줄을 입력하시면 됩니다.

 

2) 웹 다운로드 후 FTP활용

      1) https://www.anaconda.com/distribution/사이트에 접속합니다.

      2) 중간의 OS에서 Linux를 클릭한 뒤 아래쪽의 버전대를 보시고 64비트 인스톨러를 클릭합니다.(아마 그냥 Download 버튼을 클릭해도 64비트 인스톨러가 다운로드 될 것입니다.)

      3) FileZilla를 켜시고 다운받은 파일을 서버에 업로드 해 줍니다.

 

이렇게 아나콘다 파일 다운로드는 끝났습니다.

 

이후에는 공통적으로 [bash 파일이름]을 입력하시면 설치가 시작됩니다. (bash Anaconda3-2019.03-Linux-x86_64.sh)

 

설치시에는 yes|no가 나오는 부분에서 전부 yes를 해주시면 되며, system path에 등록할거냐고 묻는 질문에 yes 해 주신 뒤 source ~/.bashrc 한번 해 주시면 system path가 등록이 됩니다.

 

이 상태에서 테스트 스크립트를 한번 돌려보고 만약에 테스트 스크립트가 돌아가지 않는 경우 conda환경을 하나 만들어주어야 합니다.

 

테스트 스크립트 만드는 방법은 아래를 따라오시면 됩니다.

 

시스템 CLI: vi test.py 입력

VIM안에서 a [vim 에디터 수정 명령어]

print("Hello world!")

esc로 에디트 모드 해제

:wq 입력하여 저장 후 CLI창으로 복귀

시스템 CLI: python test.py 입력

 

화면에 Hello world!가 출력되지 않는다면 conda 환경을 만들어주어야 합니다.

 

conda create --name [환경이름] python=3

conda activate [환경이름]

 

환경이름에는 영어로 입력해주시면 됩니다. 가령 my_env 같은 이름으로요.

 

저의 경우 이렇게 한번 activate 시켜주면 이후로는 지속적으로 activate되어 있었습니다.

 

그리고 다시 python text.py를 입력해보시면 이번에는 확실하게 Hello world!가 찍히는 것을 보실 수 있습니다.

 

더 궁금하신 점은 댓글 달아주시면 확인 후 답변드리겠습니다.

 

다음에는 이 환경에서 온라인으로 jupyter notebook 서버를 만들어보도록 하겠습니다.

윈도우즈에서 torchvision 깔기(with 파이토치(pytorch)깔기)


윈도우즈에서 파이토치(pytorch) 깔기는 굉장히 쉽다.


아나콘다 받아서 설치하고 -> 아나콘다 프롬프트를 실행시키고 ->

(엔비디아(nvidia) 계열 그래픽카드(gpu) 사용 시) conda install -c peterjc123 pytorch

(그 외 그래픽카드 혹은 cpu만으로 사용 시) conda install -c peterjc123 pytorch-cpu


끝!


확인할 수 있는 방법은 jupytor notebook을 켜거나 그냥 아나콘다 프롬프트에서 python입력해서 python 인터프리터 창으로 들어가서

import torch

실행해서 에러가 없으면 설치 성공!


근데 문제는 딥러닝을 조금 더 공부해서 cnn(convolutional neural network)으로 넘어가게 되면 torchvision이 필요하게 되는데, 이게 설치하는 방법이 구글링을 해봐도 잘 안나온다.


바로 아나콘다 클라우드에 

conda install -c anaconda torchvision

이라는 명령어가 나오기는 하는데, 윈도우즈에서 돌리면 채널이 없다고 나온다!


홈페이지 들어가 보았더니 osx와 linux만 지원한다고 한다.


그러면 윈도우즈에서는 깔 수가 없는 것인가?

아니다!


pip 명령어를 사용하면 아주 쉽게 깔 수 있다.


pip install torchvision


끝.


위와 같이 import torchvision 해서 에러가 안나면 제대로 깔렸다고 볼 수 있다.


만약 pip에서 에러가 나면 이전 포스팅인 pip에러 수정하는 방법에 대해서 확인해보자!

윈도우즈(windows)에서 아나콘다(anaconda)를 깐 뒤 아나콘다 프롬프트(anaconda prompt)에서 pip명령을 쳐서 뭘 설치하려고 하면 화면 가득 빨간 글씨가 가득 뜨며 설치가 안되는 경우가 있다.

(진짜 빨간글씨가 우루루루루루 나오는데, 조금 소름끼친다)


그리고 그 문장의 제일 마지막은

pip._vendor.pkg_resources.RequirementParseError: Invalid requirement, parse error at "'; extra '"

이걸로 끝난다.


구글에서 열심히 구글링 해 본 결과 이것은 testpath 패키지? 가 문제가 되어 pip를 망가뜨렸다는 것인데, 그럼 어디 한번 이것을 고쳐보자.


처음 하는 것이라 정말 한참 걸렸는데, 정말 쉽다.


아나콘다 프롬프트에서

conda install 'testpath>=0.4.2'

이 명령어를 쳐주자.

아마 커서가 내려가서 깜빡일 텐데 엔터 한번 더 쳐주자.

그러면 설치가 끝나고, 이렇게 설치가 끝난 상태에서 pip install다시 하면 제대로 실 행 이 됩 니 다.


문제 해결!


보니까 testpath버전이 0.4 아래에서 이런 문제가 발생하는 것 같은데, 0.4.2 버전에서 이 문제를 수정하였다고 한다.

+ Recent posts