본문 바로가기

S-DEV/다크웹

다크웹 3

728x90

ahmina.fi/address 주소에 있는 Onion 도메인들의 tilte 및 url 주소 파싱하기

import requests
from bs4 import BeautifulSoup
import time

proxies = {
    "http": "socks5h://127.0.0.1:9150",
    "https": "socks5h://127.0.0.1:9150"
}

url = 'https://ahmia.fi/address/'

response = requests.get(url, proxies=proxies)
html = response.text
soup = BeautifulSoup(html, 'html.parser')

# URL 링크
for a in soup.findAll("a"):
    href = a["href"]
    if href.startswith("http:"):
        full_url = href  # URL에 있는 하위 URL 들어가기 
        link_response = requests.get(full_url, proxies=proxies)
        link_html = link_response.text
        link_soup = BeautifulSoup(link_html, 'html.parser')
        
        # 제목 출력
        title = link_soup.find("title")
        if title:
            if title != "Onion Porn You Can Trust":
                print("[제목]",title.text,"[URL]",href)
            else:
                continue
        else:
            print("Title not found")
        
       # time.sleep(2)  # 요청 간격을 두어 서버 부하 방지

'S-DEV > 다크웹' 카테고리의 다른 글

다크웹2  (0) 2023.08.20
Tor IP 국적 지정  (0) 2023.08.20
다크웹  (0) 2023.08.17
데이터베이스  (0) 2023.08.13
Web Crowlling - 1  (0) 2023.08.07