코딩정보




●펌정보/작업 [GitHub] GitHub Action을 사용하여 자동 스크래핑(scraping)과 Push 구현하기

♨ 카랜더 일정 : 2021년09월22일
  • 링크

  • 첨부

  • 컨텐츠 정보

    본문

    ●펌정보/작업 [GitHub] GitHub Action을 사용하여 자동 스크래핑(scraping)과 Push 구현하기

    https://chanhuiseok.github.io/posts/git-1/




    ▶ 1. 파이썬으로 스크래핑 기능 만들기


    뉴스 사이트 링크 : https://www.yna.co.kr/safe/news


    import requests
    from bs4 import BeautifulSoup
    import json
    import os
    import sys
    
    
    BASE_DIR = os.path.dirname(os.path.abspath(__file__))
    
    
    print('뉴스기사 스크래핑 시작')
    
    
    req = requests.get('https://www.yna.co.kr/safe/news')
    # req = requests.get('https://www.yna.co.kr/safe/news')
    req.encoding= None
    html = req.content
    soup = BeautifulSoup(html, 'html.parser')
    datas = soup.select(
        'div.contents > div.content01 > div > ul > li >article > div >h3'
        )
    
    
    data = {}
    
    
    for title in datas:   
        name = title.find_all('a')[0].text
        url = 'http:'+title.find('a')['href']
        data[name] = url
    
    
    with open(os.path.join(BASE_DIR, 'news.json'), 'w+',encoding='utf-8') as json_file:
        json.dump(data, json_file, ensure_ascii = False, indent='t')
    
    
    print('뉴스기사 스크래핑 끝')


    3232235521_1632263377.9643.png

    뉴스 사이트 스크래핑 결과 

    j:\data_2t_i_drive\python\m3u2strm\news.json


    3232235521_1632263074.3441.png


    1.png https://11q.kr 에 등록된 자료 입니다. ♠ 정보찾아 공유 드리며 출처는 링크 참조 바랍니다♠

    [ 추가 정보 ... 더보기) ]
    뷰PDF 1,2



    office view

    관련자료

    댓글목록

    등록된 댓글이 없습니다.




    ♥간단_메모글♥


    최근글


    새댓글



    PHP 안에 HTML ☞ 홈페이지 화면갱신 시간은 ♨
    ▶ 2024-05-02 23:02:39

    오늘의 홈 현황


    • 현재 접속자♨ 231 명
    • 오늘 가입자※ 1 명
    • 어제 가입자※ 4 명
    • 주간 가입자※ 16 명
    • 오늘 방문자 1,811 명
    • 어제 방문자 1,557 명
    • 최대 방문자 13,042 명
    • 전체 방문자 4,299,699 명
    • 전체 게시물※ 8,551 개
    • 전체 댓글수※ 24,546 개
    • 전체 회원수 10,945 명

    QR코드


    ☞ QR코드 스캔은 kakao앱 자체 QR코드

    알림 0








    최신글↑