본문 바로가기
플라스크

4주차 5, 크롤링 활용

by 호놀롤루 2022. 1. 16.

app.py

from flask import Flask, render_template, jsonify, request
app = Flask(__name__)
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.review

## HTML을 주는 부분
@app.route('/')
def home():
    return render_template('index.html')

@app.route('/memo', methods=['GET'])
def listing():
    articles = list(db.articles.find({}, {'_id': False}))
    return jsonify({'all_articles': articles})

## API 역할을 하는 부분
@app.route('/memo', methods=['POST'])
def saving():
    url_receive = request.form['url_give']
    comment_receive = request.form['comment_give']
    url = url_receive

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    data = requests.get(url, headers=headers)
    soup = BeautifulSoup(data.text, 'html.parser')

    title = soup.select_one('meta[property="og:title"]')['content']
    image = soup.select_one('meta[property="og:image"]')['content']
    desc = soup.select_one('meta[property="og:description"]')['content']

    doc = {
        'title': title,
        'image': image,
        'desc': desc,
        'url': url_receive,
        'comment': comment_receive
    }
    db.articles.insert_one(doc)
    return jsonify({'msg':'db 저장 완료'})

if __name__ == '__main__':
    app.run('0.0.0.0',port=5001,debug=True)

templates/index.html

<!Doctype html>
<html lang="ko">

    <head>
        <!-- Required meta tags -->
        <meta charset="utf-8">
        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">

        <!-- Bootstrap CSS -->
        <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css"
              integrity="sha384-Gn5384xqQ1aoWXA+058RXPxPg6fy4IWvTNh0E263XmFcJlSAwiGgFAW/dAiS6JXm"
              crossorigin="anonymous">

        <!-- JS -->
        <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script>
        <script src="https://cdnjs.cloudflare.com/ajax/libs/popper.js/1.12.9/umd/popper.min.js"
                integrity="sha384-ApNbgh9B+Y1QKtv3Rn7W3mgPxhU9K/ScQsAP7hUibX39j7fakFPskvXusvfa0b4Q"
                crossorigin="anonymous"></script>

        <!-- 구글폰트 -->
        <link href="https://fonts.googleapis.com/css?family=Stylish&display=swap" rel="stylesheet">


        <title>리뷰 메모장</title>

        <!-- style -->
        <style type="text/css">
            * {
                font-family: "Stylish", sans-serif;
            }

            .wrap {
                width: 900px;
                margin: auto;
            }

            .comment {
                color: blue;
                font-weight: bold;
            }

            #post-box {
                width: 500px;
                margin: 20px auto;
                padding: 50px;
                border: black solid;
                border-radius: 5px;
            }
        </style>
        <script>
            $(document).ready(function () {
                showArticles();
            });

            function openClose() {
                if ($("#post-box").css("display") == "block") {
                    $("#post-box").hide();
                    $("#btn-post-box").text("포스팅 박스 열기");
                } else {
                    $("#post-box").show();
                    $("#btn-post-box").text("포스팅 박스 닫기");
                }
            }

            function postArticle() {
                let url = $('#post-url').val()
                let comment = $('#post-comment').val()
                $.ajax({
                    type: "POST",
                    url: "/memo",
                    data: {url_give:url, comment_give: comment},
                    success: function (response) { // 성공하면
                        alert(response["msg"]);
                        window.location.reload()
                    }
                })
            }

            function showArticles() {
                $.ajax({
                    type: "GET",
                    url: "/memo",
                    data: {},
                    success: function (response) {
                        let articles = response['all_articles']
                        for (let i=0; i<articles.length; i++){
                            let title = articles[i]['title']
                            let image = articles[i]['image']
                            let desc = articles[i]['desc']
                            let url = articles[i]['url']
                            let comment = articles[i]['comment']
                            let temp_html = `<div class="card">
                                                <img class="card-img-top"
                                                     src="${image}"
                                                     alt="Card image cap">
                                                <div class="card-body">
                                                    <a target="_blank" href="${url}" class="card-title">${title}</a>
                                                    <p class="card-text">${desc}</p>
                                                    <p class="card-text comment">${comment}</p>
                                                </div>
                                            </div>`
                            $('#cards-box').append(temp_html)
                        }

                    }
                })
            }
        </script>

간단하게 기능을 설명하자면 포스팅 박스를 열고, 원하는 네이버 영화의 영화 url과 리뷰를

적으면 그 리뷰와 영화에 관련된 정보가 크롤링 되어서 카드에 찍히는 프로그램이다.

 

일단 localhost:5001/ 로 접근하면 페이지가 열리면서 showArticle()함수가 실행된다.

/memo에 get으로 접근하고, app.py에서 articles에 리스트형태로 review.articles에

있는 '_id'를 제외한 데이터를 모두 담아서 response{'articles': articles}형태로 보낸다.

 

ajax에선 리스트형태의 response의 내용물을 articles에 답는다.

그리고 그 길이만큼 for문을 돌리고, db의 내용물인 title, image, desc, url, comment를

변수에 담는다.

 

그리고 temp_html에 백틱형태로 db데이터가 들어간 카드 코드를 담고, card들을 나열하는

div에 집어넣는다.

 

그럼 페이지에 접근하면 db에 있는 리뷰들을 출력하는 것이 가능하다.

 

 

그리고 포스팅 박스를 열고, url과 comment를 써서 버튼을 누르면

<button type="button" class="btn btn-primary" onclick="postArticle()">기사저장</button>

onclick으로 postArticle()함수가 발동한다.

url과 comment의 내용을 {url_give: url, comment_give: comment} 형태의 json데이터로

만들어, post방식으로 접근,

 

app.py에선 url과 comment를 변수에 저장, 추가로 헤더를 만들어서, BeatufulSoup을 이용해

index.html에서 넘어온 url을 크롤링한다.

 

'meta[property="og:title"]' 이라는 코드를 설명하자면, 카톡으로 url을 보낼 경우, 설명이나

이미지가 딸려오는 경우를 많이 봤을 것이다.

html의 head안에 meta데이터를 넣어서 그런 것이다. 이 태그는 그 meta데이터를 가져오는

코드이다.

 

그 데이터들을 딕셔너리 doc에 집어넣고, db에 저장한다.

 

그리고 index.html로 response{'msg': 'db 저장 완료'} 형태의 json데이터를 보낸다.

index.html에선 그 데이터를 알림인 alert으로 만들고, 웹페이지를 재실행한다.

 

댓글