
입력 받은 Login Data를 토대로 크롤링을 하고 로데이터를 정제하는 Controller 부분입니다.



__init__은 특정 클래스나 폴더 혹은 모듈이 호출될떄 함께 호출되고 실행되며, 패키지로 인식하게 해준다.

python3.3 버전부터는 파일이 없어도 패키지로 인식한다(PEP 420). 하지만 하위 버전 호환을 위해 파일을 생성하는 것이 안전한 방법이다.


lms_id와 lms_pw를 통해 기존에 알아둔 id, pw양식에 맞는지 확인을 하고, 1차 양식이 통과하면 실제 lms에 로그인이 되는지 처리하는 부분입니다.

from bs4 import BeautifulSoup
import requests

def login_check_and_get_session(lms_id, lms_pw):

    fail_login_value = "로그인 정보가 일치하지 않습니다."

    if lms_id.isdigit() != True and len(lms_id) != 9:
        return False
    # elif len(lms_pw) != 6 and not (10 <= len(lms_pw) <= 16):
    #     return False

        session = requests.Session()

        session_url = ""  # 세션을 얻을 url

        data = {"usr_id": lms_id, "usr_pwd": lms_pw}  # LMS 아이디  # LMS 비밀번호

        request =, data=data, verify=False)

        confirm_login = BeautifulSoup(request.text, "html.parser")

        if fail_login_value in str(confirm_login):
            print("세션이 닫혔습니다.")
            return False
            return True


lmsid 와 lmspw 를 토대로 lms의 세션을 통해 크롤링으로 "수업", "과제", "시험"의 로데이터를 얻고, 설계한 API에 맞는 데이터로 정제하는 부분입니다.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
import urllib3


def get_session(lms_id, lms_pw):
    session = requests.Session()

    session_url = ""  # 세션을 얻을 url

    data = {"usr_id": lms_id, "usr_pwd": lms_pw}  # LMS 아이디  # LMS 비밀번호

    request =, data=data, verify=False)
    confirm_login_soup = BeautifulSoup(request.text, "html.parser")

    # login_checker 에서 시행했음.
    # if "로그인 정보가 일치하지 않습니다." in confirm_login_soup.text:
    #     session.close()  # 세션 닫기
    #     return False
    return session

def Sub_subject_craw_module(session):

    subject_craw_url = (
        ""  # 학수번호와 과목 명을 크롤링함

    request =, verify=False)
    sub_num_soup = BeautifulSoup(request.text, "html.parser")  # main에 요청보내서 학수번호 알아내기
    subject_list = sub_num_soup.findAll("em", {"sub", "sub_open"})

    return_subject_list = []
    for index in range(len(subject_list)):
                "".join(subject_list[index].text.replace(" ", "").split()),

    return return_subject_list

def Sub_detail_sub_info(KJKEY, session):
    # global session

    craw_url = ""
    sub_main = ""
    data = {
        "KJKEY": KJKEY,  # n번째 과목의 학수번호
        "returnData": "json",
        "returnURI": "",
        "encoding": "utf-8",

    request =, data=data, verify=False)  # 해당 과목에 대한 session을 얻는다.
    soup = BeautifulSoup(request.text, "html.parser")

    res = session.get(sub_main, verify=False)  # 해당 과목의 세션을 얻었을 때 url을 가져와야함

    soup = BeautifulSoup(res.text, "html.parser")
    right_banner = soup.find("div", {"class", "submain-rightarea"})  # 오른쪽 배너를 부르고

    detail_sub_info = right_banner.findAll("a", {"class", "site-link"})  # 부른 것에서 추출

    subject_url_list = []
    exam_url_list = []
    assignment_url = ""  # + "/ilos/st/course/report_view_form.acl?RT_SEQ=4057037" 과제는 그냥 get 때리면 됨, SEQ뒤에 과제 일렬번호 써줘야함

    # 오른쪽 부분을 이용해서 "과제와 시험기간이 현재 범위 인것만 긁는다."
    for i in range(len(detail_sub_info)):
        if "[과제]" in detail_sub_info[i].text.strip():
            subject_url_list.append(assignment_url + detail_sub_info[i]["href"])

        if "[시험]" in detail_sub_info[i].text.strip():
            exam_url_list.append(assignment_url + detail_sub_info[i]["href"])

    return subject_url_list, exam_url_list

def Sub_class_info(ky, session):

    online_list = ""  # 수업

    data = {"ud": "", "ky": ky, "WEEK_NO": "", "encoding": "utf-8"}
    res =, verify=False)

    soup = BeautifulSoup(res.text, "html.parser")
    temp_temp = soup.findAll("div", {"class", "lecture-box"})
    return temp_temp

def Sub_subject(craw_url, session):

    res =, verify=False)
    soup = BeautifulSoup(res.text, "html.parser")

    temp_temp = soup.find("table", {"class": "bbsview"})
    temp_temp2 = soup.find("table", {"class": "bbswrite"})

    return temp_temp, temp_temp2

def Sub_exam(craw_url, session):

    res =, verify=False)
    soup = BeautifulSoup(res.text, "html.parser")

    contents = soup.find("div", {"id": "contents"})
    return contents

def get_subject_information(lms_id, lms_pw):

    세션 얻기
    session = get_session(lms_id, lms_pw)

    학수번호와 과목명을 크롤링
    subject_list = Sub_subject_craw_module(session)

    미완료 항목 크롤링
    sub_percent = "100%"  # 100% 안들으면 미완료
    return_dic = {"status": 200, "subject": [], "lms_data": []}
    calender_form = {
        "subject_name": "",
        "class": "",
        "context": "",
        "date_deadline": "",

    for index in range(len(subject_list)):
        return_dic["subject"].append(subject_list[index][0])  # json 추가부분

        # 수업 처리 부분

        temp_li_ = Sub_class_info(subject_list[index][1], session)

        for i in range(len(temp_li_)):
            temp_list_find = temp_li_[i].text.split()

            if sub_percent not in temp_list_find:
                index_ha = temp_list_find.index("학습인정기간")

                if "아닙니다." not in temp_list_find[:index_ha]:
                    # 이유를 모르겠음 .... 왜 -1 하면 되는 것인가 ?
                    calender_form["subject_name"] = subject_list[index - 1][0]
                    print("into calender_form ", subject_list[index][0], index)
                    calender_form["class"] = "수업"
                    calender_form["context"] = " ".join(temp_list_find[:index_ha])
                    calender_form["date_deadline"] = " ".join(
                        temp_list_find[index_ha + 6 : index_ha + 9]
                    )  # dict해서 넣어야 이전값들이 안바뀜

        # 과제 및 시험 처리 부분

        # 과제 처리 부분

        temp_list, temp_list2 = Sub_detail_sub_info(subject_list[index][1], session)

        for i in range(len(temp_list)):

            temp_temp, temp_temp2 = Sub_subject(temp_list[i], session)

            sub = temp_temp.text.split()

            find_index = sub.index("마감일")
            find_index2 = sub.index("제출방식")

            if "제출일시" not in temp_temp2.text.split():  # 과제 제출 안함
                calender_form["subject_name"] = subject_list[index][0]
                calender_form["class"] = "과제"
                calender_form["context"] = " ".join(sub[4:find_index2])
                calender_form["date_deadline"] = " ".join(
                    sub[find_index + 1 : find_index + 4]

        # 시험 처리 부분
        for i in range(len(temp_list2)):
            h = Sub_exam(temp_list2[i], session)

            if "응시정보" in h.text:
                h = h.findAll("td")
                li = []
                for j in range(len(h)):

                calender_form["subject_name"] = subject_list[index][0]
                calender_form["class"] = "시험"
                calender_form["context"] = li[0]
                calender_form["date_deadline"] = ", ".join(li[4:6])

    return return_dic

# return_json = get_subject_information("202013245", "125734")
# print("return_json :: ", return_json)

