고갱

[인공지능] 졸업 작품 기획 본문

인공지능/졸업작품

[인공지능] 졸업 작품 기획

주인장 고갱 2024. 11. 16. 17:05

졸업 작품을 처음부터 다시 만들게 되었다.

원래는 배달 플랫폼 앱을 만들고자 하였지만, 더 큰 스케일으로 만들어보고자 변경하였다.

(자세히는 인공지능 분야에 대해 조금 더 적합한 졸업 작품으로 바꾸어보고자 하였다.)

 

절대 갈팡질팡 하는 것이 아니라 몇 주일동안 노심초사하면서 고민해본 결과라는 것을 알아주었으면 한다.

 

🤔 어떤 작품을 만들까?

우리나라의 법전을 토대로 한 법률 상담 서비스를 졸업 작품으로 생각 중이다.

우리나라 법전의 데이터를 모두 크롤링하여 CSV 파일로 긁어온 후에 이를 임베딩하여 

벡터 데이터베이스에 넣은 후 RAG + LLM 으로 어떤 동작을 수행하게끔 하고자 한다.

(아직은 벡터 데이터베이스도 선택하지 않았을 정도로 추상적 단계다.)

 

이것이 가판결문이 될 지, 또는 적용되는 법 조항만 뱉어내게 할 지는 조금 더 생각해보아야 할 것 같다.

자료 화면, 출처 (구글 검색)

 

😦 왜 RAG?

그렇다면 왜 Fine-tuning이 아닌, RAG + LLM 으로 하는 것일까?

이것은 크게 두 개의 이유 때문에 RAG를 선택하게 되었다.

 

 

우선, 우리나라 법은 절대 정적이지 않다.

다시 말해, 우리나라 법은 수시로 변하고 있다는 말이다.

물론 엄청 빠른 속도로 자주 변하지는 않지만, 그래도 변하긴 한다.

 

LLM을 Fine-tuning하게 된다면 해당 모델은 해당 데이터에 대한 정적인 시점을 지니게 된다.

즉, 법이 변하더라도 다시 Fine-tuning하지 않으면 최신 법을 적용할 수 없다는 뜻이다.

이를 해결하기 위해 최신 법이 나올 때마다 Fine-tuning을 진행한다는 선택지도 있겠지만,

이는 자원과 시간 측면에서 RAG에 비해 비효율적일 수 있다는 생각이다.

 

만약 시간을 소요하여 Fine-tuning을 진행하였는데 결과가 좋지 않다면?

시간만 날린 샘이기 때문이다.

 

하지만 RAG는 다르다.

Vector 데이터베이스에 지속적으로 최신 데이터를 넣어주기만 하면 항상 최신의 상태를 유지할 수 있다.

 

자 요약하자면, 우리나라의 법은 정적이지 않기 때문에, 동적인 법에 알맞는 RAG를 선택한 것이다.

 

 

두 번째 이유는, 환각 효과다.

 

 

이 말은, 일명 할루시네이션이라고 불리는 환각 효과가 LLM에 발생하기 때문인데,

Fine-tuning을 하더라도 현실에 존재치 않는 거짓된 사실을 만들어낼 수 있기 때문이다.

RAG를 하더라도 나타날 순 있겠지만 RAG는 검색된 데이터에 기반하여 답변을 생성하기 때문에 환각에 덜 취약하다.

 

법률과 같은 민감한 사안에서는 이러한 환각 효과는 정말 중요한 문제이기 때문에 환각에 덜 취약한 RAG를 선택하였다.

 

 

사실 이러한 위 이유 외에도 꼼꼼히 생각해본다면 이유가 더 있을 수 있겠지만, 위 두 가지만 하여도 충분히 RAG를 선택한 이유가 타당하다는 결론이다.

 

 

 

 

❗ 진행 현황

아직은 진행된 사항이 하나도 없다.

막연히 기획만 해두고 긁어올 (크롤링할) 법 정보들을 계속 흝어보고 어떤 법까지 긁어야 하는지의 범위를 생각 중이다.

 

가령, 자치법규나 행정규칙까지 모두 다 적용할지, 아니면 정말 법률에 국한하여 할 지 그런 범위를 말이다.