IT 개발자 뉴스 가젯과 리뷰 뉴스 컴퓨터 Hyun-woo (현우) 1월 21, 2025 0 Comments

AI가 생성한 정크 과학은 Google Scholar에서 큰 문제라고 연구는 제안합니다.

AI 기반 과학연구가 온라인 학술 정보 생태계를 오염시키고 있다는 우려스러운 보고서가 나왔습니다. 출판됨 하버드 케네디 스쿨에서 잘못된 정보 검토.

연구진은 인위적으로 생성된 텍스트의 증거가 있는 연구 기사의 확산을 조사했습니다. 구글 학술검색는 다양한 학술지에 역사적으로 발표된 연구를 쉽게 검색할 수 있는 학술 검색 엔진입니다.

팀은 특히 OpenAI의 ChatGPT와 같이 이제 친숙한 소프트웨어를 포함하는 대규모 언어 모델(LLM)의 일종인 생성적 사전 훈련된 변환기(또는 GPT)의 오용을 조사했습니다. 이러한 모델은 텍스트 입력을 신속하게 해석하고 그림, 이미지 및 긴 텍스트 줄의 형태로 신속하게 응답을 생성할 수 있습니다.

이번 연구에서 연구팀은 구글 학술검색에서 GPT 사용 징후가 발견된 과학 논문 샘플을 분석했습니다. 선택한 논문에는 다음과 같은 공통 문구가 하나 또는 두 개 포함되어 있습니다. 대화 에이전트 (일반적으로 챗봇) LLM 사용으로 뒷받침됩니다. 그런 다음 연구자들은 의심스러운 논문이 인터넷을 통해 배포되고 호스팅되는 정도를 조사했습니다.

“AI로 생성된 연구가 검색 엔진에 확산되면 우리가 ‘증거 해킹’이라고 부르는 위험이 크게 증가합니다.”라고 스웨덴 도서관 및 정보 과학 학교의 연구원이자 논문의 공동 저자인 Björn Ekström은 말했습니다. 보라스 대학교 풀어 주다. “부정확한 결과가 사회에 더 깊이 침투할 수 있고 점점 더 많은 영역에 침투할 수 있기 때문에 이는 실질적인 결과를 초래할 수 있습니다.”

최근 팀에 따르면 Google Scholar가 인터넷에서 연구 결과를 가져오는 방식은 저자가 과학적 제휴나 동료 검토가 부족한 논문을 걸러내지 않습니다. 엔진은 더 높은 수준의 조사 기준을 통과한 연구와 함께 학생 논문, 보고서, 사전 인쇄 등 학문적 부수적 자료를 끌어올 것입니다.

연구팀은 연구한 논문의 3분의 2가 적어도 부분적으로 GPT의 비공개 사용을 통해 제작되었다는 사실을 발견했습니다. 연구자들은 GPT가 제작한 논문 중 14.5%가 건강과 관련이 있고, 19.5%가 환경과 관련이 있으며, 23%가 컴퓨팅과 관련이 있는 것으로 나타났습니다.

“GPT가 조작한 논문의 대부분은 색인이 없는 저널과 연구 논문에서 발견되었지만 일부 사례에는 주류 과학 저널과 회의록에 발표된 연구가 포함되었습니다.”라고 팀은 썼습니다.

연구원들은 이러한 개발로 인해 발생하는 두 가지 주요 위험을 설명했습니다. “첫째, 연구 인프라의 모든 영역에 스며드는 수많은 조작된 ‘연구’가 학술 커뮤니케이션 시스템을 압도하고 과학 기록의 무결성을 위태롭게 할 위험이 있습니다.”라고 이 그룹은 썼습니다. “두 번째 위험은 설득력 있게 과학적으로 보이는 콘텐츠가 실제로 AI 도구를 사용하여 기만적으로 생성되었으며 공개적으로 사용 가능한 학술 검색 엔진, 특히 Google Scholar에서 검색되도록 최적화되었을 가능성이 커진다는 것입니다.”

Google Scholar는 학술 데이터베이스가 아니기 때문에 일반인이 과학 문헌을 검색할 때 쉽게 사용할 수 있습니다. 좋아요. 불행하게도 평판이 좋은 저널에 관해서 대중이 밀과 왕겨를 분리하는 것은 더 어렵습니다. 동료 검토 연구와 연구 논문의 차이조차 혼란스러울 수 있습니다. 게다가, AI가 생성한 텍스트는 동료 심사를 거친 일부 저작물과 덜 면밀히 조사된 저작물에서도 발견되었는데, 이는 GPT로 제작된 저작물이 해당 저작물뿐만 아니라 온라인 학술 정보 시스템 전반에 걸쳐 혼란을 야기하고 있음을 나타냅니다. 대부분의 공식 채널 외부에 존재합니다.

“우리가 읽은 연구가 진짜라는 것을 신뢰할 수 없다면 잘못된 정보를 바탕으로 결정을 내릴 위험이 있습니다”라고 스웨덴 도서관 및 정보 과학 학교의 연구원이자 공동 저자인 Jutta Haider는 같은 보도 자료에서 말했습니다. “그러나 이것은 과학적 위법 행위의 문제인 만큼 미디어와 정보 활용 능력의 문제입니다.”

최근 몇 년 동안 출판사에서는 완전히 말도 안되는 과학 기사 몇 개를 성공적으로 선별하는 데 실패했습니다. 2021년에 Springer Nature는 40편이 넘는 논문을 철회해야 했습니다. 아라비아 지구과학 저널저널 제목에도 불구하고 스포츠, 대기 오염, 아동 의학 등 다양한 주제를 논의했습니다. 주제에서 벗어난 것 외에도 기사는 말이 되지 않을 정도로 형편없게 작성되었으며 문장에는 설득력 있는 사고 방식이 부족한 경우가 많았습니다.

인공지능이 문제를 더욱 악화시키고 있다. 지난 2월, 출판사 Frontiers는 자사 저널에 논문을 게재했다는 이유로 비난을 받았습니다. 셀 그리고 발달 생물학 여기에는 AI 소프트웨어 Midjourney에서 생성된 이미지가 포함되었습니다. 구체적으로, 매우 신호 전달 경로와 쥐 생식기의 해부학적 이미지가 올바르지 않습니다. Frontiers는 출판 후 며칠 후에 해당 논문을 철회했습니다.

AI 모델은 과학에 도움이 될 수 있습니다. 시스템은 로마 제국의 깨지기 쉬운 문서를 해독하고, 이전에 알려지지 않은 나스카 라인을 찾아내고, 공룡 화석에 숨겨진 세부 사항을 밝힐 수 있습니다. 그러나 AI의 영향은 AI를 사용하는 인간만큼 긍정적일 수도 있고 부정적일 수도 있습니다.

동료 심사 저널과 학술 저술을 위한 호스트 및 검색 엔진에는 기술이 과학적 발견에 반대하는 것이 아니라 과학적 발견을 위해 작동하도록 보장하는 가드레일이 필요합니다.

출처 참조