이 AI는 인간이 말에 동의 할 수없는 경우에도 프로처럼 과학 논문을 읽습니다.

이 AI는 인간이 말에 동의 할 수없는 경우에도 프로처럼 과학 논문을 읽습니다.

저자 :

(1) Yanpeng YE, 뉴 사우스 웨일즈 대학교, 켄싱턴, NSW, Greendynamics Pty. Ltd, Kensington, NSW, Australia 및이 저자들은이 작품에 똑같이 기여했습니다.

(2) Jie Ren, Greendynamics Pty. Ltd, 호주 NSW, Kensington, 중국 홍콩 홍콩 시립 대학교 재료 과학 및 공학과,이 저자들은이 작품에 똑같이 기여했습니다.

(3) Shaozhou Wang, Greendynamics Pty. Ltd, Kensington, NSW, Australia[email protected]);

(4) Yuwei Wan, Greendynamics Pty. Ltd, 켄싱턴, NSW, 호주 및 중국 홍콩 시티 대학교 언어 및 번역부;

(5) Imran Razzak, 뉴 사우스 웨일즈 대학교 컴퓨터 과학 및 공학부, 호주 NSW 켄싱턴;

(6) Tong Xie, Greendynamics Pty. Ltd, 켄싱턴, NSW, 호주 및 뉴 사우스 웨일즈 대학교, 뉴 사우스 웨일즈 대학교 (New South Wales University)[email protected]);

(7) Wenjie Zhang, 뉴 사우스 웨일즈 대학교 (New South Wales University of Computer Science and Engineering)[email protected]).

편집자 주 :이 기사는 광범위한 연구의 일부입니다. 당신은 9의 3 부를 읽고 있습니다. 아래의 나머지를 읽으십시오.

데이터 준비 및 스키마 설계

재료 전문가들은 75 개의 연구 논문에서 9 개의 뚜렷한 범주에 대한 주석을 달성했으며 LLM의 교육 데이터 세트 역할을했습니다. 이 범주는 다양한 형태이지만 다양한 용지에 걸쳐 특정 자료를 일관되게 나타내는 핵심 레이블 – “이름”, “공식”또는 “약어”를 포함합니다. 또한 보충 레이블에는 “디스크립터”, “구조/단계”, “응용 프로그램”, “속성”, “합성”및 “특성화”가 포함되었습니다. “속성”레이블은 ‘길이’, ”특이 적 표면적 ‘및’질량 ‘과 같은 정량적 특성을 묘사하는 반면, “설명 자”라벨은’stable ‘,’vertically, safe ‘와 같은 질적 속성을 캡슐화했습니다. 응용 프로그램 측면에서 개발자는 항상 자체 속성에 대해 우려하기 때문에 특정 “응용 프로그램”에 직접 연결된 “속성”으로 필수 매개 변수에 주석을 달았습니다. 예를 들어, 리튬 이온 배터리의 ‘특정 용량’, 태양 전지의 ‘에너지 전환 효율’및 수소 진화 반응의 ‘H2 생산 속도’와 같은 속성은 체계적으로 주석이 달렸다.

그림 2에서 알 수 있듯이 중앙 노드 인 “재료”는 중추적이며 명명법, 구성 및 다양한 속성을 설명하는 노드에 연결됩니다. 구체적으로, “재료”는 “공식”, “이름”및 “약어”로 구성됩니다. 물리적 형태를 설명하는 “구조/단계”; 실질적인 용도를 나타내는 “응용 프로그램”; 고유 한 특성을 설명하는 “속성”. “재료”노드는 또한 추가적인 질적 정보를 제공하는 “디스크립터”노드와 관련이 있습니다. 또한 “응용 프로그램”노드는 “속성”, “설명 자”및 “도메인”으로 분기되어 추가 사양 및 상황에 맞는 응용 프로그램 관련성을 제안합니다. 노드 및 관계 소스를 저장하기 위해 각 노드는 “DIDI (Digital Object Identifier)”노드에 연결됩니다. 관계가 도출되는 소스 기사를 결정하려면 관계의 양쪽 끝에서 “doi”노드 이웃의 교차점을 쿼리하여 결과를 얻을 수 있습니다.

그림 2.이 회로도는 FMKG 스키마를 나타냅니다 (a) FMKG의 모든 노드는 모든 소스에 연결됩니다. "doi". (b) 모든 레이블 간의 관계. (c) 코어 라벨 간의 관계, 레이블을 가리키는 화살표가 많을수록 우선 순위가 낮아집니다.그림 2.이 회로도는 FMKG 스키마를 나타냅니다 (a) FMKG의 모든 노드는 모든 소스에 연결됩니다. "doi". (b) 모든 레이블 간의 관계. (c) 코어 라벨 간의 관계, 레이블을 가리키는 화살표가 많을수록 우선 순위가 낮아집니다.

문장의 고유 한 복잡성과 초록에 걸친 용어의 변동성을 고려할 때, 초기 추출 후에 정규화 과정이 사용되었다. 이 정규화는 비슷한 의미를 가진 엔티티의 균일 한 표현을 보장했습니다. 예를 들어, ‘리튬 이온 배터리’및 ‘리-이온 배터리’와 같은 용어는 ‘리튬 이온 배터리’로 표준화되었으며 ‘솔루션 주조 방법’, 용매 후 치료 방법 ‘및’솔루션 기반 증착 ‘과 같은 문구는’솔루션 프로세스 (Solution-Processed) ‘로 단순화되었습니다. 모든 주석이 달린 엔티티는이 정규화 과정을 거쳐 일관성을 유지하고 LLM의 효과적인 교육을 촉진했습니다. 기능적 재료의 분야는 광범위한 영역을 포함합니다. 이 단계에서 우리의 우선 순위는 에너지 재료에 집중하는 것입니다. 우리는 에너지 재료 과학의 동료 검토 연구 기사의 150,000 개 초록을 다운로드하여 과학 웹의 배터리, 태양 전지 및 촉매가 포함됩니다. 각 초록은 JSON 파일 형식으로 저장되었으며 “DOI- 텍스트”로 구성되어 원활한 처리 및 분석을 용이하게합니다.

출처 참조

Post Comment