기술 사업 및 스타트업 테크노에 대한 모든 것 Tae-yang (태양) 7월 16, 2025 0 Comments

텍스트 데이터 잠금 해제 : Python, NLTK 및 Spacy를 통한 초보자의 여정

링크 표

초록 및 1 소개

2 관련 작업

3 가상 학습 경험

3.1 팀과 3.2 코스 개요

3.3 파일럿 1

3.4 파일럿 2

4 피드백

4.1 끊임없는 피드백

4.2 자세한 학생 피드백

5 교훈

6 요약 및 미래의 작업, 인정 및 참조

A. 부록 : 별 3 개와 소원

3 가상 학습 경험

3.1 팀

우리 팀은 에든버러 대학교에서 3 명의 초기 경력 학자들로 구성되어 있습니다. 두 명의 교육 펠로우는 계산 언어학에서 박사 학위를받은 자연 언어 처리에 대한 배경 지식이 있습니다. 세 번째 교육 동료는 컴퓨터 과학 박사 학위를 받았으며 비즈니스 학생 및 고등 교육 이외의 학생들을 포함한 다양한 유형의 청중에게 프로그래밍을 자주 가르칩니다. 이 백서의 저자 목록에는 첫 번째 조종사의 참가자였던 네 번째 (마지막) 저자, 강사 자신 이며이 과정의 향후 반복에 유용한 피드백을 제공 한 사람이 포함됩니다 (섹션 4.2 참조).

3.2 코스 개요

우리의 데이터 중심 사회에서, 민간, 공공 및 제 3 부문의 사람들이 매일 사회가 만드는 풍부한 정보를 분석하는 방법을 아는 것이 점점 더 중요 해지고 있습니다. 우리의 TDM 과정은 코딩을 경험하지 않는 참가자에게 데이터를 심문하는 데 필요한 도구를 경험합니다. 이 과정은 비 코더에게 Python을 주요 프로그래밍 언어로 사용하여 텍스트 데이터를 분석하는 방법을 가르치기 위해 설계되었습니다. 대규모 텍스트 문서 모음 또는 Corpora에서 정보를 분석하고 시각화하는 데 필요한 단계를 통해 필요합니다.

이 과정은 3 시간 동안 3 시간 동안 진행되며 각 세션은 짧은 강의를 통해 참가자를 새로운 주제에 소개합니다. 주제는 이전 세션을 기반으로하며 각 세션이 끝날 때 토론과 피드백을위한 시간이 있습니다. 첫 번째 세션에서 우리는 Python으로 시작하여 텍스트를 읽고 처리하고 개별 문서가로드되고 토큰 화되는 방법을 가르칩니다. 우리는 일반 텍스트 파일로 작업하지만 텍스트 데이터가 다른 형식으로 저장 될 수 있다는 문제를 제기합니다. 그러나 사물을 단순하게 유지하기 위해 실제 세션에서 다른 형식을 자세히 다루지 않습니다.

두 번째 세션에서는 이것이 훨씬 더 큰 텍스트 세트를 사용하여 어떻게 수행되고 시각화를 추가하는지 보여줍니다. 우리는 두 가지 데이터 세트를 사례로 사용했습니다. 이는 스코틀랜드 국립 도서관이 제공 한 영국 인도의 병력 (2019 년 스코틀랜드)을 사용했습니다.[4] 그리고 1789 년부터 2017 년까지 모든 미국 대통령의 취임 연설. 우리는 참가자들이 코퍼스의 토큰 주파수 분포뿐만 아니라 어휘 분산 플롯 및 Python을 사용하여 정기적 인 표현 검색을 수행 할 수있는 방법을 보여줍니다. 이 세션에서는 텍스트 데이터가 지저분 할 수 있으며 추가 분석에 가장 유용한 방식으로 데이터를 청소하고 준비하는 데 많은 시간이 소요될 수 있다고 설명합니다. 예를 들어, 우리는 학생들이 결과의 중지 및 구두점을 지적하고 주파수 기반 시각화를 만들 때 필터링하는 방법을 설명합니다.

세 번째 세션에서 우리는 pos-tagging과 이름이 지명 된 엔티티 인식을 다룹니다. 이 마지막 세션은 텍스트 강조 표시, 주파수 그래프, 단어 구름 및 네트워크를 통해 텍스트 및 파생 데이터의 시각화에 대한 교훈으로 마무리됩니다 (그림 1의 일부 예 참조). 이 과정에 사용 된 기본 NLP 도구는 NLTK 3과 Spacy이며 NLP 연구 개발에 널리 사용됩니다. 또한 실제 프로젝트에서 실제로 적용 할 수있는 방법을 보여주기 위해 자체 연구의 맥락에 코스 자료를 제공하는 곳입니다. 예를 들어, 우리는 추가 분석을위한 주제 별 트위터 데이터 세트 (Llewellyn et al., 2015), 지리 파싱 역사 및 문학적 텍스트 (Clifford et al., 2016; Alex et al., 2019a) 및 방사선학 보고서에 대한 명명 된 엔티티 인식 (Alex et al., 2019b; Gorinski et al., 2019)에 대한 이전의 연구를 언급했습니다.

그림 1 : 학생들이 만든 텍스트 탐색의 시각화.

두 조종사에서, 우리는 월요일, 수요일 및 금요일에 3 번의 오후 세션에 걸쳐이 과정을 실행했으며, 잠재적 인 기술 문제를 해결하고 질문에 답변하기 위해 중간에 사무 시간이 있습니다. 주요 학습 결과는 과정이 끝날 무렵 참가자들이 자신의 연구에서 사용할 수있는 초기 TDM 기술을 습득하고보다 고급 NLP 과정이나 튜토리얼을 수강함으로써 구축 할 수 있다는 것입니다. 이 과정의 주요 목표는 자료를 명확한 Stepby 단계 방식으로 가르치는 것입니다. 모든 Python 코드와 예제는 각 작업마다 다르지만 완전한 초보자를 혼란스럽게 할 복잡한 프로그래밍 개념에 깊이 빠지지는 않습니다.

저자 :

(1) Amador Durán, 스페인 세비야, 세비야 대학교 I3US Institute, Amador Durán (Score Lab)[email protected]);

(2) Pablo Fernández, Score Lab, I3US Institute, Seville, Seville, Spain ([email protected]);

(3) 스페인 세비야, 세비야 대학교 (University of Seville of Seville)의 I3US Institute (Beatriz Bernárdez)[email protected]);

(4) 미국 캘리포니아 버클리, 버클리, 캘리포니아 대학교 컴퓨터 과학 부서, Nathaniel Weinman (미국 캘리포니아 주 버클리) ([email protected]);

(5) Aslı Akalın, 캘리포니아 대학교, 버클리, 버클리, 버클리, 미국 캘리포니아 대학 (Aslı Akalın)[email protected]);

(6) 미국 캘리포니아 버클리, 버클리, 캘리포니아 대학교 컴퓨터 과학 부서, Armando Fox (미국 캘리포니아 주 버클리) ([email protected]).

[4] 데이터/ 디지털화 된 수집/ A- 의료-영국-인디아/

출처 참조