중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트-일체 포함-php.cn

중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트

WBOY

풀어 주다： 2024-01-23 19:18:04

앞으로

612명이 탐색했습니다.

중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트

명칭 개체 인식(NER)은 자연어 처리에서 사람 이름, 장소, 조직 등의 특정 의미를 가진 개체를 식별하는 것을 목표로 합니다. 중국어에는 특별한 특성이 있고 이를 처리하려면 더 많은 언어 처리 기술과 규칙을 사용해야 하기 때문에 중국어 NER는 더 많은 어려움에 직면해 있습니다.

중국의 개체명 인식 방법에는 주로 규칙 기반, 통계 기반 및 하이브리드 방법이 포함됩니다. 규칙 기반 방법은 규칙 또는 규칙 템플릿을 수동으로 구성하여 엔터티를 식별합니다. 통계 기반 방법은 기계 학습 알고리즘을 사용하여 대규모 말뭉치에서 엔터티 인식 모델을 학습합니다. 하이브리드 방법은 두 가지 방법을 결합하여 규칙과 통계 학습을 모두 활용합니다.

중국어로 명명된 개체 인식을 구체적으로 구현하려면 일반적으로 다음 단계를 사용할 수 있습니다.

1 단어 분할: 후속 처리를 위해 중국어 텍스트를 하나씩 단어로 분할합니다.

2. 품사 태그 지정: 후속 처리를 위해 품사 태그로 분할된 각 단어에 태그를 지정합니다.

3. 개체 인식: 미리 설정된 규칙이나 훈련된 모델을 기반으로 텍스트에서 개체를 인식합니다.

엔터티 인식 과정에서 다음 사항에 주의해야 합니다.

1. 엔터티 카테고리 정의: 어떤 엔터티를 인식해야 하는지 결정하고 이를 다양한 카테고리로 분류해야 합니다. 사람 이름, 장소 이름, 조직 이름 등

2. 엔터티 경계 결정: 엔터티의 후속 라벨링을 위해 엔터티의 시작 위치와 끝 위치를 결정하는 것이 필요합니다.

3. 엔터티 중복 문제에 대한 해결 방법: 동일한 엔터티가 텍스트에 여러 번 나타날 수 있으므로 반복 계산을 피하기 위해 동일한 엔터티로 통일적으로 표시해야 합니다.

중국어로 명명된 개체 인식이 널리 사용됩니다. 예를 들어 정보 추출, 정보 검색, 텍스트 분류, 기계 번역 등의 자연어 처리 작업에서는 개체명 인식이 먼저 수행되어야 합니다. 동시에 소셜 미디어, 뉴스 미디어, 광고 및 기타 분야에서도 널리 사용됩니다. 예를 들어, 소셜 미디어에서 사용자의 개인 정보를 식별하면 뉴스 보도에서 정확한 광고 및 마케팅을 지원할 수 있으며, 이벤트에 관련된 사람, 장소, 조직 및 기타 단체의 이름을 식별하면 사용자가 배경과 관련성을 더 빨리 이해할 수 있습니다. 사건정보.

중국어로 명명된 엔터티 인식 데이터 세트

중국으로 명명된 엔터티 인식 데이터 세트는 명명된 엔터티 인식 모델을 훈련하고 평가하기 위한 기반입니다. 현재 널리 사용되는 여러 개의 중국 명명 엔터티 인식 데이터 세트가 있습니다. 다음은 일반적으로 사용되는 일부 중국어 개체명 인식 데이터 세트에 대한 소개입니다.

1) MSRA-NER 데이터 세트: MSRA-NER는 Microsoft Research Asia에서 만든 중국어 개체명 인식 데이터 세트로, 80,000개 이상의 뉴스가 포함되어 있습니다. 항목 텍스트 중 60,000개 이상이 훈련에 사용되고 20,000개 이상이 테스트에 사용됩니다. 이 데이터 세트의 엔터티 카테고리에는 사람, 장소, 조직 및 기타 엔터티의 이름이 포함됩니다.

2) PKU 및 MSRA의 인민일보 데이터세트: 이 데이터세트는 Peking University와 Microsoft Research Asia가 공동으로 제작했으며 인민일보의 뉴스 보고서, 사설 및 댓글과 같은 다양한 유형의 기사를 포함합니다. 이 데이터 세트는 크기가 크고 500,000개가 넘는 항목 주석을 포함합니다.

3) WeiboNER 데이터 세트: 이 데이터 세트는 Tsinghua University에서 제작되었으며 인명, 지명, 조직 이름, 시간, 날짜, 전문 용어 등을 포함하여 Sina Weibo의 많은 중국어 텍스트가 포함되어 있습니다. 엔터티 유형. 데이터 세트에는 인터넷 속어 및 새로운 어휘와 같은 까다로운 항목도 포함되어 있습니다.

4) OntoNotes 데이터세트: 이 데이터세트는 국립표준기술원(National Institute of Standards and Technology)에서 생성되었으며 여러 언어(중국어 포함)로 된 텍스트 데이터와 엔터티 주석을 포함합니다. 데이터 세트는 크기가 크고 100,000개가 넘는 엔터티 주석을 포함합니다.

5) CCKS 2017 과제 2 데이터 세트: 이 데이터 세트는 중국 정보화 사회에서 제작되었으며 중국 정보 사회의 CCKS(중국 지식 그래프 연구 분야)의 과제 중 하나입니다. 2017. 여기에는 사람 이름, 지명, 조직 이름 등과 같은 다양한 개체 유형이 포함된 뉴스 및 백과사전, Weibo 및 기타 텍스트 유형이 포함됩니다. 데이터 세트는 크기가 크고 약 100,000개의 엔터티 주석을 포함합니다.

요컨대, 중국어 개체명 인식은 자연어 처리에서 중요한 작업으로, 응용 범위가 넓고 실용적인 의미가 중요합니다.

위 내용은 중국 법인 인식 방법 및 일반적으로 사용되는 데이터 세트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!