분사는 예상치 못한 표시를 나타냅니다.-Golang-php.cn

분사는 예상치 못한 표시를 나타냅니다.

WBOY

풀어 주다： 2024-02-09 08:48:20

앞으로

1222명이 탐색했습니다.

분사는 예상치 못한 표시를 나타냅니다.

php小编小新在这里为大家介绍一种非常有趣的技术——분사는 예상치 못한 표시를 나타냅니다.。分词是自然语言处理中的一个重要任务，它将一段文本按照一定的规则进行切分，得到一系列的词语。而在分词过程中，我们有时会遇到一些特殊的情况，比如在某些词语中出现了意外的标记，这可能会对后续的处理造成困扰。因此，研究如何表示和处理这种意外的标记就变得非常重要。在本文中，我们将介绍一些常见的意外标记，并给出相应的解决方案，希望能对大家有所帮助。

问题内容

我正在玩一个分词来学习如何解析，但我无法确定为什么这是意外的。

// nolint: golint, dupl
package main

import (
    "fmt"
    "io"

    "github.com/alecthomas/participle/v2"
    "github.com/alecthomas/participle/v2/lexer"
)

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{
    {"comment", `^#[^\n]*`},
    {"ident", `^\w+`},
    {"int", `\d+`},
    {"string", `("(\\"|[^"])*"|\s+)`},
    {"eol", `[\n\r]+`},
    {"whitespace", `[ \t]+`},
})

type htaccess struct {
    directives []*directive `@@*`
}

type directive struct {
    pos lexer.position

    errordocument *errordocument `@@`
}

type errordocument struct {
    code int    `"errordocument" @int`
    path string `@string`
}

var htaccessparser = participle.mustbuild[htaccess](
    participle.lexer(htaccesslexer),
    participle.caseinsensitive("ident"),
    participle.unquote("string"),
    participle.elide("whitespace"),
)

func parse(r io.reader) (*htaccess, error) {
    program, err := htaccessparser.parse("", r)
    if err != nil {
        return nil, err
    }

    return program, nil
}

func main() {
    v, err := htaccessparser.parsestring("", `errordocument 403 test`)

    if err != nil {
        panic(err)
    }

    fmt.println(v)
}

로그인 후 복사

据我所知，这似乎是正确的，我期望 403 在那里，但我不确定为什么它不识别它。

编辑：我将词法分析器更改为：

var htaccessLexer = lexer.MustSimple([]lexer.SimpleRule{
    {"dir", `^\w+`},
    {"int", `\d+`},
    {"str", `("(\\"|[^"])*"|\S+)`},
    {"EOL", `[\n\r]+`},
    {"whitespace", `\s+`},
})

로그인 후 복사

错误消失了，但它仍然打印一个空数组，不知道为什么。我也不确定为什么对词法分析器使用不同的值可以修复它。

解决方法

我相信我发现了问题，这是顺序，ident 通过 \w 标签在我的词法分析器中查找数字，因此这导致我的整数被标记为 ident。

我发现我必须将 quotedstrings 和 unquotedstrings 分开，否则未加引号的字符串会获取整数。或者，我可以确保它只获取非数字值，但这会错过 stringwithnum2 之类的东西

这是我的解决方案

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{
    {"comment", `(?i)#[^\n]*`},
    {"quotedstring", `"(\\"|[^"])*"`},
    {"number", `[-+]?(\d*\.)?\d+`},
    {"unquotedstring", `[^ \t]+`},
    {"ident", `^[a-za-z_]`},
    {"eol", `[\n\r]+`},
    {"whitespace", `[ \t]+`},
})

로그인 후 복사

type ErrorDocument struct {
    Pos lexer.Position

    Code int    `"ErrorDocument" @Number`
    Path string `(@QuotedString | @UnQuotedString)`
}

로그인 후 복사

这解决了我的问题，因为它现在查找带引号的字符串，然后查找数字，然后查找不带引号的字符串。

위 내용은 분사는 예상치 못한 표시를 나타냅니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Php8, 나도 갈게

30분 안에 웹사이트 레이아웃 배우기

Shangguan Oracle 초보자부터 능숙한 비디오 튜토리얼까지

UNI-APP 코드의 첫 번째 줄

처음부터 앱 실행까지 Flutter

Lian 형제 새 Linux 비디오 튜토리얼

AXURE 9 비디오 튜토리얼(제품 관리자 대화형 제품 디자인 UI에 적합)

Zero 기본 숙련도 PS 비디오 튜토리얼

시작하는 데 도움이 되는 16일 UI 비디오 튜토리얼

PS 기술 및 슬라이싱 기술 비디오 튜토리얼

Alibaba Cloud 환경 구축 및 프로젝트 출시 비디오 튜토리얼

컴퓨터 네트워크 개요 - 프로그래머가 마스터해야 하는 기본 지식

프로그래머를 위한 필수 튜토리얼 - HTTP 프로토콜 설명

웹소켓 비디오 튜토리얼

분사는 예상치 못한 표시를 나타냅니다.

问题内容

解决方法