Heim > Java > javaLernprogramm > Wie tokenisiert man Zeichenfolgen mit Leerzeichen und schließt Teilzeichenfolgen in Anführungszeichen in Java aus?

Wie tokenisiert man Zeichenfolgen mit Leerzeichen und schließt Teilzeichenfolgen in Anführungszeichen in Java aus?

Mary-Kate Olsen
Freigeben: 2024-11-20 15:01:17
Original
563 Leute haben es durchsucht

How to Tokenize Strings with Spaces, Excluding Quoted Substrings in Java?

Tokenisieren von Zeichenfolgen mit Leerzeichen, Ausschließen von Teilzeichenfolgen in Anführungszeichen in Java

Das Trennen einer Zeichenfolge anhand von Leerzeichen kann unkompliziert sein, aber was wäre, wenn bestimmte Teile davon Die Zeichenfolge wird in Anführungszeichen gesetzt und sollte als einzelnes Token behandelt werden? In Java können Sie diese differenzierte Aufteilung mithilfe regulärer Ausdrücke erreichen.

Um dieses Szenario zu bewältigen, kann der folgende Ansatz verwendet werden:

String str = "Location \"Welcome  to india\" Bangalore Channai \"IT city\"  Mysore";

List<String> list = new ArrayList<>();
Matcher m = Pattern.compile("([^\"]\S*|\".+?\")\s*").matcher(str);
while (m.find())
    list.add(m.group(1));
Nach dem Login kopieren

Der hier verwendete reguläre Ausdruck teilt die Zeichenfolge effektiv in Token basierend auf Leerzeichen, identifiziert aber auch Teilzeichenfolgen in Anführungszeichen. Indem wir diese in Anführungszeichen gesetzten Teilzeichenfolgen als einzelne Token erfassen, können wir sicherstellen, dass Phrasen wie „Willkommen in Indien“ intakt bleiben.

Der reguläre Ausdruck kann wie folgt verstanden werden:

  • [^" ]: Entspricht jedem Zeichen, das kein doppeltes Anführungszeichen ist (").
  • S*: Entspricht null oder mehr Nicht-Leerzeichen Zeichen.
  • |: Das Pipe-Symbol zeigt eine ODER-Bedingung an.
  • ". ?": Entspricht einem doppelten Anführungszeichen, gefolgt von einem oder mehreren Zeichen (einschließlich Leerzeichen), gefolgt von einem doppelten Anführungszeichen .
  • s*: Entspricht null oder mehr Leerzeichen.

Dadurch können wir komplexe Zeichenfolgen mit Phrasen in Anführungszeichen effektiv verarbeiten. Die resultierende Liste enthält Token, die einzelne Wörter oder zitierte Phrasen darstellen, wie im bereitgestellten Beispiel erforderlich.

Das obige ist der detaillierte Inhalt vonWie tokenisiert man Zeichenfolgen mit Leerzeichen und schließt Teilzeichenfolgen in Anführungszeichen in Java aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage