텍스트 분석을 위해 MySQL 데이터베이스를 사용하는 방법은 무엇입니까?-MySQL 튜토리얼-php.cn

텍스트 분석을 위해 MySQL 데이터베이스를 사용하는 방법은 무엇입니까?

빅데이터 시대가 도래하면서 텍스트 분석은 매우 중요한 기술이 되었습니다. 널리 사용되는 관계형 데이터베이스인 MySQL은 텍스트 분석에도 사용할 수 있습니다. 이 기사에서는 텍스트 분석을 위해 MySQL 데이터베이스를 사용하는 방법을 소개하고 해당 코드 예제를 제공합니다.

데이터베이스 및 테이블 만들기

먼저 텍스트 데이터를 저장할 MySQL 데이터베이스와 테이블을 만들어야 합니다. 다음 SQL 문을 사용하여 "analytic"이라는 데이터베이스와 "text_data"라는 테이블을 생성할 수 있습니다.

CREATE DATABASE analysis; USE analysis; CREATE TABLE text_data ( id INT PRIMARY KEY AUTO_INCREMENT, content TEXT );

로그인 후 복사

텍스트 데이터 가져오기

다음 단계는 분석할 텍스트 데이터를 MySQL 데이터베이스로 가져오는 것입니다. 이는LOAD DATA INFILE문이나INSERT INTO문을 사용하여 수행할 수 있습니다.LOAD DATA INFILE语句或INSERT INTO语句来实现。

如果文本数据保存在一个CSV文件中，可以使用如下的SQL语句导入数据：

LOAD DATA INFILE 'path/to/text_data.csv' INTO TABLE text_data FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY ' ' IGNORE 1 ROWS;

로그인 후 복사

如果文本数据保存在一个其他类型的文件中，可以使用相应的方法将其读取到内存中，然后使用INSERT INTO

텍스트 데이터가 CSV 파일에 저장된 경우 다음 SQL 문을 사용하여 데이터를 가져올 수 있습니다.

SELECT COUNT(*) FROM text_data;

로그인 후 복사

텍스트 데이터가 다른 형식의 파일에 저장된 경우 해당 방법을 사용하여 읽을 수 있습니다. 메모리에 넣은 다음INSERT INTO문을 사용하여 테이블에 데이터를 삽입합니다.

텍스트 분석

데이터를 MySQL 데이터베이스로 가져온 후에는 텍스트 분석을 위해 SQL 문을 사용할 수 있습니다. 다음은 일반적으로 사용되는 일부 텍스트 분석 작업 및 해당 SQL 문의 예입니다.

SELECT SUM(LENGTH(content) - LENGTH(REPLACE(content, ' ', '')) + 1) FROM text_data;

로그인 후 복사

SELECT * FROM text_data WHERE content LIKE '%keyword%';

로그인 후 복사

SELECT word, COUNT(*) AS count FROM ( SELECT DISTINCT SUBSTRING_INDEX(SUBSTRING_INDEX(content, ' ', n), ' ', -1) AS word FROM text_data JOIN ( SELECT 1 AS n UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 ) AS numbers ON CHAR_LENGTH(content) - CHAR_LENGTH(REPLACE(content, ' ', '')) >= n - 1 ) AS words GROUP BY word ORDER BY count DESC LIMIT 10;

로그인 후 복사

SELECT CONCAT(word1, ' ', word2) AS phrase, COUNT(*) AS count FROM ( SELECT DISTINCT SUBSTRING_INDEX(SUBSTRING_INDEX(content, ' ', n1), ' ', -1) AS word1, SUBSTRING_INDEX(SUBSTRING_INDEX(content, ' ', n2), ' ', -1) AS word2 FROM text_data JOIN ( SELECT a.n + b.n * 10 AS n1, a.n + b.n * 10 + 1 AS n2 FROM ( SELECT 1 AS n UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9 ) AS a CROSS JOIN ( SELECT 0 AS n UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 ) AS b ) AS numbers ON CHAR_LENGTH(content) - CHAR_LENGTH(REPLACE(content, ' ', '')) >= n2 - 1 ) AS phrases GROUP BY phrase ORDER BY count DESC LIMIT 10;

로그인 후 복사

import matplotlib.pyplot as plt import mysql.connector cnx = mysql.connector.connect(user='your_username', password='your_password', host='localhost', database='analysis') cursor = cnx.cursor() query = ("SELECT word, COUNT(*) AS count FROM (" "SELECT DISTINCT SUBSTRING_INDEX(SUBSTRING_INDEX(content, ' ', n), ' ', -1) AS word " "FROM text_data " "JOIN (" "SELECT 1 AS n UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4" ") AS numbers " "ON CHAR_LENGTH(content) - CHAR_LENGTH(REPLACE(content, ' ', '')) >= n - 1" ") AS words " "GROUP BY word " "ORDER BY count DESC " "LIMIT 10") cursor.execute(query) words = [] counts = [] for (word, count) in cursor: words.append(word) counts.append(count) plt.bar(words, counts) plt.xlabel('Word') plt.ylabel('Count') plt.title('Frequency of Top 10 Words') plt.xticks(rotation=45) plt.show() cursor.close() cnx.close()

로그인 후 복사

결과 표시 및 시각화

위 내용은 텍스트 분석을 위해 MySQL 데이터베이스를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!