Videoverständnis oder Videoeinblicke sind aufgrund ihrer vielfältigen Vorteile in verschiedenen Branchen und Anwendungen von entscheidender Bedeutung. Sie verbessern die Inhaltsanalyse und -verwaltung, indem sie automatisch Metadaten generieren, Inhalte kategorisieren und Videos besser durchsuchbar machen. Darüber hinaus liefern Videoeinblicke wichtige Daten, die die Entscheidungsfindung vorantreiben, das Benutzererlebnis verbessern und die betriebliche Effizienz in verschiedenen Sektoren verbessern.
Das Modell Gemini 1.5 von Google bringt erhebliche Fortschritte in diesem Bereich. Neben den beeindruckenden Verbesserungen in der Sprachverarbeitung kann dieses Modell einen enormen Eingabekontext von bis zu 1 Million Token verarbeiten. Um seine Fähigkeiten zu erweitern, ist Gemini 1.5 als multimodales Modell trainiert, das Text, Bilder, Audio und Video nativ verarbeitet. Diese leistungsstarke Kombination aus verschiedenen Eingabetypen und umfangreicher Kontextgröße eröffnet neue Möglichkeiten für die effektive Verarbeitung langer Videos.
In diesem Artikel werden wir uns damit befassen, wie Gemini 1.5 genutzt werden kann, um wertvolle Videoeinblicke zu generieren und die Art und Weise zu verändern, wie wir Videoinhalte in verschiedenen Bereichen verstehen und nutzen.
Googles Gemini 1.5 stellt einen bedeutenden Fortschritt in der KI-Leistung und -Effizienz dar. Aufbauend auf umfangreicher Forschung und technischen Innovationen verfügt dieses Modell über eine neue Mixture-of-Experts (MoE)-Architektur, die sowohl die Ausbildung als auch die Serviceeffizienz verbessert. Gemini 1.5 Pro und 1.5 Flash sind in der öffentlichen Vorschau verfügbar und bieten über Google AI Studio und Vertex AI ein beeindruckendes 1-Millionen-Token-Kontextfenster.
Google Gemini-Updates: Flash 1.5, Gemma 2 und Project Astra (blog.google)
Das 1,5-Flash-Modell, das neueste Mitglied der Gemini-Familie, ist das schnellste und am besten für hochvolumige und hochfrequente Aufgaben optimierte Modell. Es ist auf Kosteneffizienz ausgelegt und zeichnet sich durch Anwendungen wie Zusammenfassung, Chat, Bild- und Videountertitelung sowie das Extrahieren von Daten aus umfangreichen Dokumenten und Tabellen aus. Mit diesen Fortschritten setzt Gemini 1.5 einen neuen Standard für Leistung und Vielseitigkeit bei KI-Modellen.
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
pip install google-generativeai streamlit python-dotenv
Um auf die Gemini-API zuzugreifen und mit deren Funktionen zu arbeiten, können Sie einen kostenlosen Google API-Schlüssel erwerben, indem Sie sich bei Google AI Studio registrieren. Google AI Studio, angeboten von Google, bietet eine benutzerfreundliche, visuelle Schnittstelle für die Interaktion mit der Gemini API. In Google AI Studio können Sie über die intuitive Benutzeroberfläche nahtlos mit generativen Modellen interagieren und bei Bedarf ein API-Token für verbesserte Kontrolle und Anpassung generieren.
Folgen Sie den Schritten, um einen Gemini-API-Schlüssel zu generieren:
Erstellen Sie zunächst einen neuen Ordner für Ihr Projekt. Wählen Sie einen Namen, der den Zweck Ihres Projekts widerspiegelt.
Erstellen Sie in Ihrem neuen Projektordner eine Datei mit dem Namen .env. In dieser Datei werden Ihre Umgebungsvariablen gespeichert, einschließlich Ihres Gemini-API-Schlüssels.
Öffnen Sie die .env-Datei und fügen Sie den folgenden Code hinzu, um Ihren Gemini-API-Schlüssel anzugeben:
GOOGLE_API_KEY=AIzaSy......
Um mit Ihrem Projekt zu beginnen und sicherzustellen, dass Sie über alle erforderlichen Tools verfügen, müssen Sie wie folgt mehrere Schlüsselbibliotheken importieren.
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
Um Ihr Projekt einzurichten, müssen Sie den API-Schlüssel konfigurieren und ein Verzeichnis für die temporäre Dateispeicherung für hochgeladene Dateien erstellen.
Definieren Sie den Medienordner und konfigurieren Sie den Gemini-API-Schlüssel, indem Sie die erforderlichen Einstellungen initialisieren. Fügen Sie Ihrem Skript den folgenden Code hinzu:
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
Um hochgeladene Dateien im Medienordner zu speichern und ihre Pfade zurückzugeben, definieren Sie eine Methode namens save_uploaded_file und fügen Sie den folgenden Code hinzu.
pip install google-generativeai streamlit python-dotenv
Das Generieren von Erkenntnissen aus Videos umfasst mehrere entscheidende Phasen, darunter das Hochladen, die Verarbeitung und die Generierung von Antworten.
Die Gemini-API akzeptiert direkt Videodateiformate. Die Datei-API unterstützt Dateien mit einer Größe von bis zu 2 GB und ermöglicht die Speicherung von bis zu 20 GB pro Projekt. Hochgeladene Dateien bleiben 2 Tage lang verfügbar und können nicht von der API heruntergeladen werden.
GOOGLE_API_KEY=AIzaSy......
Nachdem Sie eine Datei hochgeladen haben, können Sie mithilfe der Methode „files.get“ überprüfen, ob die API sie erfolgreich empfangen hat. Mit dieser Methode können Sie die auf die Datei-API hochgeladenen Dateien anzeigen, die mit dem mit Ihrem API-Schlüssel verknüpften Cloud-Projekt verknüpft sind. Nur der Dateiname und der URI sind eindeutige Identifikatoren.
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
Nachdem das Video hochgeladen wurde, können Sie GenerateContent-Anfragen stellen, die auf den Datei-API-URI verweisen.
MEDIA_FOLDER = 'medias' def __init__(): # Create the media directory if it doesn't exist if not os.path.exists(MEDIA_FOLDER): os.makedirs(MEDIA_FOLDER) # Load environment variables from the .env file load_dotenv() # Retrieve the API key from the environment variables api_key = os.getenv("GEMINI_API_KEY") # Configure the Gemini API with your API key genai.configure(api_key=api_key)
Dateien werden nach 2 Tagen automatisch gelöscht oder Sie können sie manuell mit files.delete() löschen.
def save_uploaded_file(uploaded_file): """Save the uploaded file to the media folder and return the file path.""" file_path = os.path.join(MEDIA_FOLDER, uploaded_file.name) with open(file_path, 'wb') as f: f.write(uploaded_file.read()) return file_path
Erstellen Sie eine Methode namens get_insights und fügen Sie den folgenden Code hinzu. Verwenden Sie anstelle von print() die Methode streamlit write(), um die Nachrichten auf der Website anzuzeigen.
video_file = genai.upload_file(path=video_path)
Um den Prozess des Hochladens von Videos und der Generierung von Erkenntnissen innerhalb einer Streamlit-App zu optimieren, können Sie eine Methode namens „App“ erstellen. Diese Methode stellt eine Schaltfläche zum Hochladen bereit, zeigt das hochgeladene Video an und generiert daraus Erkenntnisse.
import time while video_file.state.name == "PROCESSING": print('Waiting for video to be processed.') time.sleep(10) video_file = genai.get_file(video_file.name) if video_file.state.name == "FAILED": raise ValueError(video_file.state.name)
Um eine vollständige und funktionale Streamlit-Anwendung zu erstellen, die es Benutzern ermöglicht, mithilfe des Gemini 1.5 Flash-Modells Videos hochzuladen und Erkenntnisse zu generieren, kombinieren Sie alle Komponenten in einer einzigen Datei mit dem Namen app.py.
Hier ist der endgültige Code:
# Create the prompt. prompt = "Describe the video. Provides the insights from the video." # Set the model to Gemini 1.5 Flash. model = genai.GenerativeModel(model_name="models/gemini-1.5-flash") # Make the LLM request. print("Making LLM inference request...") response = model.generate_content([prompt, video_file], request_options={"timeout": 600}) print(response.text)
Führen Sie den folgenden Code aus, um die Anwendung auszuführen.
genai.delete_file(video_file.name)
Sie können den in der Konsole bereitgestellten Link öffnen, um die Ausgabe anzuzeigen.
Vielen Dank für das Lesen dieses Artikels!!
Wenn Ihnen dieser Artikel gefallen hat, klicken Sie bitte auf den Herz-Button ♥ und teilen Sie ihn, damit andere ihn finden können!
Den vollständigen Quellcode für dieses Tutorial finden Sie hier,
GitHub – codemaker2015/video-insights-generator
Das obige ist der detaillierte Inhalt vonErstellen eines Video-Insights-Generators mit Gemini Flash. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!