Heim > Backend-Entwicklung > Python-Tutorial > Erstellen eines Video-Insights-Generators mit Gemini Flash

Erstellen eines Video-Insights-Generators mit Gemini Flash

DDD
Freigeben: 2024-11-26 20:24:13
Original
789 Leute haben es durchsucht

Videoverständnis oder Videoeinblicke sind aufgrund ihrer vielfältigen Vorteile in verschiedenen Branchen und Anwendungen von entscheidender Bedeutung. Sie verbessern die Inhaltsanalyse und -verwaltung, indem sie automatisch Metadaten generieren, Inhalte kategorisieren und Videos besser durchsuchbar machen. Darüber hinaus liefern Videoeinblicke wichtige Daten, die die Entscheidungsfindung vorantreiben, das Benutzererlebnis verbessern und die betriebliche Effizienz in verschiedenen Sektoren verbessern.

Das Modell Gemini 1.5 von Google bringt erhebliche Fortschritte in diesem Bereich. Neben den beeindruckenden Verbesserungen in der Sprachverarbeitung kann dieses Modell einen enormen Eingabekontext von bis zu 1 Million Token verarbeiten. Um seine Fähigkeiten zu erweitern, ist Gemini 1.5 als multimodales Modell trainiert, das Text, Bilder, Audio und Video nativ verarbeitet. Diese leistungsstarke Kombination aus verschiedenen Eingabetypen und umfangreicher Kontextgröße eröffnet neue Möglichkeiten für die effektive Verarbeitung langer Videos.

In diesem Artikel werden wir uns damit befassen, wie Gemini 1.5 genutzt werden kann, um wertvolle Videoeinblicke zu generieren und die Art und Weise zu verändern, wie wir Videoinhalte in verschiedenen Bereichen verstehen und nutzen.

Erste Schritte

Inhaltsverzeichnis

  • Was ist Gemini 1.5
  • Voraussetzungen
  • Abhängigkeiten installieren
  • Einrichten des Gemini-API-Schlüssels
  • Einrichten der Umgebungsvariablen
  • Importieren der Bibliotheken
  • Initialisierung des Projekts
  • Hochgeladene Dateien speichern
  • Erkenntnisse aus Videos generieren
  • Laden Sie ein Video in die Datei-API hoch
  • Datei abrufen
  • Antwortgenerierung
  • Datei löschen
  • Kombination der Etappen
  • Erstellen der Schnittstelle
  • Erstellen der Streamlit-App

Was ist Gemini 1.5?

Googles Gemini 1.5 stellt einen bedeutenden Fortschritt in der KI-Leistung und -Effizienz dar. Aufbauend auf umfangreicher Forschung und technischen Innovationen verfügt dieses Modell über eine neue Mixture-of-Experts (MoE)-Architektur, die sowohl die Ausbildung als auch die Serviceeffizienz verbessert. Gemini 1.5 Pro und 1.5 Flash sind in der öffentlichen Vorschau verfügbar und bieten über Google AI Studio und Vertex AI ein beeindruckendes 1-Millionen-Token-Kontextfenster.

Building a video insights generator using Gemini Flash

Google Gemini-Updates: Flash 1.5, Gemma 2 und Project Astra (blog.google)
Das 1,5-Flash-Modell, das neueste Mitglied der Gemini-Familie, ist das schnellste und am besten für hochvolumige und hochfrequente Aufgaben optimierte Modell. Es ist auf Kosteneffizienz ausgelegt und zeichnet sich durch Anwendungen wie Zusammenfassung, Chat, Bild- und Videountertitelung sowie das Extrahieren von Daten aus umfangreichen Dokumenten und Tabellen aus. Mit diesen Fortschritten setzt Gemini 1.5 einen neuen Standard für Leistung und Vielseitigkeit bei KI-Modellen.

Voraussetzungen

  • Python 3.9 (https://www.python.org/downloads)
  • google-generativeai
  • Streamlit

Abhängigkeiten installieren

  • Erstellen und aktivieren Sie eine virtuelle Umgebung, indem Sie den folgenden Befehl ausführen.
python -m venv venv
source venv/bin/activate #for ubuntu
venv/Scripts/activate #for windows
Nach dem Login kopieren
Nach dem Login kopieren
  • Installieren Sie die Bibliothek google-generativeai, streamlit, python-dotenv mit pip. Beachten Sie, dass generativeai die Python-Version 3.9 benötigt, um zu funktionieren.
pip install google-generativeai streamlit python-dotenv
Nach dem Login kopieren
Nach dem Login kopieren

Einrichten des Gemini-API-Schlüssels

Um auf die Gemini-API zuzugreifen und mit deren Funktionen zu arbeiten, können Sie einen kostenlosen Google API-Schlüssel erwerben, indem Sie sich bei Google AI Studio registrieren. Google AI Studio, angeboten von Google, bietet eine benutzerfreundliche, visuelle Schnittstelle für die Interaktion mit der Gemini API. In Google AI Studio können Sie über die intuitive Benutzeroberfläche nahtlos mit generativen Modellen interagieren und bei Bedarf ein API-Token für verbesserte Kontrolle und Anpassung generieren.

Folgen Sie den Schritten, um einen Gemini-API-Schlüssel zu generieren:

  • Um den Vorgang zu starten, können Sie entweder auf den Link (https://aistudio.google.com/app) klicken, um zu Google AI Studio weitergeleitet zu werden, oder eine Schnellsuche bei Google durchführen, um es zu finden.
  • Akzeptieren Sie die Nutzungsbedingungen und klicken Sie auf Weiter.
  • Klicken Sie in der Seitenleiste auf den Link „API-Schlüssel abrufen“ und dann auf die Schaltfläche „API-Schlüssel in neuem Projekt erstellen“, um den Schlüssel zu generieren.
  • Kopieren Sie den generierten API-Schlüssel.

Building a video insights generator using Gemini Flash

Einrichten der Umgebungsvariablen

Erstellen Sie zunächst einen neuen Ordner für Ihr Projekt. Wählen Sie einen Namen, der den Zweck Ihres Projekts widerspiegelt.
Erstellen Sie in Ihrem neuen Projektordner eine Datei mit dem Namen .env. In dieser Datei werden Ihre Umgebungsvariablen gespeichert, einschließlich Ihres Gemini-API-Schlüssels.
Öffnen Sie die .env-Datei und fügen Sie den folgenden Code hinzu, um Ihren Gemini-API-Schlüssel anzugeben:

GOOGLE_API_KEY=AIzaSy......
Nach dem Login kopieren
Nach dem Login kopieren

Importieren der Bibliotheken

Um mit Ihrem Projekt zu beginnen und sicherzustellen, dass Sie über alle erforderlichen Tools verfügen, müssen Sie wie folgt mehrere Schlüsselbibliotheken importieren.

import os
import time
import google.generativeai as genai
import streamlit as st
from dotenv import load_dotenv
Nach dem Login kopieren
Nach dem Login kopieren
  • google.generativeai als genai: Importiert die Google Generative AI-Bibliothek für die Interaktion mit der Gemini API.
  • streamlit as st: Importiert Streamlit zum Erstellen von Web-Apps.
  • from dotenv import load_dotenv: Lädt Umgebungsvariablen aus einer .env-Datei.

Initialisierung des Projekts

Um Ihr Projekt einzurichten, müssen Sie den API-Schlüssel konfigurieren und ein Verzeichnis für die temporäre Dateispeicherung für hochgeladene Dateien erstellen.

Definieren Sie den Medienordner und konfigurieren Sie den Gemini-API-Schlüssel, indem Sie die erforderlichen Einstellungen initialisieren. Fügen Sie Ihrem Skript den folgenden Code hinzu:

python -m venv venv
source venv/bin/activate #for ubuntu
venv/Scripts/activate #for windows
Nach dem Login kopieren
Nach dem Login kopieren

Hochgeladene Dateien speichern

Um hochgeladene Dateien im Medienordner zu speichern und ihre Pfade zurückzugeben, definieren Sie eine Methode namens save_uploaded_file und fügen Sie den folgenden Code hinzu.

pip install google-generativeai streamlit python-dotenv
Nach dem Login kopieren
Nach dem Login kopieren

Erkenntnisse aus Videos generieren

Das Generieren von Erkenntnissen aus Videos umfasst mehrere entscheidende Phasen, darunter das Hochladen, die Verarbeitung und die Generierung von Antworten.

1. Laden Sie ein Video in die Datei-API hoch

Die Gemini-API akzeptiert direkt Videodateiformate. Die Datei-API unterstützt Dateien mit einer Größe von bis zu 2 GB und ermöglicht die Speicherung von bis zu 20 GB pro Projekt. Hochgeladene Dateien bleiben 2 Tage lang verfügbar und können nicht von der API heruntergeladen werden.

GOOGLE_API_KEY=AIzaSy......
Nach dem Login kopieren
Nach dem Login kopieren

2. Datei abrufen

Nachdem Sie eine Datei hochgeladen haben, können Sie mithilfe der Methode „files.get“ überprüfen, ob die API sie erfolgreich empfangen hat. Mit dieser Methode können Sie die auf die Datei-API hochgeladenen Dateien anzeigen, die mit dem mit Ihrem API-Schlüssel verknüpften Cloud-Projekt verknüpft sind. Nur der Dateiname und der URI sind eindeutige Identifikatoren.

import os
import time
import google.generativeai as genai
import streamlit as st
from dotenv import load_dotenv
Nach dem Login kopieren
Nach dem Login kopieren

3. Antwortgenerierung

Nachdem das Video hochgeladen wurde, können Sie GenerateContent-Anfragen stellen, die auf den Datei-API-URI verweisen.

MEDIA_FOLDER = 'medias'

def __init__():
    # Create the media directory if it doesn't exist
    if not os.path.exists(MEDIA_FOLDER):
        os.makedirs(MEDIA_FOLDER)

    # Load environment variables from the .env file
    load_dotenv()

    # Retrieve the API key from the environment variables
    api_key = os.getenv("GEMINI_API_KEY")

    # Configure the Gemini API with your API key
    genai.configure(api_key=api_key)
Nach dem Login kopieren

4. Datei löschen

Dateien werden nach 2 Tagen automatisch gelöscht oder Sie können sie manuell mit files.delete() löschen.

def save_uploaded_file(uploaded_file):
    """Save the uploaded file to the media folder and return the file path."""
    file_path = os.path.join(MEDIA_FOLDER, uploaded_file.name)
    with open(file_path, 'wb') as f:
        f.write(uploaded_file.read())
    return file_path
Nach dem Login kopieren

5. Kombinieren der Etappen

Erstellen Sie eine Methode namens get_insights und fügen Sie den folgenden Code hinzu. Verwenden Sie anstelle von print() die Methode streamlit write(), um die Nachrichten auf der Website anzuzeigen.

video_file = genai.upload_file(path=video_path)
Nach dem Login kopieren

Erstellen der Schnittstelle

Um den Prozess des Hochladens von Videos und der Generierung von Erkenntnissen innerhalb einer Streamlit-App zu optimieren, können Sie eine Methode namens „App“ erstellen. Diese Methode stellt eine Schaltfläche zum Hochladen bereit, zeigt das hochgeladene Video an und generiert daraus Erkenntnisse.

import time

while video_file.state.name == "PROCESSING":
    print('Waiting for video to be processed.')
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

if video_file.state.name == "FAILED":
  raise ValueError(video_file.state.name)
Nach dem Login kopieren

Erstellen der Streamlit-App

Um eine vollständige und funktionale Streamlit-Anwendung zu erstellen, die es Benutzern ermöglicht, mithilfe des Gemini 1.5 Flash-Modells Videos hochzuladen und Erkenntnisse zu generieren, kombinieren Sie alle Komponenten in einer einzigen Datei mit dem Namen app.py.

Hier ist der endgültige Code:

# Create the prompt.
prompt = "Describe the video. Provides the insights from the video."

# Set the model to Gemini 1.5 Flash.
model = genai.GenerativeModel(model_name="models/gemini-1.5-flash")

# Make the LLM request.
print("Making LLM inference request...")
response = model.generate_content([prompt, video_file],
                                  request_options={"timeout": 600})
print(response.text)
Nach dem Login kopieren

Ausführen der Anwendung

Führen Sie den folgenden Code aus, um die Anwendung auszuführen.

genai.delete_file(video_file.name)
Nach dem Login kopieren

Sie können den in der Konsole bereitgestellten Link öffnen, um die Ausgabe anzuzeigen.

Building a video insights generator using Gemini Flash

Vielen Dank für das Lesen dieses Artikels!!

Wenn Ihnen dieser Artikel gefallen hat, klicken Sie bitte auf den Herz-Button ♥ und teilen Sie ihn, damit andere ihn finden können!

Den vollständigen Quellcode für dieses Tutorial finden Sie hier,

GitHub – codemaker2015/video-insights-generator

Das obige ist der detaillierte Inhalt vonErstellen eines Video-Insights-Generators mit Gemini Flash. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:dev.to
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage