Serveur MCP Gemini OCR

Ce projet fournit un service OCR (Reconnaissance Optique de Caractères) simple mais puissant à travers un serveur FastMCP, en exploitant les capacités de l'API Google Gemini. Il vous permet d'extraire du texte à partir d'images, soit en fournissant un chemin d'accès au fichier, soit en fournissant une chaîne encodée en base64.

Objectif

Extraire le texte de l'image suivante :

CAPTCHA

et le convertir en texte clair, par exemple, fbVk

Fonctionnalités

  • ROC basée sur un fichier : extrait le texte directement d'un fichier image sur votre système local.
  • OCR base64 : extrait le texte d'une chaîne d'images codée base64.
  • Facile à utiliser : Les fonctionnalités d'OCR sont présentées sous forme d'outils simples dans un serveur MCP.
  • Powered by Gemini : Utilise les modèles avancés Gemini de Google pour une reconnaissance de texte de haute précision.

Conditions préalables

  • Python 3.8 ou supérieur
  • Une clé API Google Gemini. Vous pouvez l'obtenir auprès de Google AI Studio.

Configuration et installation

  1. Clonez le dépôt :

    git clone https://github.com/WindoC/gemini-ocr-mcp cd gemini-ocr-mcp
  2. Créez et activez un environnement virtuel :

    # Installer uv standalone si nécessaire ## Sur macOS et Linux. curl -LsSf https://astral.sh/uv/install.sh | sh ## Sur Windows. powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
  3. Installez les dépendances requises :

    uv sync

Exemple de configuration MCP

Si vous utilisez cette application en tant que serveur pour une application MCP parente, vous pouvez la configurer dans le fichier config.json de votre MCP principal.

Exemple pour Windows :

{ "mcpServers" : { "gemini-ocr-mcp" : {"command" : "uv", "args" : [
        "--directory",
        "x:\\path\\to\\your\\project\\gemini-ocr-mcp",
        "run",
        "gemini-ocr-mcp.py"
      ],
      "env": { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } } }

Linux/macOS Exemple :

{ "mcpServers" : { "gemini-ocr-mcp" : { "command" : "uv", "args" : [ "--directory", "/path/to/your/project/gemini-ocr-mcp", "run", "gemini-ocr-mcp.py" ], "env" : { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } }

Remarque : N'oubliez pas de remplacer les chemins d'accès par le chemin absolu de votre répertoire de projet.

Outils fournis

ocr_image_file

Effectue l'OCR sur un fichier image local.

  • Paramètre :fichier_image (chaîne) : Le chemin absolu ou relatif vers le fichier image.
  • Résultats : (chaîne) Le texte extrait de l'image.

ocr_image_base64

Effectue l'OCR sur une image encodée en base64.

  • Paramètre :base64_image (chaîne) : La chaîne de caractères de l'image codée en base64.
  • Résultats : (chaîne) le texte extrait de l'image.

Liés dans Service en nuage - MCP Servers sécurisés

ServeurRésuméActions
Google Cloud Healthcare API (FHIR)Voir
MétéoVoir
MCP ConcordiaUn serveur MCP (Model Context Protocol) avancé qui fournit des analyses complètes pour les portefeui...Voir
Bureau de ClaudeCréer kube-config pour accéder au cluster kubernetes.Voir
Alpaga MCP Gold StandardUne implémentation complète de l'architecture serveur MCP (Model Context Protocol) définitive pour l...Voir
Workday par CDataServeur Model Context Protocol (MCP) de CData pour WorkdayVoir