Serveur MCP Gemini OCR

Ce projet fournit un service OCR (Reconnaissance Optique de Caractères) simple mais puissant à travers un serveur FastMCP, en exploitant les capacités de l'API Google Gemini. Il vous permet d'extraire du texte à partir d'images, soit en fournissant un chemin d'accès au fichier, soit en fournissant une chaîne encodée en base64.

Objectif

Extraire le texte de l'image suivante :

CAPTCHA

et le convertir en texte clair, par exemple, fbVk

Fonctionnalités

ROC basée sur un fichier : extrait le texte directement d'un fichier image sur votre système local.
OCR base64 : extrait le texte d'une chaîne d'images codée base64.
Facile à utiliser : Les fonctionnalités d'OCR sont présentées sous forme d'outils simples dans un serveur MCP.
Powered by Gemini : Utilise les modèles avancés Gemini de Google pour une reconnaissance de texte de haute précision.

Conditions préalables

Python 3.8 ou supérieur
Une clé API Google Gemini. Vous pouvez l'obtenir auprès de Google AI Studio.

Configuration et installation

Clonez le dépôt :

git clone https://github.com/WindoC/gemini-ocr-mcp cd gemini-ocr-mcp

Créez et activez un environnement virtuel :

# Installer uv standalone si nécessaire ## Sur macOS et Linux. curl -LsSf https://astral.sh/uv/install.sh | sh ## Sur Windows. powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

Installez les dépendances requises :
```
uv sync
```

Exemple de configuration MCP

Si vous utilisez cette application en tant que serveur pour une application MCP parente, vous pouvez la configurer dans le fichier config.json de votre MCP principal.

Exemple pour Windows :

{ "mcpServers" : { "gemini-ocr-mcp" : {"command" : "uv", "args" : [
        "--directory",
        "x:\\path\\to\\your\\project\\gemini-ocr-mcp",
        "run",
        "gemini-ocr-mcp.py"
      ],
      "env": { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } } }

Linux/macOS Exemple :

{ "mcpServers" : { "gemini-ocr-mcp" : { "command" : "uv", "args" : [ "--directory", "/path/to/your/project/gemini-ocr-mcp", "run", "gemini-ocr-mcp.py" ], "env" : { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } }

Remarque : N'oubliez pas de remplacer les chemins d'accès par le chemin absolu de votre répertoire de projet.

Outils fournis

`ocr_image_file`

Effectue l'OCR sur un fichier image local.

Paramètre :fichier_image (chaîne) : Le chemin absolu ou relatif vers le fichier image.
Résultats : (chaîne) Le texte extrait de l'image.

`ocr_image_base64`

Effectue l'OCR sur une image encodée en base64.

Paramètre :base64_image (chaîne) : La chaîne de caractères de l'image codée en base64.
Résultats : (chaîne) le texte extrait de l'image.

Serveur	Résumé	Actions
Facturation de la pagaie	Paddle Billing est le commerçant de référence qui donne la priorité aux développeurs. Nous nous occu...	Voir
Outil IOL MCP	Un outil de protocole de contexte de modèle (MCP) pour interagir avec l'API d'Invertir Online (IOL)...	Voir
Serveur MCP de Binance		Voir
Slide MCP Server	Une mise en œuvre du serveur MCP qui s'intègre à l'API Slide, offrant des capacités complètes de ges...	Voir
Google Ads API v20	Serveur MCP (Model Context Protocol) complet qui offre un accès complet aux fonctionnalités de l'API...	Voir
Démonstration de géolocalisation	Ce projet montre comment utiliser EdgeOne Pages Functions pour récupérer les informations de géoloca...	Voir

Serveur

Résumé

Actions

Facturation de la pagaie

Paddle Billing est le commerçant de référence qui donne la priorité aux développeurs. Nous nous occu...

Voir

Outil IOL MCP

Un outil de protocole de contexte de modèle (MCP) pour interagir avec l'API d'Invertir Online (IOL)...

Voir

Serveur MCP de Binance

Voir

Slide MCP Server