Serveur MCP Gemini OCR
Ce projet fournit un service OCR (Reconnaissance Optique de Caractères) simple mais puissant à travers un serveur FastMCP, en exploitant les capacités de l'API Google Gemini. Il vous permet d'extraire du texte à partir d'images, soit en fournissant un chemin d'accès au fichier, soit en fournissant une chaîne encodée en base64.
Objectif
Extraire le texte de l'image suivante :
et le convertir en texte clair, par exemple, fbVk
Fonctionnalités
- ROC basée sur un fichier : extrait le texte directement d'un fichier image sur votre système local.
- OCR base64 : extrait le texte d'une chaîne d'images codée base64.
- Facile à utiliser : Les fonctionnalités d'OCR sont présentées sous forme d'outils simples dans un serveur MCP.
- Powered by Gemini : Utilise les modèles avancés Gemini de Google pour une reconnaissance de texte de haute précision.
Conditions préalables
- Python 3.8 ou supérieur
- Une clé API Google Gemini. Vous pouvez l'obtenir auprès de Google AI Studio.
Configuration et installation
Clonez le dépôt :
git clone https://github.com/WindoC/gemini-ocr-mcp cd gemini-ocr-mcp
Créez et activez un environnement virtuel :
# Installer uv standalone si nécessaire ## Sur macOS et Linux. curl -LsSf https://astral.sh/uv/install.sh | sh ## Sur Windows. powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
Installez les dépendances requises :
uv sync
Exemple de configuration MCP
Si vous utilisez cette application en tant que serveur pour une application MCP parente, vous pouvez la configurer dans le fichier config.json
de votre MCP principal.
Exemple pour Windows :
{ "mcpServers" : { "gemini-ocr-mcp" : {"command" : "uv", "args" : [
"--directory",
"x:\\path\\to\\your\\project\\gemini-ocr-mcp",
"run",
"gemini-ocr-mcp.py"
],
"env": { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } } }
Linux/macOS Exemple :
{ "mcpServers" : { "gemini-ocr-mcp" : { "command" : "uv", "args" : [ "--directory", "/path/to/your/project/gemini-ocr-mcp", "run", "gemini-ocr-mcp.py" ], "env" : { "GEMINI_MODEL" : "gemini-2.5-flash-preview-05-20", "GEMINI_API_KEY" : "YOUR_GEMINI_API_KEY" } } }
Remarque : N'oubliez pas de remplacer les chemins d'accès par le chemin absolu de votre répertoire de projet.
Outils fournis
ocr_image_file
Effectue l'OCR sur un fichier image local.
- Paramètre :
fichier_image
(chaîne) : Le chemin absolu ou relatif vers le fichier image. - Résultats : (chaîne) Le texte extrait de l'image.
ocr_image_base64
Effectue l'OCR sur une image encodée en base64.
- Paramètre :
base64_image
(chaîne) : La chaîne de caractères de l'image codée en base64. - Résultats : (chaîne) le texte extrait de l'image.