Servidor Gemini OCR MCP
Este projecte ofereix un servei OCR (Optical Character Recognition) simple però potent a través d'un servidor FastMCP, aprofitant les capacitats de l'API Google Gemini. Permet extreure text d'imatges ja sigui proporcionant una ruta de fitxer o una cadena codificada en base64.
Objectiu
Extrau el text de la següent imatge:

i converteix-lo a text pla, per exemple, fbVk
Característiques
- OCR basat en fitxer: Extreu text directament d'un fitxer d'imatge al teu sistema local.
- OCR base64: Extreu text d'una cadena d'imatge codificada en base64.
- Fàcil d'usar: Exposa la funcionalitat OCR com a eines simples en un servidor MCP.
- Impulsat per Gemini: Utilitza els models avançats Gemini de Google per a un reconeixement de text d'alta precisió.
Requisits previos
- Python 3.8 o superior
- Una clau API de Google Gemini. Podeu obtenir una a Google AI Studio.
Configuració i Instal·lació
- Clone the repository:
git clone https://github.com/WindoC/gemini-ocr-mcp
cd gemini-ocr-mcp - Create and activate a virtual environment:
# Install uv standalone if needed
## On macOS and Linux.
curl -LsSf https://astral.sh/uv/install.sh | sh
## On Windows.
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" - Install the required dependencies:
uv sync
Exemple de Configuració MCP
Si esteu executant això com a servidor per a una aplicació MCP principal, podeu configurar-lo al vostre config.json principal.
Windows Example:
{ "mcpServers": { "gemini-ocr-mcp": { "command": "uv", "args": [ "--directory", "x:\\path\\to\\your\\project\\gemini-ocr-mcp", "run", "gemini-ocr-m 



