Python

AI

Gemini CLIの実践的使い方!レシートをOCRして家計簿をつけるスクリプトをつくる

💡実践的なGemini CLIの使い方をご紹介します。ポイントは、「一気にAIにお願いする」のではなく、「部分的に完成させながら進める」アプローチです。その際、AIとプログラミング(スクリプト)の役割分担を明確にすることが重要です。AIの特...
AI

ローカルで無料高精度OCRするならGemini API × Pythonスクリプトがおすすめ!他の手段との比較

画像から文字を抽出するOCR(光学文字認識)は、最近ではさまざまな方法が選べるようになりました。Webブラウザ上でチャットAIに画像を送信して文字起こしする方法Windowsに標準搭載されたOCR機能(Snipping Tool)ローカルP...
Python

UnicodeとUTF-8の関係を中心に「入力」から「表示」までのしくみを解説

「UTF-8って何?」「Unicodeって聞くけど、何がすごいの?」といった疑問や文字化けに困ったことはありませんか?紹介するZenn本では、以下の疑問にやさしく答えていきます:文字コードとは?UnicodeとUTF-8の違いって?パソコン...
AI

AI(Claude他)生成SVGを自在に操る!座標変換と手動編集のすすめ

近年、AIを活用してプレゼンテーション資料を作成する機会が増えています。特に、画像や図解を生成する際に、SVG(Scalable Vector Graphics)形式での出力が一般的です。SVGはテキストベースで編集が容易なフォーマットであ...
AI

Claude for DesktopでMCPサーバー(puppeteerとfilesystem)を使ってみた!

Claude for DesktopにMCPサーバー(puppeteerとfilesystem)を使えるようにしてブラウザを操作してみました。どんな感じで動くか解説します。Claude for Desktopは、Anthropic社が提供す...
AI

Cursorで自作MCPサーバー(tool)を使ってみた!【Python】

とりあえず、ここのQuickStartをやってみました。QuickStartの内容にそってClaude DesktopではなくCursorを使います。その後、簡単な文字列をreturnするだけのMCPサーバー(tool)を作ってCursor...
AI

【初心者向け】Pythonで言語モデルAPIキー(無料Gemini 1.5 Pro)を利用する方法

言語モデルAPIキーをPythonで動かす方法です。Pythonのrequestsライブラリを使います。Gemini 1.5 Proは無料で使えます。私は以下↓で入手しました。Google AI StudioでGet API keyで「キー...
AI

RAGとは?無料のDify、Ollama、Gemini 1.5 Proだけ使って家電の説明書pdfを読み込んでチャットポッド(Chatflowで)を作ってみた!

無料のものだけ使ってます。シーリングライトの取扱説明書のpdfをナレッジに使い、それをもとに回答するチャットボットをつくってみます。RAGを理解するのに言語モデルに何を入れているのかを確認すると考えやすくなるので、そこを見ます。DifyのC...
AI

DifyとGemini 1.5 Proを使ってみた。どちらも無料!

この記事はDifyにGemini 1.5 ProのAPIキーを無料で取得して設定できるのか確認するのが目的です。私はGoogleアカウントは持っていますが今までGoogleの有料製品は使ったことがありません。ですのでクレカ登録してません。今...
AI

【Windows】Docker DifyとパソコンインストールOllamaでハマったことと解決策

パソコンはWindows。言語モデルのAPIキーは持ってません。DifyはDocker(DockerDesktop)、ollamaはパソコンにインストールという構成です。RAGを使ったチャットボットの基本的なものを作るところまでしました。D...