プログラミング

ChatGPTでoffice製の設計書を読み込みたい




ChatGPTというか、Cursorのドキュメント機能で。

最近職場で生成AI使いたいよぉという話が出て。
複数あるサービスの中でCursorというのがいいんじゃないかなと。

でも生成AIとoffice製ファイルの相性が悪すぎるので、どうにかテキスト形式にする方法を模索してみました。

生成AIとofficeソフトの相性悪すぎ問題

Cursor、ドキュメントを読み込む機能があるんですよ。
URLを指定したり、あとテキスト形式のファイルを読み込んだり。
事前にドキュメントを読ませることで、精度が上がるんじゃないかと。

ただね、

設計書、全部WordとExcelでできてんだよ

つまりバイナリファイルよ。
テキスト系の生成AIはLLM(大規模言語モデル)というやつで、文字列を処理するものなのでバイナリは読めません。

案①すべての設計書を人がMarkdownで書き直す

つまり人力でどうにかする案。

できれば苦労はしないんですよ。
できるんならもうとっくになってるんですよ。

しかも何ファイルあるかわからないほど大量なので、あんまり現実的じゃないです。

案②officeファイルをテキスト形式に変換するツールを作る

officeを捨てることができない世界線の話。
設計書自体はofficeで作り続けて、ツールでAIに読み込むためのテキストを作成します。

一応Wordはtxt、Excelはcsvでエクスポートができるので不可能ではない。
人が読みにくくても、AIが読む分には問題ないだろうし。
VBAなりPythonなりで自動化もできるでしょう。

…。

いや~ないわ~
非効率すぎるわ~

だって設計書を修正するたびにテキストも再生成必要ですからね。
今後AIを使っていきたいならofficeは捨てるべき。

捨てたい。

案③txt、csvに出力した後にChatGPTにMarkdownに変換させる

一番現実的じゃないかと。

officeの機能でテキスト形式にした後、ChatGPTにこれは元officeファイルだよーと教えていい感じに成形させる案です。
これなら出力も人が読みやすい形式になってるので脱officeできそう。

パワポはどうにもならなそうなので一旦諦め。

WordとExcelをChatGPTでMarkdownに変換する

とりあえず試してみよ。
無料版なのでChatGPT3.5で。

総務省が同じ申請書をWord・Excelの2種類で提供していたのでこれを使ってみます。
様式第20(第41条関係)というやつ。

Word

Wordはこんな感じ。
2ページに分かれてますね。

txtに変換するといろいろなくなるぞと言われますがOK。

するとこんな感じ。
出力ファイルはShift JISなのでUTF8にしたほうがいいかも。

なんだかやたらと改行が。。。
人にとってはめちゃくちゃ読みにくいですが、AIに読ませたらどうなるか。

以下のプロンプトで変換してみます。

出力はこんな感じ。

まぁまぁちゃんと変換できてる気がします。
プレビューしてみると…

一部テーブルでなくなったところがありますが、まぁいいでしょう。
丸で囲むって使い方ならこれでも問題ないですし。
まぁそんな書き方をする設計書はあんまりないと思いますけど…。

Excel

Excelはこんな感じ。
Excel方眼紙じゃなくてよかった。。。

CSVに変換したらこう。
Wordと同じく出力ファイルはShift JISなのでUTF8にしておきます。

まぁ、人が見たらよくわかんない形式になってますね。
これをChatGPTに以下のプロンプトで変換してもらいます。

出力がこちら。

 

プレビューしてみるとこう。

あれ、これ結構いいのでは?
CSS当ててないので読みにくいところがあるし、結合してる個所はちょっと違う形になってますが。
人が全部手で書き直すより断然修正箇所が少なくて済みそうです。

WordとExcelの結果を比較してみる

出力されたMarkdownをWin Mergeで比較。
左がWord、右がExcelです。

こうしてみると、Excelはところどころ文言が消滅してますね。。。

該当事項を〇で囲むこと。

の部分はExcelのCSVだとこんな感じで改行されてるので、うまく読み込まれなかったっぽいです。

あん分→分けて

と変換された理由は…謎。

言葉はそのまま使用してください。

をプロンプトに追加したらあん分と出力されたけど、その他のフォーマットも一部変更されてたので難しいですね。。。
というか、同じプロンプトでも結果が同じにならないのが生成AIなので、フォーマットがばらばらになっちゃうのが問題?

課題は多々あれど

人が手で書き直すよりは相当速いので、選択肢としてはありじゃないかと。

Excelでシートがたくさんあると1ファイルずつCSV化しないといけないので面倒すぎるとかあるけど。
設計書を共有してる先がofficeしか受け取らないからなくせないってなる可能性もあるけど。

まぁ生成AIの利用もまだどうなるか手探り状態なので、アイデア出しだけしてきますかねー。

 

-プログラミング
-

© 2024 そんなこと猫でもできる Powered by AFFINGER5