カテゴリー
コンピューター

大量の写真を高速に整理! find, md5, awk を使った重複ファイルの見つけ方

この記事は、Googleの大規模言語モデル Gemini (モデル: gemini-2.5-flash-lite gemini-2.5-pro) と協力して作成しました。「大量の重複ファイルをどうやって効率的に見つけるか?」という実践的な課題について、対話を通じて解決策を導き出し、最終的にそのプロセス全体をブログ記事としてAIに執筆させています。この記事は、AIを単なる文章生成ツールとしてではなく、問題解決のパートナーとして活用した一例となります。


はじめに

「PCに散らばった大量の写真、整理していたら『これって同じ写真?』と不安になったことはありませんか?」

フォルダを分けてバックアップを繰り返しているうちに、同じファイルが複数の場所にコピーされてディスクスペースを圧迫していることはよくあります。一つひと つ手作業で確認するのは、ファイルが数千、数万ともなると現実的ではありません。

この記事では、開発者やコマンドラインに慣れている方向けに、find, md5, awkという3つの強力なツールを組み合わせて、大量のファイルの中から重複しているものを高速に見つけ出す方法を解説します。

カテゴリー
Apple

Mac ターミナルでファイルの md5 、sha256 チェックサムを得る方法

ポイント

  • md5 ファイルパス
  • shasum ファイルパス

カテゴリー
Microsoft

【Windows 7】ファイルの md5 ハッシュ値を得るコマンド

packer で Vagrant Box を作る際に、ダウンロードした CentOS イメージファイルの md5 ハッシュ値を知りたいですの♪

ダウンロードページへ行くのも面倒ですし、手元のファイルから md5 文字列を得ることにいたしました。

今回はその手順を残しておきますわ♪

なお本来、ハッシュ値はダウンロードしたファイルの値と、ウェブページで公開されている値を比較して、改ざんされていないかをチェックするチェックサムとして使用いたしますわね。

環境

  • Windows 7 Professional 64bit

ポイント

  • certutil -hashfile ファイル MD5
  • MD5 とすること。小文字の md5 は NG
  • 表示ハッシュ値のスペースは詰めること