機械学習は国家アーカイブには高すぎる
私は_Mis/Getty Imagesを見ました
ニュースレターに登録する
つながりを保つ
投稿者Chris Teale
オレゴン州立公文書館は当初、アーキビストが大量のデータを分類できるように機械学習を使用することを計画していましたが、ML テクノロジーのコストと成熟度に対する懸念がある中、代わりに高度なデータ分析を導入する予定です。
アーカイブス関係者は昨年末、重複や関連性のない項目を削除することでデータの処理を支援し、将来のアクセスを容易にするためにインデックスを作成するMLテクノロジーを求める提案募集を発表した。 このRFPは、ケイト・ブラウン前知事の辞任と、知事在任8年間で最大10テラバイトのデータが州アーカイブに送信されると予想されたことをきっかけに提案された。
しかし、オレゴン州立公文書館の州記録管理者クリストファー・ステンソン氏は、RFPへの回答により当局は再考を余儀なくされたとNextgovとGCNの新興技術・近代化サミットで述べた。 ML 契約の少なくとも 1 件の入札では、アーカイブの 2 年間予算全体の 3 倍以上の価格が設定されており、ステンソン氏はこれを「目を見張るものがある」と表現した。
「調達が失敗だったとは言えません。そこから多くのことを学んだという点で」とステンソン氏は語った。 技術がさらに成熟し、価格が下がる必要性を考慮して、州の指導者らはMLからの「方向転換」を決定した。
その代わりにステンソン氏は、オレゴン州は高度なデータ分析を利用してブラウン知事のアーカイブからの記録を処理すると述べた。 このテクノロジーは、社会保障番号や電話番号などの機密情報だけでなく、重複した情報も特定して削除するのに役立ちます。 また、アーカイブを精査するための高度な検索も提供します。
ステンソン氏は、その取り組みは「短期的にははるかに実行可能」であり、現在の予算の範囲内であると述べた。 オレゴン州の他の機関も同様の分析ツールを使用しているため、アーカイブが将来の完全な ML への「足がかり」として、現時点ではそれを使用している前例があります。
関連記事
機械学習が国家のアーカイブを掘り下げる
田舎の郡が土地記録をブロックチェーンに公開
パンデミックテストの電子記録管理
「これは依然として私たちにとって大きな前進であり、近いうちにこれらのコレクションへのより直接的なアクセスを提供できるようになることを期待しています」とステンソン氏は語った。
同アーカイブでは、新型コロナウイルス感染症のパンデミックに対する州政府の対応を主導したことも含め、ブラウン氏の在職期間中に蓄積されたテラバイト規模の文書、通信、その他のデータをどのように保管するかについても議論が行われている。 ステンソン氏は、ソリューションはクラウドとオンプレミスの両方のストレージを使用して冗長性を提供するハイブリッドアプローチになる可能性が高いと述べた。
選出された役人によって生成される膨大な量の電子データへの対処は、すべての州アーカイブが直面しなければならない問題です。 ステンソン氏は、MLは間もなくその情報を管理するための「重要なツール」になるだろうと述べた。
「これは現実だ。これはもう絵に描いた餅の夢ではない」とステンソン氏は語った。 「これが私たちがこれから生きていく世界です。私たちはまだそこまで到達していないかもしれませんが、かなり早くそこに到達しつつあります。」
調達関係者にとって、このエピソードは ML テクノロジーの成熟状況と政府がそれを使用するコストを示しています。 ステンソン氏は、オレゴン州は今、ML ソリューションを求めて「少しばかり飛びついたかもしれない」が、新興テクノロジーについては時代遅れではなく、前向きに考えたほうがよいと述べた。 「5年遅すぎるよりは、先を見据えたいと思っています」と彼は語った。
次の話:政府が次世代の官民パートナーシップを採用するとイノベーションが繁栄する
次の話: