機械学習が宇宙探査の主役となる
ペンシルバニア州立大学の天文学者と計算データ科学研究所の共同雇用者は、機械学習アルゴリズムを使用して、ジェームズ ウェッブ宇宙望遠鏡からのデータの宝庫を調べています。 彼らは、この情報がすでに宇宙に対する私たちの理解を変えつつあると言います。 クレジット: NASA および宇宙望遠鏡科学研究所。 無断転載を禁じます。
2023 年 3 月 16 日
マット・スウェイン
大学公園 — ジェームズ ウェッブ宇宙望遠鏡 (JWST) からストリーミングされる複雑で美しい宇宙の画像は、コンピューターやスマートフォンの画面に表示される単なる美しいピクセル以上のものです。 これらの画像はデータを表しています。大量のデータです。 実際、JWST は次のことを実現します。毎日約 235 ギガバイトの科学データ– 10 日間の高解像度映画の集中視聴セッションとほぼ同じ量のデータ。
JWST やその他の望遠鏡やセンサーは、今日の天文学者に増え続けるデータの流れを提供してきました。 これらの情報源により、天文学者は、これまでよりもさらに宇宙を深く、さらに過去に遡って、星がどのように死ぬかを研究するなど、新たな発見をする前例のない能力を得ることができます。 JWST からのデータを使用したペンシルバニア州の最近の研究では、科学者が銀河の起源を理解する方法を変える。
ただし、これらすべてのデータの管理には問題がないわけではありません。 天文学者は、この大量のデータを取得して広大な宇宙の正確なモデルを作成し、発見を明らかにして新しい疑問を引き起こし、宇宙の驚くべき写真を作成するために、スーパーコンピューターと機械学習と呼ばれる高度なアルゴリズムに依存する必要があります。
ジョエル・レジャそしてV. アシュリー・ヴィラール両名は天文学と天体物理学の助教授であり、ICDS の共同採用者であり、機械学習技術を使用して大量のデータ ストリームをより適切に処理するリーダーとしてペンシルバニア州立大学を確立した科学者の一人です。
Leja 氏によると、機械学習アプローチにより、研究者は以前の方法よりも効率的かつ正確に数値を計算できるようになります。 銀河画像の解釈などの場合には、これらの機械学習技術は従来の分析よりも100万倍近く高速になる可能性があると同氏は付け加えた。
機械学習が登場する前は、データを処理するには、分析方程式を使用し、大量のデータをテーブルにコンパイルする必要がありました。 研究者 (多くの場合大学院生) は、データの収集と分析にかなりの時間を費やします。 機械学習がなければ、計算は反復的で時間がかかることが多く、プロセスを高速化する効率的な方法がありませんでした。
レジャさんは、それは非常に複雑な旅行を計画するのとよく似ていると語った。
「ロサンゼルスからサンフランシスコまでの最善の方法を見つけようとしているとしましょう」とレジャ氏は言いました。 「古い技術を使用すると、道路のリストを作成し、すべてのルートを試し、小さな道路、主要高速道路、回り道など、すべての小さな道路の全体の距離を計算し、すべてのルートを地図に作成する必要がありました。これはあまり良い方法ではありません。通常は正しい答えが得られますが、機械学習はデータを使用してより賢明な方法でこれを行おうとします。たとえば、代わりに何百万もの以前の移動ルートを使用し、どれが一番速いかすぐに聞いてください。」
Villar氏によると、機械学習は人間の労働力を削減するだけでなく、このアプローチにより計算労働力も削減でき、結果としてエネルギーも節約できるという。
「人間の労働問題は重要だが、コンピューターの労働問題も考慮する必要がある」とビラール氏は語った。 「非常に多くの時間の計算時間を費やしているということは、大量のエネルギーを消費していることも意味します。」
ジェームズ・ウェッブ宇宙望遠鏡は、美しい写真を撮るだけではなく、宇宙をより深く理解するのに役立つデータを収集しています。 機械学習は、天文学者がそのデータを調査するのに役立ちます。 クレジット: NASA および宇宙望遠鏡科学研究所 (STScI)。 無断転載を禁じます。
フィールドチェンジャー
天文学者らによると、この計算量の節約は理解しがたいことも多いが、天文学の発見に新たなパラダイムを生み出しつつあるという。
「機械学習は私の分野を完全に変えています」と Leja 氏は言います。 「膨大な量のデータを処理し、複雑なモデルを非常に迅速に実行します。これは、現在私たちのシステムに溢れている天文データに非常に適しています。」
Leja 氏は、古いプロセスは計算的にも容赦がなかったと述べ、ハーバード大学のポスドクとしての経験を説明しました。
「特別なアクセスが必要で、これらのシミュレーションを申請して実行するのに多くの時間を費やす必要がありました」と Leja 氏は言います。 「しかも、計算は 1 回しか実行できませんでした。これは科学にとって非常に恐ろしいことです。理想的には、物事をテストしたり、新しい質問を試したりして、正しく計算できるかどうかを確認するために、何度も計算を実行する必要があります。」
現在、天文学者は、ニューラル ネットワークの動作をコンピューター上でシミュレートするニューラル ネット エミュレーターなどの機械学習技術を使用することができます。ニューラル ネットワークは、コンピューターにデータ処理を教えるための人間の脳にヒントを得た方法であり、ラップトップ上で数週間で次のことを達成できます。ほんの数年前には、膨大な時間と膨大な計算リソースが必要でした。
コンピューターがより高速かつ強力になり、機械学習のアプローチが向上するにつれて、将来の天文学者はラップトップで 1 週間を過ごすのがやや遅いと考えるようになるかもしれないと研究者らは予想しています。
「私の分野では約100万倍のスピードアップが見られました」とレヤ氏は語った。 「それについて考えるたびに、私は衝撃を受けます。そして、それによって私たちは科学に新たな疑問を抱くことができます。」
ICDS が「計算力」にどのように役立つか
ICDS は、ますます強力になったセンサーによって収集された膨大な量のデータの処理に計算力を投入することで、天文学者をサポートしています。 同研究所は、こうしたさらに大規模なデータソースがオンラインになるにつれ、科学者を支援する準備を進めている。
Leja 氏によると、次世代の調査である Legacy Survey in Space or Time (LSST) は、10 年間にわたって毎晩約 15 テラバイトのデータを生成する予定です。 たとえば、テラバイトのストレージを持つディスクには、約 200,000 曲を保存できます。 LSST は一晩に 300 万曲をダウンロードするわけではないかもしれませんが、最終的に提供されるデータは天体物理学者の耳に音楽となるでしょう。
「完全なデータセットを使用して、これらの銀河の画像を解釈するために標準的な手法を使用しようとすると、(ICDS) Roar クラスターでは 380 年程度、または 1,000 億 CPU 時間かかるでしょう」と Leja 氏は述べています。 「しかし、私たちが開発した機械学習技術(これは ICDS によって直接サポートされています)を使用すると、Roar のすべてを入手できれば、約 3 時間半でそれを実行できます。」
ヴィラール氏は、この力を利用して、彼女の研究分野の1つである星の爆発に光を当てたいと考えていると語った。
「オンラインで公開されるこの LSST データには、50 億個ほどの銀河が含まれるでしょう」と Villar 氏は述べています。 「私がやりたいと思っていることの1つは、そのデータを使って星が爆発するときの研究をすることです。ですから、非常に役立つことの1つは、その銀河の歴史を理解するために非常に迅速にアイデアを得ることができれば、 」
Leja 氏と Villar 氏は、この種の研究を実施するには、Roar スーパーコンピューターへのアクセスやスタッフの専門知識など、ICDS のリソースが重要であることに同意しています。
「これらの質問に答えるには、ICDS のリソースが完全に不可欠です」と Leja 氏は言います。 「ペンシルベニア州立大学がこの研究に最適な場所であると思う理由の 1 つは、素晴らしい計算リソースと Roar のチームにあります。私たちはモデルのトレーニングをすべて行うためにクラスターを使用しています。ここでモデルのバトルテストを行います。 」
ビジャールとレハは最近、天文学における機械学習の利用を探求するための ICDS シード助成金。
マット・スウェイン
ニュースをメールで受け取る
毎日約 235 ギガバイトの科学データが、科学者による銀河の起源の理解方法を変えています。 Joel Leja V. Ashley Villar フィールドチェンジャー ICDS が「計算力」にどのように役立つか 天文学における機械学習の利用を探求するための ICDS シード助成金