機械学習を使用して学生の社会的定着を予測する
Scientific Reports volume 13、記事番号: 5705 (2023) この記事を引用
1912 アクセス
25 オルトメトリック
メトリクスの詳細
学生の減少は、学術機関、資金提供団体、学生にとって大きな課題となっています。 ビッグデータと予測分析の台頭により、高等教育研究における一連の研究は、すぐに利用できるマクロレベル(社会人口統計や初期のパフォーマンス指標など)とミクロレベルのデータから学生の中退を予測する実現可能性を実証しています(例: 学習管理システムへのログイン)。 しかし、既存の研究では、定着率を高めることが知られている学生の成功の重要な中レベルの要素、つまり学生の大学での経験と集団内での社会的組み込みがほとんど見落とされている。 学生と大学間のコミュニケーションを促進するモバイルアプリケーションと連携して、私たちは、(1) 組織のマクロレベルのデータと、(2) 行動に関するミクロレベルおよびメゾレベルのエンゲージメントデータ (例: 大学のサービスとのやり取りの量と質) の両方を収集しました。イベントや他の学生との交流など)を利用して、最初の学期後の退学を予測します。 米国の 4 つの大学とコミュニティ カレッジの 50,095 人の学生の記録を分析し、マクロレベルとメソレベルのデータを組み合わせることで、高レベルの予測パフォーマンスで中退を予測できることを実証しました (線形モデルと非線形モデルの平均 AUC = 78%、最大 AUC) = 88%)。 学生の大学での経験を表す行動エンゲージメント変数(ネットワークの中心性、アプリのエンゲージメント、イベントの評価など)は、制度上の変数(GPA や民族性など)を超えて予測力をさらに高めることが判明しました。 最後に、ある大学でトレーニングされたモデルが、かなり高いレベルの予測パフォーマンスで別の大学での定着率を予測できることを示すことで、結果の一般化可能性を強調します。
米国では、フルタイムの学生のうちプログラムを卒業するのはわずか約 60% であり 1,2、学業を中止した学生の大半は 1 年目で中退します 3 これらの高い減少率は、学生、大学、資金提供団体のいずれにとっても大きな課題となっています 4 、5。
学位を取得せずに大学を中退すると、学生の経済的および精神的健康に悪影響を及ぼします。 米国の学部生の 65% 以上が大学の学費を支払うために学生ローンを受け取っており、在学中に多額の借金を負うことになっています6。 米国教育省によると、ローンを組んだものの卒業しない学生は、卒業した学生に比べてローンの返済を滞納する可能性が 3 倍高くなります7。 学位を取得せずに大学を中退した学生は、学士号を取得した大学卒業生に比べて収入が 66% 低く、失業する可能性がはるかに高いことを考えると、これは驚くべきことではありません2。 経済的損失に加えて、失敗したという感情は、多くの場合、学生の幸福や精神的健康に悪影響を及ぼします8。
同時に、学生の減少は大学や連邦資金提供団体に悪影響を及ぼします。 大学にとっては、学生の減少により、授業料の損失により、平均年間約 165 億ドルの収入が減少します9,10。 同様に、学生の減少は州や連邦政府が提供する貴重なリソースを無駄にします。 たとえば、米国教育省の統合高等中等教育データ システム (IPEDS) によると、2003 年から 2008 年にかけて、州政府と連邦政府が合わせて 90 億ドルを超える助成金や補助金を、在籍していた教育機関に戻らなかった学生に提供したことが示されています。 2年目11。
減少のコストが高いことを考えると、リスクにさらされている学生を予測し、追加のサポートを提供する能力は非常に重要です12,13。 ほとんどの中退者は 1 年目に発生するため 14、そのような予測は、リスクにさらされている学生をできるだけ早く特定できれば最も価値があります 13,15,16。 困難を抱えている可能性のある生徒を早期に特定できれば、生徒が徐々に遅れをとり、最終的には学習が中断されるのを防ぐことを目的とした介入が効果を発揮する可能性が高くなります17,18。
これまでの研究では、これまでの学業成績、人口動態および社会経済的要因、出身教育機関における学生の社会的定着度など、学生定着率のさまざまな予測因子が特定されています19、20、21、22、23。
以前の学業成績 (高校の GPA、SAT および ACT スコア、大学の GPA など) は、学生定着率の最も一貫した予測因子の 1 つであると特定されています。学業でより成功した学生は、中退する可能性が低くなります 17,21,24,25 、26、27、28、29。 同様に、研究では、学生の進学の可能性を予測する際に、年齢、性別、民族12、19、25、27、30、社会経済的地位31などの人口統計および社会経済的変数の役割が強調されています。 例えば、女性は男性よりも勉強を続ける可能性が高く12、30、32、33、白人とアジア人の学生は他の民族グループの学生よりも勉強を続ける可能性が高い19、27、30。 さらに、学生の社会経済的地位と当面の経済状況が定着率に影響を与えることが示されています。 学生は、第一世代の学生 34、35、36 である場合、または高度な経済的困窮を経験している場合(例、学生ローンや大学費用を賄うためにほぼフルタイムで働いているため)、学業を中止する可能性が高くなります 37、38。 対照的に、卒業後に返済する必要のない経済的支援を受けている学生は、学位を取得する可能性が高くなります39,40。
学生定着率について概説されている予測因子のほとんどは比較的安定した個人内特性であり、多くの場合変更が困難またはコストがかかる一方で、研究では学生定着率のより柔軟な柱である大学での学生の経験も指摘しています。 特に、彼らがどの程度うまく制度に統合され、社会化されているかである16、22、41、42。 Bean (2005) が指摘しているように、「大学での学生の社会生活や大学内外の他の学生との交流が、留任の決定において重要であることを否定する人はほとんどいないでしょう」(p. 227)41。 学生がどの程度社会に統合され、教育機関に組み込まれているかは、他の学生との友情の発展43、ソーシャルネットワークにおける学生の立場16,29、社会的つながりの経験44、帰属意識42,45,46。 総合すると、これらの研究は、キャンパス活動への参加、組織への参加、課外活動の追求などを通じて、教職員だけでなく同僚との交流が、学生が大学生活によりよく溶け込むのに役立つことを示唆しています44,47。 対照的に、通学に起因する社会的統合の欠如(つまり、他の学生と一緒にキャンパスに住まないこと)は、学生が学位を取得する可能性に悪影響を与えることが示されています48、49、50、51。 つまり、学生が大学コミュニティにしっかりと組み込まれ、統合されていると感じれば、特に初年度はその学生が中退する可能性が低くなります42,52。
学生の減少に関する研究の大部分は、学生維持の要因を理解して説明することに焦点を当ててきました。 しかし、社会科学における計算手法と予測モデリングの台頭と並行して、教育研究者や実践者は、制度上の意思決定と教育効果をサポートする際のデータ駆動型アプローチの実現可能性と価値を探求し始めています(教育の優れた概要を得るために)。成長分野56,57を参照)。 この幅広い傾向に沿って、機械学習を利用して学生の中退を予測できる可能性を示す研究が増えています。 従来の推論アプローチとは対照的に、機械学習アプローチは主に予測パフォーマンス (つまり、まだ発生していない動作を正確に予測する能力) に関係しています 54。 学生維持の文脈では、これは次のことを意味します。人口動態や社会経済的特徴、過去と現在の学業成績、および学業成績を分析することによって、学生が学業を完了するか(将来)中止するかをどの程度正確に予測できるか彼らは現在、大学の制度や文化に組み込まれているのでしょうか?
米国教育アカデミーの声明 (2017 年) を反映し、「教育の文脈では、ビッグ データは通常、管理データと学習プロセス データの形をとり、それぞれが教育研究に独自の約束を提供します」(p.4)58。既存の研究の大部分は、学生の学歴と現在の成績だけでなく、人口統計学的および社会経済的特徴から学生の定着率を予測することに焦点を当ててきました13,59,60,61,62,63,64,65,66。 最近の研究で、Aulck らは、米国の公立大学に在籍する 66,000 人を超える 1 年生の管理データ (人種、性別、高校の GPA、入学試験のスコア、大学初期の成績/成績データなど) に基づいてモデルをトレーニングしました。彼らが 2 年目に再入学し、最終的には卒業するかどうかを予測します59。 具体的には、彼らは一連の線形および非線形機械学習モデル (例: 正則化ロジスティック回帰、k 近傍法、ランダム フォレスト、サポート ベクター マシン、勾配ブースト ツリー) を使用して、標準を使用してサンプル外の保持を予測しました。相互検証手順。 彼らのモデルは、88% の精度で中退者を予測し、81% の精度で卒業を予測することができました (50% は確率)。
既存の一連の研究は、リスクにさらされている学生を特定するための予測モデルの可能性について確固たる証拠を提供していますが、同様の一連のマクロレベルのデータ (例: 教育機関のデータ、学業成績) またはミクロレベルのデータ (例:クリックストリームデータ)。 この研究には、学生の日々の経験や、他の学生と大学自体(中間レベル)の両方との関わりに関するデータがほぼ完全に含まれていません。 同じ時間と場所で学生が行ったスマート カード取引 16 や、オープンなオンライン コースでのエンゲージメント指標 67 からソーシャル ネットワークを推測することで、この体験の一部を捉えようとする研究は少数ですが、既存の研究ではどれも学生の日々の経験について、より総合的かつ包括的な視点を提供しました。 このギャップの潜在的な説明の 1 つは、学生のクラスメートとの社会的交流や、大学のサービスやイベントへの日々の関与に関する情報を追跡するのが難しいことです。 大学は多くの場合、学生情報システム (SIS) を通じて人口動態や社会経済的変数にアクセスし、学業成績を簡単に追跡できますが、ほとんどの大学は学生のシステムへの深い関与を把握する簡単な方法を持っていません。
この研究では、学生、教職員間のコミュニケーションを促進するためのスマートフォン アプリケーションの形式で仮想ワンストップ インタラクション プラットフォームを提供する教育ソフトウェア会社である READY Education と提携しています。 学生は関連情報やお知らせを受け取り、大学での活動を管理し、さまざまな方法で他の学生と交流することができます。 たとえば、このアプリは、プライベート メッセージング、グループ、パブリック ウォール、友人関係など、Facebook のようなソーシャル メディア エクスペリエンスを提供します。 さらに、QR コード機能を使用してイベント (オリエンテーション、キャンパス イベント、学生サービスなど) にチェックインするよう求め、その後の経験を評価するよう求める学生の大学との関わりを捕捉します (機能の詳細については「メソッド」を参照してください)。このデータから抽出しました)。 その結果、READY Education アプリを使用すると、(i) 教育機関のデータ (つまり、人口統計的、社会経済的特徴や学力)、(ii) 生徒の特異性の両方を含む、生徒に関する包括的な情報セットを観察できるようになります。他の学生との日々の交流や大学のサービス/イベントから得られる大学での経験。 2 つのデータ ソースを組み合わせることで、生徒のプロフィールをより総合的に把握し、変数セット間の潜在的な相互作用を考慮することが可能になります。 たとえば、友人の社会的サポートネットワークにしっかりと組み込まれることは、同レベルの学業サポートを受けられない、または親から暗黙の学問的規範や規則について学ばない可能性のある第一世代の学生の間で定着するためにより重要である可能性があります。
この独自のデータセットに基づいて、私たちは機械学習モデルを使用して、組織と行動の両方の関与データから学生の定着率 (つまり中退) を予測します。 リスクのある学生をできるだけ早く特定したいという考えから、私たちは学生の最初の学期に収集した情報のみを使用して、学生がプログラム中のいずれかの時点で中退したかどうかを予測します。 私たちの分析アプローチを徹底的に検証および精査し、潜在的な介入に関する洞察を生成し、さまざまな大学間での予測モデルの一般化可能性を調査するために、私たちは次の 3 つの研究課題を調査します。
学習の最初の学期からの情報 (つまり、教育機関のデータ、行動的関与データ、および両方の組み合わせ) を使用して、学生が学習を中止する可能性をどの程度正確に予測できますか?
生徒の定着率を最も予測する機能はどれですか?
予測モデルは大学間でどの程度一般化されていますか (つまり、ある大学のデータでトレーニングされたモデルを使用した場合、またはその逆の場合に、ある大学の学生の定着率をどの程度正確に予測できますか)。
私たちは、合計 50,095 人の学生を含む 4 つの教育機関からの匿名化されたデータを分析します (最小 = 476、最大 = 45,062)。 すべての学生は、READY Education および研究パートナーによる匿名化データの使用にインフォームドコンセントを提供しました。 すべての実験プロトコルはコロンビア大学倫理委員会によって承認され、実行されたすべての方法は倫理委員会のガイドラインと規制に従っていました。 データは、(a) 組織データと (b) 行動エンゲージメント データの 2 つのソースから得られます。 大学によって収集された組織データには、社会人口統計 (例: 性別、民族性)、一般的な学習情報 (例: 入学期間、学習プログラム)、財務情報 (例: 入学資格)、学生の学力スコア (例: GPA、ACT)および保持ステータス。 後者は、学生が継続したか中退したかを示し、結果変数として機能します。 大学ごとに学生に関する異なる情報が収集されるため、組織データの範囲は大学によって異なります。 表 1 は、4 つの大学それぞれの最も重要な社会人口学的特徴の概要を説明したものです。 さらに、学生ごとの平均ログ数、セッションとログの合計数、アプリを使用しているコホート内の学生の割合 (つまり、カバレッジ) など、アプリの使用状況の概要を説明します。 アプリを使用している学生の範囲は 70 ~ 98% と幅広く、各大学の学生集団の大部分を代表するサンプルが得られます。
特に、大学 1 ~ 3 は伝統的な大学のキャンパスですが、大学 4 は 16 の異なるコミュニティ カレッジを組み合わせたものです。 キャンパス間でかなりの異質性があることを考慮すると、大学 4 の予測精度は、大学 1 ~ 3 で観察されたものよりも低いとアプリオリに予想されます (そして、すでに調査結果の一般化可能性を部分的に物語っています)。 第 4 大学を単一の組織として含めるという決定は、16 の大学を分離すると、すべてが同様の特徴を共有するコミュニティ カレッジが過剰に表示され、それによって観察された大学間の精度が人為的に膨らむという事実に基づいていました。 これらの制限(そして大学自体が多くの内部報告のために大学のキャンパスを崩壊させたという事実)を考慮して、このアプローチには独自の制限があることを認識し、それを単一のユニットとして分析することにしました。
行動エンゲージメント データはアプリを通じて生成されました (各大学の特定のデータ収集ウィンドウについては表 1 を参照)。 行動エンゲージメント データは、タイムスタンプ付きのイベント ログの形式で入手できました (つまり、生データの各行は、タブのクリック、コメントの投稿、メッセージの送信などの登録されたイベントを表しました)。 各ログは、匿名化された一意の識別子を介して特定の生徒に割り当てることができます。 4 つの大学すべてのエンゲージメント データには、全大学で 7,477,630 セッション (平均 = 1,869,408、SD = 3,329,852) と 17,032,633 ログ (平均 = 4,258,158、SD = 6,963,613) が含まれていました。 説明を含むすべての行動エンゲージメント指標の完全な概要については、補足資料の表 S1 を参照してください。
最初のステップとして、機関データとアプリデータの両方をクリーンアップしました。 教育機関のデータについては、アプリを使用していない学生を除外したため、一意の識別子を割り当てることができませんでした。 さらに、学生の最初の学期のみを観察することを保証するために、入学期間のない学生を除外しました。 最後に、異なるプログラムへの二重登録によって生じた重複エントリを削除しました。 アプリの使用状況データについては、データセット内の変数を視覚的に検査し、技術的な問題に起因する可能性のある外れ値がないかどうかを検査しました。 アプリ内のクリックを反映した「clicked_[…]」および「viewed_[…]」という名前のデータを前処理しました (補足資料の表 S1 を参照)。 少数の観察では、非常に短期間に同じタブで非現実的に高いクリック数が確認されました。これは、長い読み込み時間やその他の技術的な問題により、生徒がタブを繰り返しクリックしたことを反映していると考えられます。 これらの動作のオーバーサンプリングを避けるために、同じ人によって 1 分未満の間隔で行われた同じタイプのクリックをすべて削除しました。
以前の研究からの証拠を参照点として使用して、(i) 制度的特徴と (ii) エンゲージメントの特徴という 2 つの広いカテゴリにわたって各大学の最大 462 の特徴を抽出しました (すべての特徴の包括的な概要については、補足資料の表 S2 を参照してください)および各大学の利用可能状況)。 制度上の特徴には、学生の人口統計、社会経済、学術情報が含まれます。 エンゲージメントの特徴は、研究の最初の学期中の学生の行動を表します。 それらはさらに、アプリ エンゲージメントとコミュニティ エンゲージメントに分類できます。 アプリ エンゲージメント機能は、学期の開始前に生徒がアプリを使用したかどうか、通知やコミュニティ タブをクリックした頻度、学期中にアプリの使用が増加したかどうかなど、アプリの使用に関連する生徒の行動を表します。学期。 コミュニティ参加機能は、送信されたメッセージの数、投稿やコメント、訪問したイベント、友人関係やダイレクト メッセージから推測されるネットワーク内での生徒の位置など、社会的行動や他者との交流を反映します。 重要なのは、データセット内の特徴の多くは相互に相関しているということです。 たとえば、大学の宿泊施設に住むことは、より高いレベルの社会経済的地位を示す可能性がありますが、学生がキャンパスのイベントに参加し、キャンパスに住んでいる他の学生とつながる可能性も高くなります。 回帰分析などの標準的な推論統計手法では、予測変数間の相互相関が課題ですが、この論文で適用する方法では、相関する多数の予測変数を説明できます。
施設の特徴は、施設によって記録されたデータから直接導出されました。 上で述べたように、すべての機能がすべての大学で利用できるわけではないため、大学ごとに機能セットが若干異なります。 エンゲージメント機能はアプリの使用状況データから抽出されました。 私たちは中退の早期予測に焦点を当てたので、データを各学生の最初の学期に記録されたイベントログに限定しました。 特に、このデータは学生の参加をタイムスタンプ付きの一連のイベントとして捉えており、学生の日常体験についてのきめ細かい洞察を提供します。 簡素化と解釈のしやすさの理由から (研究の質問 2 を参照)、データを各生徒の 1 つのエントリにまとめます。 具体的には、算術平均、標準偏差、尖度、歪度、合計値などの各生徒の分布尺度を計算することで、最初の学期中の生徒の全体的な経験を記述します。 たとえば、特定の学生が最初の学期中に毎日送受信したメッセージの数や、学生が参加したキャンパス イベントの合計数を計算します。 ただし、エントロピー(例:ある人が少数の人々と頻繁に接触する程度、または多数の人々と同程度の接触をする程度)や感情の発達など、より複雑な特徴を計算することによって、時間の経過に伴う生徒の行動の変化も考慮します。回帰分析の傾きによって測定される経時的な特定の動作、および動作の規則性を表す特徴 (メッセージ送信間の時間の偏差など)。 全体として、この機能セットは、最初の学期中の学生のキャンパス リソースや他の学生に対する全体的な関与と、時間の経過とともに変化する関与を記述することを目的としていました。 最後に、平日と週末の生徒の活動の違いと類似点を考慮して、平日と週末に分けていくつかの特徴を抽出しました。 たとえば、平日に社会的交流が少ない場合は、週末に社会的交流が少ない場合とは異なるリテンション予測が行われる可能性があります。
さらに、保持ステータスが欠落している参加者や、値の 95% 以上がゼロまたは欠落している参加者を破棄することで、データをクリーンアップしました。 さらに、参加者間の差異がほとんどまたはまったくない特徴は削除されるため、予測タスクでは本質的に無意味になります。 具体的には、観測値の 90% 以上で同じ値を示した数値的特徴と、すべての観測値で同じ値を示したカテゴリ的特徴を除外しました。
これらの一般的な前処理手順に加えて、モデルのパフォーマンスの過大評価を避けるために、モデルをトレーニングする前のリサンプリングに追加の前処理ステップを統合しました68。 テスト内のレベルがトレーニング データよりも少ない場合に発生するカテゴリ特徴に関する問題を防ぐために、まずトレーニング データ内で発生しなかったカテゴリを削除しました。 次に、単一の値のみを含む (したがって変動がない) 一定のカテゴリ特徴量を削除しました。 3 番目に、次の手順を使用して欠損値を代入しました。 カテゴリ特徴量はモードで代入されました。 欠損データを処理するために一般的に使用されるアプローチに従って、数値特徴の代入は学習者間で異なりました。 弾性ネットの場合、これらの特徴を中央値で代入しました。 ランダム フォレストの場合、モデルがこの情報を活用できるように欠損値に明確な意味を与えるために、最大値の 2 倍を使用しました。 最後に、「合成マイノリティ オーバーサンプリング技術」(SMOTE) を使用して、トレーニング データ内のマイノリティ クラスの人為的なサンプルを作成しました69。 唯一の例外は大学 4 で、サンプル サイズが大きく、SMOTE を実装するための計算能力が見積もられていたため、異なる手順に従いました。 少数のケースをオーバーサンプリングする代わりに、肯定的なクラスと否定的なクラスのバランスがとれるように多数のケースをダウンサンプリングしました。 これは、ほとんどの学生が中退せずに勉強を続けることによって引き起こされるクラスの不均衡に対処するために行われました12。
私たちは、(1) 制度上の特徴、(2) エンゲージメントの特徴、および (3) すべての特徴の組み合わせセットの 3 つの特徴セットを使用して、バイナリ予測タスクでリテンション ステータス (1 = 中退、0 = 継続) を予測しました。 予測の堅牢性を確保し、現在の予測コンテキストに最適なモデルを特定するために 54、線形分類器 (エラスティック ネット、glmnet 4.1 ~ 4 で実装) 70,71 と非線形分類器 (ランダム フォレスト、実装) を比較しました。ランダムフォレスト 4.7–1)72,73。 どちらのモデルも、私たちの予測コンテキストに特に適しており、計算社会科学では一般的な選択肢です。 つまり、単純な線形回帰モデルまたはロジスティック回帰モデルは、過学習のリスクが高いため、多くの相互相関予測子 (この場合、合計 462 個の予測子であり、その多くは高度に相関しています) を含むデータセットを扱うのには適していません。 エラスティック ネットとランダム フォレスト アルゴリズムは両方とも、過剰適合のリスクを軽減しながら、大規模な機能セットを効果的に利用できます。 各学校の 6 つのモデル (2 つのアルゴリズムと 3 つの特徴セット) のパフォーマンスを、予測パフォーマンスを推定するサンプル外ベンチマーク実験を使用して評価し、一般的な非有益なベースライン モデルと比較します。 ベースラインは、いかなる特徴も含まないヌル モデルを表しますが、その代わりに常に多数派クラスを予測します。これは、サンプルでは「継続」を意味します74。以下では、特定のアルゴリズム (つまり、エラスティック ネットとランダム フォレスト) について詳しく説明します。 )、相互検証手順、およびモデルの評価に使用したパフォーマンス指標。
Elastic Net は、リッジ回帰 75 の利点と LASSO76 の利点を組み合わせた正則化回帰アプローチであり、大規模な特徴セットを処理する必要性によって動機付けられています。 エラスティック ネットは、予測値をほとんど追加しない (たとえば、相互相関があり、分散がほとんどない) 特徴のベータ係数を縮小します。 さらに、エラスティック ネットは、それぞれのベータ係数を 070 に減らすことで、モデルから変数を効果的に削除できます。 古典的な回帰モデルとは異なり、エラスティック ネットは最小二乗和の最適化を目的としていませんが、モデルに情報を追加しない特徴の推定ベータ値を減らすようモデルを促す 2 つのペナルティ項 (L1、L2) が含まれています。 L1 (係数の絶対値の合計) と L2 (係数の二乗値の合計) ペナルティを組み合わせることで、エラスティック ネットは、LASSO 回帰 (多重共線性を処理できない) などの代替線形モデルの制限に対処します。およびリッジ回帰(十分に疎な解を生成しない可能性があります)70。
形式的には、Hastie & Qian (2016) に従って、二項分類問題に対する弾性ネットのモデル方程式は次のように書くことができます77。 応答変数が G = {0,1} の値をとり、yi が I(gi = 1) と表されると仮定すると、モデル式は次のように書かれます。
対数オッズ変換を適用した後、モデル式は次のように書くことができます。
ロジスティック回帰の目的関数は、ペナルティ付きの負の二項対数尤度です。
ここで、 λ は正則化の全体的な強度を制御する正則化パラメータ、α は L1 正則化と L2 正則化の間のバランスを制御する混合パラメータであり、α 値が 0 に近づくとよりスパースなモデルが得られます (ラッソ回帰 α = 1、リッジ回帰 α = 0)。 β は回帰モデルの係数を表し、||β||1 は係数の L1 ノルム (係数の絶対値の合計)、||β||2 は係数の L2 ノルム (合計係数の二乗値)。
アプリベースのエンゲージメント機能の多くは高度に相関しているため (たとえば、クリック数はアプリに登録されているアクティビティの数に関連しています)、正則化回帰アプローチは私たちのモデルに特に関連しています。 さらに、正規化されたベータ係数は特徴の重要性として解釈できるため、より複雑な代替アルゴリズムよりもエラスティック ネット アルゴリズムを好みました。これにより、どの予測子が大学中退について最も有益であるかについての洞察が可能になります 78,79。
ランダム フォレスト モデルは、結果 (つまり、分類問題でほとんどのツリーによって選択される結果) の「集合的」予測を導き出すために、多くのバギングされ非相関化された決定木を成長させる、広く使用されているアンサンブル学習方法です。 個々の決定ツリーは、基準の異なるクラス (この場合はドロップアウトと残留) を分離することを目的として、特徴空間 (クラスを区別するルール) を再帰的に分割します。 個々のデシジョン ツリーがどのように動作し、ランダム フォレストに変換されるかについての詳細な説明については、Pargent、Schoedel、および Stachl80 を参照してください。
エラスティック ネットとは異なり、ランダム フォレスト モデルは、フィーチャと基準間の非線形関連を考慮し、フィーチャ間の多次元相互作用を自動的に含めることができます。 ランダム フォレスト内の各デシジョン ツリーは、ブートストラップされたケースと特徴のランダムなサブセットを考慮するため、ツリー間の予測の分散と全体的な予測の堅牢性が向上します。 各ツリーの各ノードでの分割には、特徴のランダムなサブセット (モデル内で最適化する mtry ハイパーパラメーター) が、合計セットからランダムに抽出されて使用されます。 分割ごとに、分割変数と分割点のすべての組み合わせが比較され、モデルはクラス間の分離を最適化する分割を選択します72。
ランダム フォレスト アルゴリズムは、正式に次のように説明できます (Hastie et al., 2016, p. 588 からそのまま引用)。
b = 1 から B の場合:
トレーニング データからサイズ N のブートストラップ サンプルを抽出します。
最小ノード サイズに達するまで、ツリーの各終端ノードに対して次の手順を再帰的に繰り返すことにより、デシジョン ツリーをブートストラップされたデータまで成長させます。
p 個の変数から m 個の変数をランダムに選択します。
損失関数に従って、m の中から最適な変数/分割点を選択します (この場合、ジニ不純物の減少)。
ノードを 2 つの子ノードに分割します。
木のアンサンブルを出力する
その後、ツリーごとに予測を生成し、多数決を使用して結果を集計することで、新しい予測を行うことができます。
ランダム フォレスト内のツリー全体の予測を集約すると、ツリーの分散の恩恵を受け、単一の予測に到達するまでの分散を大幅に削減できるため、個々のデシジョン ツリーと比較して予測パフォーマンスが向上します 72,81。
私たちは、アウトオブサンプル検証アプローチを使用して予測モデルのパフォーマンスを評価します。 サンプル外検証の背後にある考え方は、モデルのトレーニングと評価時に異なるデータセットを使用することで、モデルが新しいデータ (新入生など) での生徒の退学を正確に予測する可能性を高めることです。 サンプル外検証で一般的に使用される効率的な手法は、同じデータセットの重複しない部分でモデルの適合 (トレーニングを参照) と評価 (テストを参照) を繰り返し、複数の反復にわたって個々の推定値を結合することです。 相互検証として知られるこの手順は、最適な予測パフォーマンスを得るためにさまざまな設定を繰り返し評価することにより、モデルの最適化 (ハイパーパラメーター調整、前処理、変数選択など) にも使用できます。 両方のアプローチを組み合わせる場合、現実的なアウトオブサンプルのパフォーマンス推定のために、トレーニング データとテスト データを厳密に分離するために、評価と最適化のステップを入れ子状に実行する必要があります。 一般的なアイデアは、リサンプリングの各フォールドのすべてのモデリング ステップを単一のサンプル内モデルであるかのようにエミュレートすることです。 ここでは、ネストされた相互検証を使用してモデルの予測パフォーマンスを推定し、モデルのハイパーパラメーターを最適化し、データを前処理します。 手順を図 1 に示します。
サンプル外予測の概略的な相互検証手順。 この図は、外側のループでの 10 回の相互検証を示しています。これは、これまでに確認されていないテスト セット内の各生徒の予測結果と実際の結果を比較することによって、モデルの全体的なパフォーマンスを推定するために使用されます。 10 個の外側ループのそれぞれ内で、内側ループの 5 重相互検証を使用して、さまざまなモデル設定を評価することでモデルのハイパーパラメーターを微調整します。
相互検証手順は次のように機能します。1,000 人の生徒を含むデータセットがあるとします。 最初のステップでは、データセットが 10 個の異なるサブサンプルに分割され、それぞれに 100 人の生徒からのデータが含まれます。 最初のラウンドでは、これらのサブサンプルのうち 9 つがトレーニング (つまり、パラメーターを推定するためのモデルのフィッティング、緑色のボックス) に使用されます。 つまり、最初の 900 人の生徒のデータがモデルのトレーニングに含まれ、さまざまな特徴を維持の結果に関連付けることになります。 トレーニングが完了すると、残りの 100 人の生徒のデータ (つまり、テスト データセット、青いボックス) でモデルのパフォーマンスを評価できます。 各生徒について、実際の結果 (維持または中止、灰色と黒の数字) が予測された結果 (維持または中止、灰色と黒の数字) と比較されます。 この比較により、さまざまなパフォーマンス メトリックの計算が可能になります (詳細については、以下の「パフォーマンス メトリック」セクションを参照してください)。 従来の推論統計の適用とは対照的に、予測モデルの評価プロセスでは、モデルのトレーニングに使用されるデータと、これらの関連性の評価に使用されるデータが分離されます。 したがって、トレーニング段階で発生するオーバーフィッティング(たとえば、研究者の自由度の使用、またはトレーニング データに固有のモデル学習関係による)は、テスト段階での予測パフォーマンスに悪影響を及ぼします。 結果の堅牢性をさらに高め、データセット全体を活用するために、このプロセスが 10 個のサブサンプルすべてに対して繰り返され、各サブサンプルがトレーニングに 9 回、テストに 1 回使用されます。 最後に、これら 10 回の反復から得られた推定値が集計されて、モデルのパフォーマンスの相互検証された推定値が得られます。 この 10 倍の相互検証手順は「外側ループ」と呼ばれます。
外側のループに加えて、モデルには「内側のループ」も含まれています。 内側のループは、理想的なハイパーパラメーター設定を特定するために使用される追加の相互検証手順で構成されます (下記の「ハイパーパラメーターの調整」セクションを参照)。 つまり、外側のループの 10 回の反復のそれぞれで、外側のループでモデルを評価する前に、トレーニング サンプルがトレーニング セットとテスト セットにさらに分割され、最適なパラメーター コンスタレーションが特定されます。 内側のループでは 5 重交差検証を使用しました。 前処理およびモデリング手順のすべての分析スクリプトは、OSF (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc) で入手できます。
4 つの異なる指標に基づいてモデルのパフォーマンスを評価します。 モデルのパフォーマンスに関する主な指標は AUC (受信動作特性曲線の下の面積) です。 AUC は一般に、50% 確率のベースラインにわたるモデルのパフォーマンスを評価するために使用され、0 から 1 までの範囲で指定できます。AUC メトリクスは、真陽性率をプロットする受信者動作特性 (ROC) 曲線の下の領域をキャプチャします。 (TPR またはリコール。つまり、実際に中退した全学生のうち、正しく分類された中退者の割合) と、偽陽性率 (FPR。つまり、実際に継続したすべての学生のうち、誤って中退として分類された学生の割合) との関係。 AUC が 0.5 の場合、モデルの予測パフォーマンスは偶然またはコイン投げに相当します。 1 に近づくほど、継続した生徒と中退した生徒を区別する際のモデルの予測パフォーマンスが高くなります。
さらに、0 ~ 182 の範囲の F1 スコアを報告します。F1 スコアは、モデルの陽性的中率 (または精度、つまり、中退したと予測されたすべての学生のうち正しく分類された中退者の割合) にも基づいています。モデルの TPR として。 したがって、F1 スコアが高いということは、偽陽性と偽陰性の両方がほとんどないことを示します。
特定の状況を考慮して、TPR と真の陰性率 (TNR、つまり、実際に継続した全生徒のうち継続すると予測された生徒の割合) も報告します。 大学は、その目的に応じて、中退の危険がある学生が見逃されないように TPR の最適化を重視したり、リソースを節約して学生に過度の負担をかけないよう TNR の最適化に重点を置いたりすることがあります。 特に、ほとんどの場合、大学はこの 2 つのバランスをとろうと努める可能性が高く、それが私たちの主要な AUC 測定値に反映されています。 報告されたすべてのパフォーマンス メトリクスは、外側のループの 10 個の相互検証フォールドにわたる平均予測パフォーマンスを表します54。
相互検証の内部ループでのハイパーパラメーター調整には、50 回の反復と 5 回の相互検証によるランダム化検索を使用しました。 ランダム化検索アルゴリズムは、事前に定義されたハイパーパラメータ空間からランダムに選択されたハイパーパラメータ構成でモデルを適合させ、5 つの交差検証分割で平均された最良の一般化パフォーマンスを示すモデルを選択します。 最適なハイパーパラメータ構成は、モデルのパフォーマンスを評価するための外側のリサンプリング ループでのトレーニングに使用されます。
エラスティック ネット分類器については、正則化パラメーター ラムダ、ラムダの選択に使用される決定ルール、および L1 比パラメーターを調整しました。 ラムダの検索スペースには、100 個の glmnet デフォルト値が含まれていました71。 ラムダの決定ルールの空間には、最小の平均相互検証誤差をもたらすラムダの値を選択する lambda.min と、交差検証誤差が最小になるような最も正規化されたモデルをもたらすラムダの値を選択する lambda.1se が含まれていました。検証誤差は最小値の 1 標準誤差以内に収まります。 L1 比パラメータの検索スペースには、0 (リッジ) から 1 (なげなわ) までの値の範囲が含まれていました。 ランダム フォレスト分類器の場合、デシジョン ツリー内の各分割に対して選択される特徴の数 (mtry) と最小ノード サイズ (つまり、ツリーの結果のエンドノードに残す必要があるケースの数) を調整しました。 決定木ごとの入力特徴の数の検索空間は 1 から p の範囲に設定されました。ここで、p は特徴空間の次元を表します。 最小ノード サイズの検索スペースは 1 ~ 5 の範囲に設定されました。さらに、両方のモデルで、SMOTE アルゴリズムで使用される新しいサンプルの生成に使用されるオーバーサンプリング レートと近傍数を調整しました。 オーバーサンプリング レートは 2 ~ 15 の範囲に設定され、最近傍数は 1 ~ 10 の範囲に設定されました。
図 2 は、さまざまな大学 (行) にわたる AUC スコア (Y 軸) を、さまざまな特徴セット (色) と予測アルゴリズム (X 軸ラベル) で分けて表示しています。 この図は、10 個の相互検証分割にわたる AUC 精度の分布を、平均値と標準偏差とともに表示します。 多重比較にホルム補正を使用した独立した t 検定は、各大学内のさまざまなモデルと特徴セットにわたる予測パフォーマンスの統計的な違いを示します。 表 2 は、4 つの指標すべてにわたる予測パフォーマンスを示しています。
さまざまな機能セットとモデルに対する 4 つの大学の AUC パフォーマンス。
全体として、私たちのモデルは、大学、モデル、機能セット、パフォーマンス指標にわたって高いレベルの予測精度を示し、すべてのインスタンスでベースラインを大幅に上回っていました。 主要なパフォーマンス指標である AUC は平均 73% (50% は偶然) に達し、ランダム フォレスト モデルと大学 1 の全機能セットでは最大 88% に達しました。組織的機能とエンゲージメント機能の両方が予測パフォーマンスに大きく貢献しました。 、学生が中退する可能性は、より安定した社会人口学的特性とキャンパス生活の経験の両方の関数であるという事実を強調しています。 ほとんどの場合、共同モデル (すなわち、制度的特徴と関与的特徴の組み合わせ) は、個々のモデルを単独で使用するよりも優れたパフォーマンスを示しました。 最後に、ランダム フォレスト モデルは、ほとんどの場合でエラスティック ネットよりも高いレベルの予測パフォーマンスを生成しました (平均 AUC エラスティック ネット = 70%、AUC ランダム フォレスト = 75%)。これは、生徒の予測において特徴が相互作用する可能性が高いことを示唆しています。維持率は結果と必ずしも直線的に関係するとは限りません。
学生の定着率と社会人口統計および行動的特徴の間の基礎的な関係についての洞察を提供するために、私たちは、どちらも独自の洞察を提供する特徴の重要性を示す 2 つの指標を調べました。 まず、4 つの大学それぞれの特徴と成果の間の 0 次相関を計算しました。 モデルの正則化手順によって変更されない関係を表すため、弾性ネット係数よりも 0 次相関を選択しました (つまり、特徴と結果の間の関係は、モデル内の他の特徴の重要性とは無関係に示されます)。 結果の堅牢性を向上させるために、モデルにデータを含めるしきい値を超え、代入されたデータが 50% 未満である変数のみを含めました。 表 3 の上 3 分の 1 には、最も重要な 10 個の特徴 (つまり、保持率との絶対相関が最も高い) が表示されます。 括弧内の記号は影響の方向を示し、(+) は保護因子、(-) は危険因子を示します。 複数の大学でトップ 10 に入った機能は太字で強調表示されています。
次に、エラスティック ネット モデルとランダム フォレスト モデルの順列変数重要度スコアを計算しました。 エラスティック ネット モデルの場合、特徴の重要度は、増分予測力に従って係数を縮小した後のモデル係数として報告されます。 したがって、ゼロ次相関と比較して、弾性ネット係数は最も強い一意の分散を持つ特徴を特定します。 ランダム フォレスト モデルの場合、特徴の重要度は、観察をランダムにシャッフルすることによって特徴と結果の間の実際の関連性が崩れた場合のモデルの予測パフォーマンスの低下を観察することによって特徴の重要性を推定する、モデルに依存しない指標として報告されます 72,83。 値をシャッフルするとモデルの誤差が増加する (したがって、モデルの予測パフォーマンスが低下する) 場合、その特徴は重要であるとみなされます。 エラスティック ネット モデルの係数とは対照的に、順列特徴重要度スコアには方向性がなく、特徴と結果の間の関係の特定の性質についての洞察は得られません。 ただし、一部の特徴自体は予測できない可能性があるが、他の特徴の影響を緩和するため、モデル全体のパフォーマンスにおいて価値があることが判明する可能性があるという事実を考慮しています。 たとえば、少数派または第一世代の学生は、同じ障壁に直面しておらず、より強力な外部サポート ネットワークを持っている可能性が高い多数派の学生よりも、強力なソーシャル ネットワークに組み込まれることでより多くの恩恵を受ける可能性があります。 表 3 の下部には、エラスティック ネット モデルとランダム フォレスト モデルで最も重要な 10 個の特徴 (つまり、順列変数の重要度が最も高い) が表示されます。
RQ1 で報告された調査結果を裏付けるように、ゼロ次相関は、制度的および行動的関与の特徴の両方が学生の定着率を予測する上で重要な役割を果たすことを裏付けています。 以前の研究と一致して、学生の成績 (GPA または ACT によって測定) は、大学やモデル全体で最も重要な予測因子の 1 つとして繰り返し登場しました。 さらに、エンゲージメント機能の多く (例: 参加するサービス、チャット メッセージのネットワーク中心性) は社会活動やネットワーク機能に関連しており、学生の社会的つながりとサポートが学生維持に重要な役割を果たすという概念を裏付けています。 さらに、学生が所属する教育機関にどの程度積極的に関与しているか(イベントに参加したり、評価を高く評価したりするなど)が、中退を防ぐ上で重要な役割を果たしているようです。
大学間でのモデルの一般化可能性をテストするために、1 つの大学 (例: 大学 1) でトレーニングされた予測モデルを使用して、残りの 3 つの大学 (例: 大学 2 ~ 4) の定着率を予測しました。 図 3A、B は、考えられるすべてのペアにわたる AUC を表示し、どの大学がトレーニングに使用されたか (X 軸)、どの大学がテストに使用されたかを示します (Y 軸、F1、TNR の結果を示すグラフについては、SI の図 S1 を参照)およびTPR)。
大学間の予測のパフォーマンス (平均 AUC)。
全体として、ある大学でトレーニングされたモデルを別の大学のデータに適用すると、かなり高いレベルの予測パフォーマンスが観察されました。 観察された平均 AUC は 63% (エラスティック ネットとランダム フォレストの両方) で、最高の予測パフォーマンスは 74% (大学 1 でトレーニングされ、大学 2 を予測) に達しました。これは、エラスティック ネットとランダム フォレストで観察された予測パフォーマンスよりわずか 1% ポイント足りませんでした。大学独自のモデルからの予測 (大学 2 でトレーニングされ、大学 2 を予測)。 RQ1 の結果とは対照的に、他の大学の予測を行う場合、ランダム フォレスト モデルはエラスティック ネットよりも優れたパフォーマンスを発揮しませんでした。 これは、ランダム フォレスト モデルによってもたらされる利点が、各大学に若干固有であるものの、新しい状況ではうまく一般化できない可能性がある複雑な相互作用パターンを捉えていることを示唆しています。 一般化可能性における主な外れ値は大学 4 であり、他のモデルはいずれも偶然よりもはるかに優れた精度に達しておらず、大学 1 ~ 2 の学生維持率を予測する際にそのモデルがもたらした精度は比較的低いレベルでした。 これはおそらく、大学 4 がコミュニティ カレッジであり、この分析の目的で統合された 16 の異なるキャンパスで構成されていたという事実など、いくつかの点で大学 4 が他の大学とは質的に異なっていたという事実の結果であると考えられます (方法を参照)詳細については)。
学生の定着率は、教育機関のデータ、行動関与データ、およびそれらの組み合わせから予測できることを示します。 4 つの大学の 50,000 人以上の学生からのデータを使用した当社の予測モデルは、サンプル外で最大 88% の精度を達成しています (50% は偶然)。 特に、組織のデータと行動エンゲージメントのデータは両方とも維持率を大幅に予測しますが、ほとんどの場合、この 2 つの組み合わせが最も効果的です。 この発見は、制度的および行動的関与の特徴の両方が学生定着率の最も重要な予測因子の一つであることを示唆する特徴重要度分析によってさらに裏付けられています。 具体的には、GPAによって測定される学業成績と、キャンパスへの参加(イベント出席や評価など)やネットワーク内での学生の立場(親密さや中心性など)に関連する行動指標が、一貫して保護因子として機能することが示された。 最後に、大学間でのモデルの一般化可能性を強調します。 ある大学でトレーニングされたモデルは、かなり高いレベルの予測パフォーマンスで別の大学の学生定着率を予測できました。 ご想像のとおり、大学間の一般化可能性は、重要な構造的側面において大学がどの程度類似しているかに大きく依存し、類似性が低い場合には予測精度が大幅に低下します (大学 4 の低い相互一般化を参照)。
私たちの発見は、いくつかの方法で既存の文献に貢献します。 まず、心理学におけるより予測的な研究54,55や、教育研究におけるビッグデータ分析の使用に対する最近の要望に応えています56,57。 私たちのモデルは、大学によって収集された社会人口学的特徴を考慮するだけでなく、READY Education アプリを介して行動を追跡することで、学生の日常的な経験や大学への関与も捕捉します。 私たちの調査結果は、学生定着率に関するこれらのより心理的な予測因子が、社会人口統計上の変数を超えて予測モデルのパフォーマンスを向上させる可能性があることを示唆しています。 これは、エンゲージメント指標を含めることで予測モデルのパフォーマンスが向上することを示唆する以前の調査結果と一致しています16、84、85。 全体として、私たちのモデルは、人口統計と成績記録15、25、またはそれ以下の包括的な行動特徴16のみでトレーニングされた以前の研究のモデルよりも優れた精度を示し、さらに広範囲の社会経済的変数を含む研究で報告された結果と同等の結果を提供しました12。 READY Education アプリが学生の実際の経験のほんの一部しかキャプチャしていないことを考えると、高い予測精度は、大学定着における学生の関与の重要性をさらに強く主張します。
第 2 に、私たちの調査結果は、学生が中退するかどうかを予測する上で最も重要な特徴についての洞察を提供します。 そうすることで、モデルを検証するだけでなく、潜在的な保護要因やリスク要因についての洞察を生み出すことにも役立つ理解の層で、私たちの予測アプローチを補完します。 最も重要なことは、私たちの調査結果は、学生の定着率を予測するための行動エンゲージメント指標の関連性を強調していることです。 予測において重要であると特定された機能のほとんどは、アプリとコミュニティの関与に関連していました。 以前の研究と一致して、同僚や教員との交流、友情やソーシャルネットワークの発展など、早期かつ深い社会統合を示す特徴は、非常に予測的であることが判明しました16,41。 たとえば、キャンパスイベントは学生にとって社交の理想的な機会を提供するため、アプリの登録とキャンパスイベント(重要であると特定された機能の1つ)への最初の訪問の間の短い時間が維持にプラスの影響を与えると仮定するのは合理的です86。 キャンパスのイベントに早期に参加することは、他の人々との早期統合とネットワーク構築を意味し、学生をストレスから守り87、より良い社会的および感情的サポートを提供する88ことを意味します。 対照的に、イベントにまったく出席しない、または学期のかなり遅い時期に参加する学生は、キャンパス生活や学生コミュニティとのつながりが希薄になる可能性があり、その結果、中退する可能性が高くなります。 この解釈は、肯定的なイベント評価の高い割合が、学生が勉強を続ける重要な予測因子として特定されたという事実によって強化されます。 イベントを楽しむ学生は、より快適に感じ、大学生活に溶け込み、より多くのつながりを作り、より強いつながりを築く可能性があります。 これにより、学生がイベントに参加し続け、時間が経つにつれて仲間との強い社会的つながりが生まれるという好循環が生まれる可能性があります。 これまでのほとんどの研究と同様に、GPA スコアが高いことは、学業を継続する可能性が高いことと一貫して関連していました 21,24。 その重要性は大学によって異なりますが、民族性も定着に大きな役割を果たしていることが判明しており、一貫した不平等が私たちの予測モデルで再現されています12、19、47。 たとえば、黒人学生は平均して中退する可能性が高く、大学はこのグループを保護するために追加のリソースを投入する必要があることを示唆しています。 重要なのは、定性的解釈はすべて事後的なものであるということです。 発見の多くは直観的であり、このテーマに関する以前の研究と一致していますが、将来の研究では私たちの結果を検証し、実験的または長期的な個人内デザインにおける効果の根底にある因果関係を調査する必要があります54,78。
最後に、私たちの調査結果は、特定の社会人口統計学的特徴と行動的特徴の間の関係がどの程度特異であり、特定の大学に特有である可能性があるかを調査した最初のものです。 4 つの異なる大学のモデルを比較できることにより、ある大学から得られた洞察の多くを別の大学での学生定着率の予測に活用できることを示すことができました。 しかし、私たちの調査結果は、重要な境界条件も示しています。大学の組織構造や学生の経験が類似していればいるほど、学生の定着に関する特定の社会人口統計学的特徴と行動的特徴の間のパターンがより特異になり、単純に翻訳することが困難になります。特定の大学キャンパスに関する一般的な洞察。
私たちの発見は、重要な実践的な意味もあります。 米国では、学生の減少により、年間平均約 165 億ドルの収入が減少し 9,10、学位を取得していない学生に与えられる連邦および州の助成金や補助金で 90 億ドル以上が無駄にされています 11。 したがって、献身的なサポートを提供し、最も必要とされる場所にリソースを割り当てることができるように、潜在的なドロップアウトを可能な限り早期かつ正確に予測することが重要です。 私たちのモデルは大学の最初の学期に収集されたデータのみに依存しているため、学生が勉強を続ける可能性があるか、ある時点で中退する可能性があるかを予測したい大学にとって理想的な「早期警告」システムです。 大学のリソースと目標に応じて、さまざまなパフォーマンス指標に合わせて予測モデルを最適化できます。 実際、大学はできるだけ多くの中退者を捕捉するために、真の陽性率に焦点を当てることを決定するかもしれません。 これは、「健康な」学生を中退の可能性があるとして誤って分類することを意味しますが、大学は、これらの健康な学生に「不必要な」サポートを提供する負担は、中退者を見逃すリスクを減らす価値があると判断する可能性があります。 重要なのは、私たちのモデルは単なる社会人口統計上の変数を超え、「その人が誰であるか」だけでなく、キャンパスでの経験がどのようなものであるかを考慮した、より微妙な個人モデルを可能にすることです。 そのため、私たちのモデルは、社会人口統計上のセグメント全体の過度に一般化された評価を使用するのではなく、個性を認識することを可能にします。
ただし重要なのは、これらのモデルを継続的な品質保証の対象にすることが重要です。 予測モデルを使用すると、大学はリスクのある学生に早期にフラグを立てることができますが、予測モデル自体で石灰化したバイアスが永続化する可能性もあります。 たとえば、伝統的に勉強を中止する可能性が低い学生は、ファイルが「危険にさらされている」とフラグが立てられる前に、はるかに高いレベルの機能不全の取り組み行動を通過する必要がある可能性があります。 同様に、伝統的に過小評価されてきたグループに属する人は、日常生活では通常は充実しているにもかかわらず、不必要に大量の追加チェックインを受ける可能性があります。 「危険にさらされている」というレッテルを貼られることは、歴史的に疎外されてきたグループに対する偏見を強化する可能性があるという汚名と関連している可能性があることを考えると、長期にわたるモデルのパフォーマンスと、管理者や教員の間でのモデルの有用性の認識の両方を監視することが重要になるだろう。 、そして学生たち。
私たちの研究にはいくつかの限界があるが、将来の研究への道を浮き彫りにしている。 まず、サンプルは米国の 4 つの大学で構成されていました。 したがって、私たちの結果は、中退理由が異なる可能性があるアジアなど、より集団主義的な文化や他の教育システムを持つ国や、ほとんどの学生がアルバイトをしてキャンパス外で暮らすヨーロッパなどに必ずしも一般化できるわけではありません。 今後の研究では、私たちのモデルが他の文化的文脈にどの程度一般化できるかを調査し、文脈を超えて普遍的に有効な学生維持の特徴を特定する必要があります。
次に、私たちの予測モデルはアプリの使用状況データに依存していました。 したがって、私たちの予測アプローチは、アプリを使用することを決めた生徒にのみ適用できます。 この選択は、それ自体でサンプリング バイアスを導入する可能性があります。アプリを使用することを決めた生徒が最初から保持する可能性が高く、観察のばらつきが制限され、アプリの使用状況データが収集された生徒が除外される可能性があるからです。利用不可。 ただし、私たちの調査結果が示すように、アプリの機能とは関係なく、教育機関のデータだけで予測パフォーマンスが提供されるため、アプリを使用しない学生にとってはこれが実行可能な代替手段となります。
第三に、私たちの予測モデルは横断的な予測に依存しています。 つまり、学期全体を通して学生の行動を観察し、他の学生で観察されたパターンに基づいて、その学生が中退する可能性が高いかどうかを予測します。 将来の研究では、個人内の傾向を動的にモデル化することで、モデルの予測パフォーマンスと、適用されるコンテキストに対するその有用性の両方を向上させることが試みられる可能性があります。 十分なデータがあれば、モデルは人のベースラインの行動を観察し、そのベースラインからの変化が潜在的に問題があるものとして特定することができます。 実際、他の学生とのより多くの社会的接触は、横断モデルでは保護要因とみなされる可能性があります。 しかし、個人がどの程度の社会的接触を求め、享受するかについては、かなりの個人差があります91。 したがって、週に 10 件のチャット メッセージを送信することは、ある人にとっては多くても、別の人にとってはほんのわずかであると考えられる場合があります。 したがって、今後の研究では、行動エンゲージメント機能によって、基本料金を考慮に入れて学生の中退の可能性を動的かつ瞬間的に評価できる、より動的な個人内モデルが可能になるかどうかを調査する必要があります。
4 番目に、エンゲージメント データはタイムスタンプ付きのイベントを含む長期的な時系列として取得されましたが、データを各生徒の単一の横断的な特徴セットにまとめました。 これらの機能の一部は、時間の経過に伴う挙動の変化 (エントロピーや線形傾向など) を捕捉しますが、将来の研究では、この時系列データを直接説明するために、より高度な機械学習モデルの実装を試みる必要があります。 たとえば、リカレント ニューラル ネットワークの一種である長短期記憶モデル (LSTM)92 は、私たちのような縦方向の連続データのパターンを学習できます。
第 5 に、現在の研究では、特定の機能の重要性を強調することでモデルの動作についての初期の洞察が得られますが、重要性の指標は母集団全体に対して計算されるため、これらの分析から引き出せる結論は限られています。 将来の研究では、個人レベルで特定の特徴の重要性を計算し、その重要性が特定の社会人口学的特徴間で異なるかどうかをテストすることを目的とする可能性があります。 たとえば、ソーシャルネットワークにおける個人の立場の重要性を個人レベルで推定すると、その重要性が少数派や第一世代の地位などの組織的データと相関しているかどうかを確認できるようになります。
最後に、私たちの結果は、大学での学生の経験の形成を通じて定着を促進する介入を開発するための基礎を築きました93。 定着率にプラスの効果があることが示されている介入には、オリエンテーション プログラムや学業上のアドバイス 94、メンタリングやコーチングなどの学生サポート サービス、ニーズに基づく助成金 95 などが含まれます。 しかし、これまでのところ、1 年生の社会的統合を強化することを目的とした 1 年生体験プログラムは、良い結果をもたらしていないようです96,97。 私たちの調査結果は、キャンパス内での学生の統合を改善および維持することを目的とした介入の開発をサポートする可能性があります。 高いレベルでは、最も重要な機能についての洞察は、学生維持の最も重要な手段を対象とした関連介入を開発するための経験的な道筋を提供します。 たとえば、登録から最初のイベント参加までの時間が学生の定着率に大きな影響を与えるという事実は、大学が学生をできるだけ早くイベントに参加させるためにできる限りのことを行う必要があることを意味します。 同様に、コホート間でより緊密なネットワークを構築し、すべての学生がコミュニティと確実につながるような介入を開発することもできます。 より深く、より洗練されたレベルでは、モデルの説明可能性への新しいアプローチにより、大学は各学生に合わせて介入を調整できるようになる可能性があります98,99。 たとえば、Explainable AI を使用すると、各生徒の決定ルールを導き出し、生徒の結果を予測する際にどの特徴が重要であったかを示すことができます。 学生 A はネットワークから切断されたために退学すると予測される一方で、学生 B はアプリ上の適切な情報にアクセスできないために退学すると予測される可能性があります。 この情報があれば、大学は学生の特定のニーズに合わせて提供内容をカスタマイズできるようになります。 学生 A には他の学生との交流にもっと時間を費やすよう勧められるかもしれませんが、学生 B には重要なコース情報をチェックするよう思い出させるかもしれません。 したがって、予測モデルは、危険にさらされている生徒を特定するために使用できるだけでなく、個別の指導とサポートを提供するための自動化されたパスを提供することもできます。
研究が中止されるたびに、教育の夢は砕け散ります。 そして、打ち砕かれた夢は、その学生とその学生が通っていた大学の両方に長期的に悪影響を及ぼします。 この研究では、最初の学期後の生徒の定着率を正確に予測するアプローチを紹介します。 私たちの結果は、教育機関のデータ、行動エンゲージメントのデータ、またはその 2 つの組み合わせを考慮すると、比較的高いレベルの予測パフォーマンスで学生の定着率を予測できることを示しています。 社会人口学的特徴と学生の日常活動を反映する受動的に観察された行動追跡を組み合わせることで、私たちのモデルは学生の大学での経験とその定着との関係の全体像を提供します。 全体として、このような予測モデルは、リスクにさらされている生徒を早期に特定し、タイムリーな証拠に基づいた介入を可能にするという点で大きな可能性を秘めています。
生データは、その独自の性質と匿名化解除に伴うリスクのため、一般には公開されていませんが、合理的な要求に応じて責任著者から入手できます。 私たちの研究の再現性を高めるために、前処理されたデータとすべての分析コードは OSF (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc) で入手できます。 データは、R バージョン 4.0.0 (R コア チーム、2020 年、使用された特定のパッケージとバージョンについてはサブセクションを参照) を使用して分析されました。 研究の計画は二次データに依存しており、分析は事前に登録されていませんでした。
Ginder, SA、Kelly-Reid, JE & Mann, FB 選択されたコホートの卒業率、2009 ~ 14 年。 コホート年度 2009 ~ 2010 年の結果測定。 学生財政援助、2016 ~ 2017 年度。 および高等教育機関への入学、2017 年秋。ファーストルック (暫定データ)。 NCES 2018–151。 国立教育統計センター (2018)。
Snyder, TD、de Brey, C. & Dillow, SA、2017 年教育統計ダイジェスト NCES 2018-070。 国立セント。 教育する。 統計 (2019年)。
NSCリサーチセンター。 永続性と保持 – 2019。NSC 研究センター https://nscresearchcenter.org/snapshotreport35-first-year-persistence-and-retention/ (2019)。
バウンド J.、ローベンハイム MF、ターナー S. 大学卒業率が低下したのはなぜですか? 変化する学生の準備と大学のリソースの分析。 午前。 エコン。 J.Appl. エコン。 2、129–157 (2010)。
記事 PubMed PubMed Central Google Scholar
ボーエン、WG、チンゴス、MM、マクファーソン、MS がゴールラインを通過。 フィニッシュラインを越えて(プリンストン大学出版局、2009年)。
マクファーランド、J.ら。 教育の条件 2019。NCES 2019-144。 国立セント。 教育する。 統計 (2019年)。
教育、米ドル。 ファクトシート: 高等教育は学生の成功に重点を置いています。 [ファクトシート] (2015)。
Freudenberg, N. と Ruglis, J. Peer は次のように論評しました: 学校中退を公衆衛生問題として再構成する。 前へ慢性障害 4、4 (2007)。
Google スカラー
Raisman, N. 4 年制大学および総合大学における大学の減少のコスト - 米国の 1669 の教育機関の分析。 政策の視点。 (2013年)。
Wellman, J.、Johnson, N.、Steele, P. 中等教育後の減少に伴う目に見えないコストの測定 (および管理)。 政策概要。 デルタコストプロジェクト午前。 インスタット。 解像度 (2012年)。
Schneider, M. 最初のラップを終了: アメリカの 4 年制大学における初年度学生の減少のコスト (アメリカ研究研究所、2010)。
Google スカラー
Delen, D. 学生維持管理のための機械学習技術の比較分析。 決定。 サポートシステム。 49、498–506 (2010)。
記事 Google Scholar
Yu, R.、Lee, H. & Kizilcec, RF 大学中退予測モデルには保護された属性を含めるべきか? 第 8 回 ACM 学習会議議事録 @ スケール 91–100 (2021)。
ティント、V。大学の 1 年目を再構築します。 プラン。 高い。 教育する。 25、1–6 (1996)。
Google スカラー
Ortiz-Lozano、JM、Rua-Vieites、A.、Bilbao-Calabuig、P. & Casadesús-Fa、M. 大学生の定着率: 中退のリスクがある学部生を特定するのに最適な時間とデータ。 イノヴ。 教育する。 教える。 内部。 57、74–85 (2020)。
Google スカラー
Ram, S.、Wang, Y.、Currim, F.、Currim, S. 新入生定着率を予測するためのビッグ データの使用。 2015 年情報システムに関する国際会議: 情報フロンティアの探索、ICIS 2015 (情報システム協会、2015 年)。
Levitz、RS、Noel、L.、Richter、BJ 定着を成功させるための戦略的な動き。 N.ディレクター高い。 教育する。 1999、31–49 (1999)。
記事 Google Scholar
Veenstra、CP 新入生の大学定着率を向上させるための戦略。 J.クアル. 参加します。 31、19–23 (2009)。
Google スカラー
アスティン、AW あなたの教育機関の定着率はどの程度「良好」ですか? 解像度高い。 教育する。 38、647–658 (1997)。
記事 Google Scholar
コールマン、JS 人的資本の創造におけるソーシャル キャピタル。 午前。 J.Sociol. 94、S95–S120 (1988)。
記事 Google Scholar
理由、RD 定着率を予測する学生変数: 最近の研究と新しい開発。 J.スタッド。 アフ。 解像度練習してください。 40、704–723 (2003)。
Google スカラー
ティント、V. 高等教育中退: 最近の研究の理論的総合。 Rev Educ Res 45、89–125 (1975)。
記事 Google Scholar
ティント、V. 大学を卒業する: 制度的行動を再考する (シカゴ大学出版局、2012)。
Google Scholar を予約する
アスティン、A. 生徒を維持し満足させる。 教育する。 記録 68、36–42 (1987)。
Google スカラー
Aulck, L.、Velagapudi, N.、Blumenstock, J. & West, J. 高等教育における学生の中退の予測。 arXiv プレプリント arXiv:1606.06364 (2016)。
Bogard, M.、Helbig, T.、Huff, G.、James, C. 学生定着率を予測するための経験的モデルの比較 (ウェスタン ケンタッキー大学、2011)。
Google スカラー
Murtaugh, PA、Burns, LD & Schuster, J. 大学生の定着率を予測。 解像度高い。 教育する。 40、355–371 (1999)。
記事 Google Scholar
Porter, KB 学生定着率の現在の傾向: 文献レビュー。 教える。 学ぶ。 看護師さん。 3、3–5 (2008)。
記事 Google Scholar
トーマス、SL 絆を結びつける: 学生の統合と持続性を理解するためのソーシャル ネットワーク アプローチ。 J.ハイ。 教育する。 71、591–615 (2000)。
Google スカラー
Peltier, GL、Laden, R. & Matranga, M. 学生の大学での粘り強さ: 研究のレビュー。 J.Coll. スタッド。 レット。 1、357–375 (2000)。
記事 Google Scholar
Nandeshwar, A.、Menzies, T.、Nelson, A. 大学生の定着率の学習パターン。 エキスパートシステム。 応用 38、14984–14996 (2011)。
記事 Google Scholar
Boero, G.、Laureti, T.、Naylor, R. 改革後のイタリアの大学における学生の退学と進学に関する計量経済分析。 (2005)。
ティント、V. 大学を辞める: 学生の減少の原因と治療法を再考する (ERIC、1987)。
Google スカラー
Choy, S. 両親が大学に行っていない学生: 中等教育後のアクセス、粘り強さ、および達成度。 2001 年の教育状況からの調査結果 (2001)。
石谷、TT 米国の第一世代の大学生の減少と学位取得行動を研究しています。 J.ハイ。 教育する。 77、861–885 (2006)。
記事 Google Scholar
Thayer、PB 第一世代および低所得背景の学生の維持。 (2000年)。
Britt, SL、Ammerman, DA、Barrett, SF & Jones, S. 学生ローン、経済的ストレス、大学生の定着率。 J.スタッド。 金融。 援助 47、3 (2017)。
Google スカラー
マッキニー、L. & バリッジ、AB 助けているのか、それとも妨げているのか? ローンがコミュニティカレッジの学生の粘り強さに及ぼす影響。 解像度高学歴。 56、299–324 (2015)。
記事 Google Scholar
Hochstein, SK & Butler, RR 学資援助パッケージの構成が学生維持に及ぼす影響。 J.スタッド。 金融。 援助 13、21–26 (1983)。
Google スカラー
Singell, LD Jr. 来てしばらく滞在してください: 財政援助は、大規模な公立大学への入学を条件とした定着に影響しますか? エコン。 教育する。 改訂第 23 巻、459–471 (2004)。
記事 Google Scholar
Bean、JP 大学生の 9 つのテーマ。 コル。 スタッド。 保持します。 フォーミュラスタッド。 サクセス 215、243 (2005)。
Google スカラー
ティント、V。学生の目を通して。 J.Coll. スタッド。 レット。 19、254–269 (2017)。
記事 Google Scholar
Cabrera, AF、Nora, A. & Castaneda, MB 大学の持続性: 学生定着率の統合モデルの構造方程式モデリング テスト。 J.ハイ。 教育する。 64、123–139 (1993)。
Google スカラー
Roberts, J. & Styron, R. 学生の満足度と粘り強さ: 学生の定着に不可欠な要素。 解像度高い。 教育する。 J. 6, 1 (2010)。
Google スカラー
ゴパラン、M. & ブレイディ、ST 大学生の帰属意識: 全国的な視点。 教育する。 解像度 49、134–137 (2020)。
記事 Google Scholar
Hoffman, M.、Richmond, J.、Morrow, J. & Salomone, K. 大学 1 年生の「帰属意識」を調査。 J.Coll. スタッド。 レット。 4、227–256 (2002)。
記事 Google Scholar
Terenzini, PT & Pascarella, ET 大学生の減少に関するティントのモデルの検証に向けて: 最近の研究のレビュー。 解像度高学歴。 12、271–282 (1980)。
記事 Google Scholar
AW州アスティン 寮生活が学生に与える影響。 学歴(1973年)。
アスティン、AW 学生の参加: 高等教育のための発達理論。 J.Coll. スタッド。 パース。 25、297–308 (1984)。
Google スカラー
Terenzini, PT & Pascarella, ET 21 世紀の大学生の研究: 新たな課題への挑戦。 高等教育牧師 21、151–165 (1998)。
Google スカラー
Thompson, J.、Samirateu, V. & Rafter, J. 初めての大学生に対するキャンパス内居住の影響。 NASPA J. 31、41–47 (1993)。
記事 Google Scholar
Tinto, V. 学生維持の研究と実践: 次に何をするか? J.Coll. スタッド。 レット。 8、1–19 (2006)。
記事 Google Scholar
レーザー、D.ら。 計算社会科学。 サイエンス 1979(323)、721–723 (2009)。
記事 Google Scholar
Yarkoni, T. & Westfall, J. 心理学における説明より予測の選択: 機械学習からの教訓。 視点。 サイコル。 科学。 12、1100–1122 (2017)。
記事 PubMed PubMed Central Google Scholar
Peters, H.、Marrero, Z.、Gosling, SD 心理学者のためのビッグデータ ツールキット: データ ソースと方法論。 テクノロジーの心理学: ビッグデータ時代の社会科学研究。 87–124 (アメリカ心理学会、2022)。 土井:https://doi.org/10.1037/0000290-004。
フィッシャー、C.ら。 教育におけるビッグデータのマイニング: アフォーダンスと課題。 Rev. Res. 教育する。 44、130–160 (2020)。
記事 Google Scholar
ヒルベルト、S.ら。 教育科学のための機械学習。 教育牧師。 9、e3310 (2021)。
記事 Google Scholar
国立教育アカデミー。 教育におけるビッグデータ: 教育研究の利点と学生のプライバシーのバランスをとる。 (2017年)。
Aulck, L.、Nambi, D.、Velagapudi, N.、Blumenstock, J. & West, J. Mining 大学の登録担当者の記録により、学部 1 年生の減少を予測します。 内部。 教育する。 データ最小値社会 (2019年)。
Beaulac, C. & Rosenthal, JS ランダム フォレストを使用して大学生の学業上の成功と専攻を予測します。 解像度高学歴。 60、1048–1064 (2019)。
記事 Google Scholar
Berens, J.、Schneider, K.、Görtz, S.、Oster, S. & Burghoff, J. 危険にさらされている学生を早期に検出し、管理上の学生データと機械学習手法を使用して学生の中退を予測します。 SSRN 3275433 (2018) で入手可能です。
Dawson, S.、Jovanovic, J.、Gašević, D.、Pardo, A. 予測から影響まで: 学習分析保持プログラムの評価。 第 7 回国際学習分析 & 知識会議議事録 474–478 (2017)。
Dekker, GW、Pechenizkiy, M. & Vleeshowers, JM 生徒の退学予測: ケーススタディ。 内部。 仕事。 グループ教育。 データ最小値 (2009年)。
del Bonifro, F.、Gabbrielli, M.、Lisanti, G. & Zingaro, SP 学生の中退予測。 教育における人工知能に関する国際会議 129–140 (Springer、2020)。
Hutt, S.、Gardner, M.、アラバマ州ダックワース & サウスカロライナ州ディメロ 大学の願書からの予定通りの卒業を予測するモデルの公平性と一般化可能性を評価。 内部。 教育する。 データ最小値社会 (2019年)。
Jayaprakash、SM、Moody、EW、Lauría、EJM、Regan、JR、Baron、JD 学業上のリスクにさらされている学生に対する早期警告: オープンソースの分析イニシアチブ。 J. 学びなさい。 アナル。 1、6–47 (2014)。
記事 Google Scholar
Balakrishnan, G. & Coetzee, D. 隠れマルコフ モデルを使用して、大規模なオープン オンライン コースにおける生徒の定着率を予測します。 選出します。 工学計算します。 科学。 大学カリフォルニア バークレー 53、57–58 (2013)。
Google スカラー
Hastie , T. 、Tibshirani , R. & Friedman , J. 統計学習の要素 (Springer シリーズ統計、ニューヨーク、米国、2001)。
MATH を予約する Google Scholar
Chawla 、NV 、Bowyer 、KW 、Hall 、LO & Kegelmeyer 、WP SMOTE: 合成少数派オーバーサンプリング手法。 J.アーティフ。 知性。 解像度 16、321–357 (2002)。
記事 MATH Google Scholar
Zou, H. & Hastie, T. 弾性ネットを介した正則化と変数選択。 JR駅社会セリ。 B ステータスメソドール。 67、301–320 (2005)。
記事 MathSciNet MATH Google Scholar
Friedman, J.、Hastie, T.、Tibshirani, R. 座標降下による一般化線形モデルの正則化パス。 J.Stat. ソフトウェア。 33、1 (2010)。
記事 PubMed PubMed Central Google Scholar
ブライマン、L. ランダムフォレスト。 マッハ。 学ぶ。 45、5–32 (2001)。
記事 MATH Google Scholar
Liaw, A. & Wiener, M. RandomForest による分類と回帰。 R ニュース 2、18 ~ 22 (2002)。
Google スカラー
Pargent, F.、Schoedel, R. & Stachl, C. R. Psyarxiv (2022) の心理学者のための機械学習の入門。
Hoerl、AE および Kennard、RW リッジ回帰。 統計科学百科事典 vol. 8 129–136 (John Wiley & Sons, Inc.、2004)。
Tibshirani, R. なげなわによる回帰縮小と選択。 JR駅社会サー。 B (方法論) 58、267–288 (1996)。
MathSciNet MATH Google Scholar
Hastie、T. & Qian、J. Glmnet のビネット。 巻。 9 1–42 https://hastie.su.domains/Papers/Glmnet_Vignette.pdf (2016)。
Orrù, G.、Monaro, M.、Conversano, C.、Gemignani, A. & Sartori, G. 心理測定および心理学研究における機械学習。 フロント。 サイコル。 2970 年 10 月 (2020 年)。
記事 PubMed PubMed Central Google Scholar
Pargent, F. & Albert-von der Gönna, J. 心理パネル データを使用した予測モデリング。 Zサイコル(2019)。
Pargent, F.、Schoedel, R. & Stachl, C. 教師あり機械学習のベスト プラクティス: 心理学者向けのチュートリアル。 土井:https://doi.org/10.31234/osf.io/89snd (2023)。
Friedman , J. 、Hastie , T. & Tibshirani , R. 統計的学習の要素 Vol. 2 1 (統計における Springer シリーズ、2001)。
数学 Google Scholar
Rijsbergen, V. & Joost, CK 情報検索 Butterworths London。 Google Scholar Google Scholar Digital Library デジタル ライブラリ (1979)。
Molnar, C. 解釈可能な機械学習。 (Lulu.com、2020)。
Aguiar, E.、Ambrose, GA、Chawla, N. v、Goodrich, V. & Brockman, J. エンゲージメントとパフォーマンス: 電子ポートフォリオを使用して、最初の学期の工学系学生の粘り強さを予測します。 ジャーナル オブ ラーニング アナリティクス vol. 1 (2014)。
Chai, KEK & Gibson, D. 時間ベースのモデリングを使用して学部生の減耗のリスクを予測。 内部。 准教授開発者情報社会 (2015年)。
Saenz, T.、Marcoulides, GA、Junn, E. & Young, R. マイノリティ学生における大学経験と学力の関係。 内部。 J.Educ. マナグ (1999)。
Pidgeon, AM、Coast, G.、Coast, G. & Coast, G. 大学生における知覚されたストレス、不安、うつ病の心理社会的調節因子: 国際研究。 J. Soc. を開きます。 科学。 2、23 (2014)。
Google スカラー
Wilcox, P.、Winn, S. & Fyvie-Gauld, M. 「それは大学とは何の関係もありませんでした、ただ人々でした。」:高等教育の初年度の経験における社会的サポートの役割。 スタッド。 高い。 教育する。 30、707–722 (2005)。
記事 Google Scholar
ギフリーダ、DA ティント理論の文化的進歩に向けて。 高等教育牧師 29、451–472 (2006)。
記事 Google Scholar
Triandis, HC、McCusker, C. & Hui, CH 個人主義と集団主義のマルチメソッド調査。 J.Pers. 社会サイコル。 59、1006 (1990)。
記事 Google Scholar
ワトソン D. & クラーク LA 外向性とそのポジティブな感情の核。 パーソナリティ心理学ハンドブック 767–793 (エルゼビア、1997)。
Greff, K.、Srivastava, RK、Koutník, J.、Steunebrink, BR & Schmidhuber, J. LSTM: 探索空間の旅。 IEEEトランス。 ニューラルネットワーク。 学ぶ。 システム。 28、2222–2232 (2017)。
記事 MathSciNet PubMed Google Scholar
アーノルド、ケニア、ピスティリ、メリーランド州 パデューでのコースシグナル: 学習分析を使用して生徒の成功を向上させます。 学習分析と知識に関する第 2 回国際会議議事録 267–270 (2012)。
JM ブラクストン & SA マクレンドン 制度的実践を通じて社会的統合と維持を促進。 J.Coll. スタッド。 レット。 3、57–71 (2001)。
記事 Google Scholar
Sneyers, E. & de Witte, K. 高等教育への介入と学生の成功に対するその影響: メタ分析。 教育する。 Rev. (Birm) 70、208–228 (2018)。
記事 Google Scholar
Jamelske, E. 大学の 1 年生体験プログラムが学生の GPA と定着率に及ぼす影響を測定。 高学歴。 (Dordr) 57、373–391 (2009)。
記事 Google Scholar
JR パーディ氏と VJ ロッサー氏 リビングラーニングコミュニティと 1 年生体験コースにおける 1 年生の学業成績と定着率を調査。 コル。 スタッド。 アフ。 J. 29, 95 (2011)。
Google スカラー
ルンドバーグ、SM et al. 樹木の説明可能な AI を使用して、ローカルな説明からグローバルな理解まで。 ナット。 マッハ。 知性。 2、56–67 (2020)。
記事 PubMed PubMed Central Google Scholar
Ramon, Y.、Farrokhnia, RA、Matz, SC & Martens, D. 行動データからの心理プロファイリングのための説明可能な AI: 金融取引記録からのビッグ 5 性格予測へのアプリケーション。 情報 12, 518 (2021)。
記事 Google Scholar
リファレンスをダウンロードする
コロンビア大学、ニューヨーク州、米国
サンドラ・C・マッツ & ハインリヒ・ピータース
ルートヴィヒ・マクシミリアン大学ミュンヘン、ミュンヘン、ドイツ
クリスティーナ・S・ブコウ
Ready Education、モントリオール、カナダ
クリスティン・ディーコンズ
ザンクト・ガレン大学、ザンクト・ガレン、スイス
クレメンス・スタクル
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
SCM、CB、CS が調査を設計しました。 CDはデータを提供しました。 SCM、CB、HP がデータを分析しました。 SCMとCBが原稿を書きました。 著者全員が原稿をレビューしました。 この研究の以前のバージョンは、SCM と CS の監修を受けた CB の修士論文の一部でした。
Sandra C. Matz への通信。
CD は Ready Education の元従業員です。 他の著者は、この投稿に関して利益相反を起こしていません。
シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。
オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。
転載と許可
Matz、SC、Bukow、CS、Peters、H. 他。 機械学習を使用して、社会人口学的特性とアプリベースのエンゲージメント指標から学生の定着率を予測します。 Sci Rep 13、5705 (2023)。 https://doi.org/10.1038/s41598-023-32484-w
引用をダウンロード
受信日: 2022 年 8 月 9 日
受理日: 2023 年 3 月 28 日
公開日: 2023 年 4 月 7 日
DOI: https://doi.org/10.1038/s41598-023-32484-w
次のリンクを共有すると、誰でもこのコンテンツを読むことができます。
申し訳ございませんが、現在この記事の共有リンクは利用できません。
Springer Nature SharedIt コンテンツ共有イニシアチブによって提供
コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。