asd

談話（会話テキスト）から LLM/PLM で ASD 特性・指標を推定する先行研究サーベイ（国内・海外）

Last updated: 2026-02-27 (JST)
Owner: 福原玄（draft for GitHub sharing）
Scope: 談話/会話テキスト（書き起こし・自由記述・口頭自由回答の転記） → LLM/PLM → ASD関連の指標（分類/回帰/症状項目）

1. エグゼクティブサマリー（要点）

「談話 × LLM/PLM × ASD」の研究は 2024〜2026 で増えているが、主流は
- (A) ASD/TD の二値分類（小規模・非公開データが多い）
- (B) ADOS の特定項目（例：A4）など“限定ターゲット”の推定
- (C) 重症度（連続値）回帰（主に PLM + ASR/転記、言語は英語/韓国語が中心）
一方で、AQ/SRS 等の“多次元 traits（連続プロファイル）”を談話から直接推定し、再現可能に比較評価した形は、少なくとも本調査範囲では明確な定番ベンチマークとして確立していない（＝ギャップになり得る）。

2. 調査方針（検索戦略と選定基準）

2.1 検索チャネル

医学・心理: PubMed
計算言語: ACL Anthology / LREC-COLING / Interspeech 周辺
プレプリント: arXiv / OpenReview
国内: 学会公開PDF（例：SICE支部研究会資料）

2.2 代表的検索クエリ（概念組合せ）

(autism OR ASD OR “autistic traits” OR ADOS OR SRS OR AQ)
AND (dialogue OR conversation OR discourse OR transcript OR “open-ended”)
AND (LLM OR “large language model” OR GPT OR ChatGPT OR BERT OR RoBERTa)
日本語: (自閉スペクトラム OR ASD) AND (会話 OR 談話 OR 書き起こし OR 自由記述) AND (大規模言語モデル OR BERT OR GPT)

2.3 インクルージョン/エクスクルージョン

Include

入力が「会話/談話テキスト」（面接転記、自由記述、口頭自由回答の書き起こし等）
出力がASD関連（分類 or 症状項目 or 重症度/スコア回帰）
LLM/PLM の利用が明確（BERT/RoBERTa を含める）

Exclude

LLMが“支援チャット”用途のみで、推定タスクが主目的でない
入力が主に画像・視線・骨格など（比較背景としては別）

3. 主要先行研究（国内・海外）

できるだけ 方法 / 評価指標 / データセット を揃えて整理。
データ公開性は臨床系で制約が強いため「公開/非公開/不明」を明示。

3.1 国内（日本語）

[JP-1] Nakamura ら（2025, SICE 東北支部研究会資料）

タスク: ADOS-2 会話テキストから 4分類（ASD / Spectrum / Gray-zone / TD）
入力: ADOS-2 の「検査者−被験者」会話（日本語）
データ: 合計 96（ASD 28 / Spectrum 24 / Gray-zone 24 / TD 20）
特徴量/モデル:
- 統計特徴（フィラー頻度、発話比率、品詞頻度など）
- BERT 由来の文脈一貫性/文類似度などを数値化
- LightGBM（多クラス） + SHAP
評価指標: Accuracy / Precision / Recall / F1（クラス別）
代表結果: Accuracy=0.49、ASDクラス F1=0.53（報告値）
公開性: データ/コードは明示的公開なし（学会資料PDFは公開）

Ref:

PDF: https://www.topic.ad.jp/sice/htdocs/papers/353/353-9.pdf

3.2 海外（英語・スペイン語・韓国語など）

[INT-1] Hu et al.（2025, npj Digital Medicine）

タスク: ADOS-2 Module 4 対話から ADOS項目A4（常同的/独特な言語使用）の有無（二値） を推定
入力: Examiner–Participant dialogue（対話転記）
※重要ポイント: 話者分離（speaker diarization）品質が性能に強く影響
データ: Caltech ADOS 音声/映像由来
参加者 35 名 / 録音 44 本 → シナリオ単位のサンプル（最終 463 など、論文記載に基づく）
モデル:
- 生成LLM（GPT系、Gemini Flash、Mistral、Qwen 等）を ゼロショットで評価
- ベースライン: BERT / RoBERTa / XLNet / ALBERT / DistilBERT など
評価指標: Accuracy / PPV / Sensitivity(Recall) / F1
代表結果（報告値）:
- w/ human diarization + GPT: Accuracy≈0.82, F1≈0.8657
- w/o diarization: F1 が大きく低下
公開性:
- コード: 公開（GitHub）
- データ: 臨床データのため公開制約（少なくとも論文上は一般公開として配布していない）

Ref:

Paper (PDF): https://www.nature.com/articles/s41746-025-02133-9.pdf
Code: https://github.com/cbhu523/chatgpt_ASD_diagnosis

[INT-2] Altozano et al.（2026, IEEE JBHI）※オンライン先行 2025 が流通

タスク: 保護者の「自由回答（12問）」から ASD/TD 二値分類
入力: 口頭自由回答の転記（スペイン語、論文では英訳も提示）
データ: 保護者 51 名（TD児の保護者 26 / ASD児の保護者 25）※報告に基づく
モデル/設計:
- 埋め込みモデル + 分類ヘッド（凍結/更新の比較）
- 小型ローカルPLM（mRoBERTa base など）
- GPT-4o をゼロショット評価（“質問+回答”を明示する入力形式などを比較）
- 被験者単位リークを防ぐ ネストCV（外側5-fold / 内側4-fold）
- 質問単位モデル→投票で被験者単位へ集約
評価指標: Accuracy / TPR / TNR / ROC-AUC（主指標として提示）
代表結果（報告値）:
- 最良条件で ROC-AUC=1.00（小標本・設計上の注意は必要）
公開性: データ/コード公開は明示が弱い（要確認）

Ref:

PubMed: https://pubmed.ncbi.nlm.nih.gov/40815586/
Full text（掲載/転載元の一例）: https://www.researchgate.net/publication/394503219_Enhancing_Psychological_Assessments_with_Open-Ended_Questionnaires_and_Large_Language_Models_An_ASD_Case_Study

[INT-3] Mun et al.（2024, arXiv / Interspeech 流通）

タスク: ASD児の発話（ASR/人手転記）から Social Communication Severity（連続値） を回帰推定
入力: 子ども発話の転記テキスト（韓国語）
データ: ASD 168 / TD 40（ASR微調整などの記載に基づく）
重症度ラベルは SLP 複数名評価の平均など（論文記載に基づく）
パイプライン:
- ASR（wav2vec2 / Whisper）→ 転記 → PLM（KR-BERT / KLUE RoBERTa / KR-ELECTRA）
- low-resource 条件で manual prompt / p-tuning（PEFT）を比較
評価指標: Pearson correlation coefficient（PCC）
代表結果（報告値）:
- 条件によって PCC が大きく変動（高い値〜不安定まで幅）
公開性: データ公開は不明/制約が強い可能性

Ref:

arXiv: https://arxiv.org/abs/2409.00158
PDF: https://arxiv.org/pdf/2409.00158

[INT-4] Lee et al.（2024, LREC-COLING）※データ資源（韓国語）

位置づけ: ASD 音声/言語コーパス整備（推定モデル研究の土台）
公開性・取得条件は論文に依存（DUA等の可能性あり）

Ref:

ACL Anthology: https://aclanthology.org/2024.lrec-main.1318/
PDF: https://aclanthology.org/2024.lrec-main.1318.pdf

[INT-5] Feng et al.（2024, arXiv/OpenReview）

位置づけ: ASD児を含む 臨床観察会話（child-adult interaction） を LLM で多タスク理解
※ASD/traits 推定そのものではないが、臨床談話×LLMの代表例
タスク例: 活動/観察ラベル、言語スキル、年齢等を推定（F1で評価）
公開性: 元コーパス制約に依存

Ref:

arXiv PDF: https://arxiv.org/pdf/2411.10761
OpenReview PDF: https://openreview.net/pdf?id=3Pynfd5HIy

[補足] Mukherjee et al.（2023, IJACSA）

ASD関連を “親の対話文” から検出と主張するが、データ構築・再現性の記載が弱く、臨床/研究のベンチマークとしては慎重扱い推奨。

Ref:

PDF（例）: https://pdfs.semanticscholar.org/dbe4/4060dee07cfd598d39d2035593ee3fe2fdfc.pdf
Journal page: https://thesai.org/Publications/ViewPaper?Code=IJACSA&Issue=10&SerialNo=41&Volume=14

4. 比較表（方法・評価・データセット）

| ID | 研究 | 入力（談話） | 出力（ASD関連） | 言語 | データ規模（報告） | 中核モデル | 指標 | 代表性能（報告） | 公開性 | |—|—|—|—|—|—:|—|—|—|—| | JP-1 | Nakamura 2025 | ADOS-2会話転記 | 4分類 | 日本語 | 96 | BERT由来特徴 + LightGBM | Acc/F1 | Acc=0.49 | PDFのみ | | INT-1 | Hu 2025 npj | ADOS-2対話転記（話者分離重要） | ADOS A4 二値 | 英語 | 35人/44録音→463サンプル等 | ゼロショLLM + diarization 比較 | Acc/PPV/Recall/F1 | F1≈0.8657（human diarization） | code○/data× | | INT-2 | Altozano 2026 JBHI | 保護者自由回答（口頭→転記） | ASD/TD 二値 | 西語 | 51 | 埋め込み/PLM + GPT-4o ゼロショ | Acc/TPR/TNR/AUC | AUC=1.00（最良条件） | 不明 | | INT-3 | Mun 2024 | 子ども発話（ASR/人手転記） | 重症度回帰（連続） | 韓国語 | ASD168/TD40等 | ASR + KR-PLM + prompt/p-tuning | PCC | 条件依存（高PCC報告あり） | 不明 | | INT-5 | Feng 2024 | 臨床観察会話転記 | 多タスク（技能/属性など） | 英語 | 複数コーパス | LLMプロンプト | F1 | タスク別に幅 | 不明 |

5. 重要な観察（「刺さる」ギャップの言語化）

5.1 既存研究の“中心線”

限定ターゲット（ADOS項目など）は成立しやすい
- タスク定義が明確、臨床的解釈もつけやすい（Hu 2025）
二値分類（ASD/TD）は報告が多いが、
- 小標本・非公開データ・外部検証不足が残りやすい（Altozano 2026 など）
重症度回帰は可能性があるが、
- ASR/転記誤差・プロンプト設計でブレが大きく、評価の安定性が課題（Mun 2024）

5.2 明確に薄い（＝ブルーオーシャンになり得る）領域

談話 → 多次元のASD traits（例：AQ/SRS、または複数ドメインの連続スコア）
を 再現可能な評価設計（リーク防止、外部検証、ベースライン比較、ロバスト性評価） で揃えた研究が薄い。
特に 日本語談話では、生成LLMを主役に据えた比較評価はまだ限定的（少なくとも公開資料としては）。

イントロ用ギャップ文（草案）「談話からLLM/PLMでASD関連指標を推定する研究は増えているが、公開可能な評価設計の下で、多次元の“特性プロファイル”を再現可能に推定・解釈する枠組みはまだ不足している。」

6. 研究設計への示唆（私たちの強みを最大化するなら）

6.1 “診断”ではなく “特性（traits）推定”として立て付ける

臨床的・倫理的な議論が通りやすい（支援・研究用途、スクリーニング補助の位置づけ）

6.2 追加すべき評価軸（差別化ポイント）

リーク防止: subject-wise split（被験者単位で完全分離）
外部検証: 別収録条件/別コーパス/別方言
ロバスト性: ASR誤差・話者分離誤差を注入して性能変動を計測（Hu 2025 を踏襲拡張）
説明可能性: どの談話特徴が効いたか（語用論・相互行為特徴量 + LLMの判断根拠を分離して扱う）

7. タイムライン（研究潮流）

timeline
  title Discourse × Language Models × ASD: confirmed milestones
  2024 : Mun et al. (ASR→transcript→PLM) predicts severity (regression)
  2025 : Nakamura et al. (JP ADOS-2 text) BERT-features + LightGBM + SHAP
  2025 : Hu et al. (npj DM) zero-shot LLM for ADOS item (A4); diarization critical
  2026 : Altozano et al. (IEEE JBHI) open-ended questionnaires + LLMs for ASD/TD

8. 参考リンク集

[JP]

Nakamura et al. 2025 (SICE 東北支部 353-9 PDF) https://www.topic.ad.jp/sice/htdocs/papers/353/353-9.pdf

[INT: ADOS-2 dialogue × LLM (npj Digital Medicine, 2025)]

Hu et al. 2025 (npj Digital Medicine) PDF https://www.nature.com/articles/s41746-025-02133-9.pdf
Code (GitHub) https://github.com/cbhu523/chatgpt_ASD_diagnosis

[INT: Open-ended questionnaire × LLM (IEEE JBHI, 2026)]

Altozano et al. 2026 (PubMed) https://pubmed.ncbi.nlm.nih.gov/40815586/
Full text (example) https://www.researchgate.net/publication/394503219_Enhancing_Psychological_Assessments_with_Open-Ended_Questionnaires_and_Large_Language_Models_An_ASD_Case_Study

[INT: Severity regression (2024)]

Mun et al. 2024 arXiv https://arxiv.org/abs/2409.00158 https://arxiv.org/pdf/2409.00158

[INT: Korean ASD speech resource (LREC-COLING 2024)]

Lee et al. 2024 (ACL Anthology) https://aclanthology.org/2024.lrec-main.1318/ https://aclanthology.org/2024.lrec-main.1318.pdf

[INT: LLM analysis of child-adult interactions (2024)]

Feng et al. 2024 arXiv https://arxiv.org/pdf/2411.10761
OpenReview PDF https://openreview.net/pdf?id=3Pynfd5HIy

[Supplement (lower confidence / reproducibility)]

Mukherjee et al. 2023 (IJACSA) PDF (example mirror) https://pdfs.semanticscholar.org/dbe4/4060dee07cfd598d39d2035593ee3fe2fdfc.pdf https://thesai.org/Publications/ViewPaper?Code=IJACSA&Issue=10&SerialNo=41&Volume=14