เราต้องการจะแยกคนที่มีภาวะซึมเศร้ากับอัตราเสี่ยงที่จะมีการฆ่าตัวตายบนโลกโซเชียลมีเดีย
- Forums - การพูดคุย Topics กัน
- Microblogs - ทำข้อความสั้นๆได้ เช่น Twitter
- Products/services review - ให้คนมารีวิวสินค้าว่ามันดีไม่ดี (เขาจะนำข้อมูลข้อความไปวิเคราะห์ประเภทลูกค้า)
- Social networks - มันจะให้คนสร้างโปรไฟล์ สามารถสนใจร่วมกันได้ โพสต์รูปภาพ โพสต์ลิ้งค์
- Photo sharing - Instagram แชร์รูปภาพ
ฉะนั้นวัตถุประสงค์หลักๆของแต่ละแพลตฟอร์ม เขาใช้ไปเพื่ออะไร เราจะศึกษาพฤติกรรมคนได้ถูกต้องของสื่อสังคม
การแบ่งประเภทของ Social Media ตามจุดมุ่งหมาย
มันอยู่ที่วัตถุประสงค์ของคนว่าจะโพสตจ์ยังไง แล้วก็ Algorithm ว่าจะแลกเปลี่ยนความคิดกัน
User Data Collection
- สำหรับการเก็บข้อมูลเราก็จะเชิญเขามาร่วมกับงานวิจัยของเรา เช่น
- สอบถามโดยตรงผ่าน Questionnaires ว่าเขามีภาวะซึมเศร้าอยู่หรือไม่ CSD เพื่อนำมา Label
- EHR -> ได้รับการยืนยันจากแพทย์แล้วว่าเป็น
- Aggregating data extracted จากโพสต์ออนไลน์
- I was diagnosed with [condition name]" เราก็จะมีนักวิจัยมา Annotate ว่าเขาพูดเกี่ยวกับมันจริงๆไหม เพื่อมา label
- Available Datasets
พฤติกรรมซึมเศร้าเป็นยังไง
CountVectorizer -> ดู Bag of words ที่มี Frequency ของคำนั้นๆอยู่ โดยใช้ fit_transform (ดูว่ามีการใช้อยู่ในคอลัมน์ไหนบ้าง)
LIWC-22 ในการใช้คำมากน้อยขนาดไหน เช่น เอาไว้ตรวจจับคำเชิงบวกหรือลบ
สีแดงคือคนที่มีภาวะซึมเศร้า กับคนที่มีความปกติ เช่น ดูว่ามีการโพสต์บ่อยขนาดไหน ภาวะซึมเศร้าไม่ค่อยเคลื่อนไหว เขยื้อนตัวทำให้เขาโพสต์น้อย ไม่ค่อย Replies
การใช้คำเชิง Negative เชิงลบ แล้วก็ Activation ต่ำกว่าปกติ
อาจจะพูดถึงคนอื่นน้อย แล้วก็จะใช้คำว่า I (ตัวเองเยอะกว่า) เกี่ยวกับคำสาบาน และ เกี่ยวกับภาวะเหนื่อย ซึมเศร้า Depression term คนซึมเศร้าจะมีมากกว่า
ดังนั้นเราจะสกัดข้อมูลออกมาได้อย่างถูกต้อง ตามพฤติกรรมของคนปกติ
เอาคำที่ได้มา negative / positive features ออกมา
ROC curves - ควรจะทำได้เหนือเส้นประ
เช่นผ่านวิดีโอข้อความ ว่ามีโอกาสเป็นซึมเศร้าหรือไม่ซึมเศร้า คุณควรจะหาคนที่ให้คำปรึกษาดีไหม ทำให้คุณหมอสามารถให้คำปรึกษาได้ทัน ฉะนั้นถ้าเขาไม่โพสต์ เราก็ไม่สามารถ Detect ได้ หากเราไม่สามารถ Detect จาก Media