资讯

Reddit现已封锁互联网档案馆 (IA)对热门Reddit帖子的索引,原因是发现一些被限制抓取Reddit数据的AI公司,转而从IA的存档内容中抓取数据。 此前,IA的Wayback ...
AI公司发现通过Wayback Machine抓取Reddit的历史数据,既无需遵守Reddit的平台政策(如付费、合规协议),又能获取训练所需的大量内容,于是就利用这一漏洞开始了违规“曲线获取数据”的行为。 Reddit发言人Tim ...
Reddit 发言人在向媒体解释这一变化时表示,这是因为一些 AI 企业以违反平台政策的方式通过互联网档案馆的存档页面抓取该企业数据。Reddit 允许企业付费抓取 AI 所需的数据,但 经由互联网档案馆间接访问显然绕过了这一规定 。
最初,数据抓取只是业余爱好者的一种边缘策略,如今已演变成一个由商业数据聚合器驱动的、价值数百亿元的复杂生态系统——自动机器人在面向公众的网站上撒下大网,收集价格数据、产品列表、评论等,其速度通常比人类点击“刷新”的速度还要快。如今,这些实体经常绕过传 ...
十轮网科技资讯 on MSN10 小时

Reddit将封锁Internet Archive的大部分爬取

The Verge本周报道,社交新闻平台Reddit即将封锁网际网络文件馆(Internet Archive)对该平台的大部分爬取,原因是许多AI企业都借由该馆的时光机(Wayback Machine)功能来抓取Reddit内容。
很具代表性的会议自然是饱受争议的 NeurIPS 2025,不仅被逼近 30000 篇的海量论文搞的焦头烂额,陷入低质评审风波,甚至闹出了 「Who's Adam」 的笑话。而且也因出席人数激增及美国签证问题开放了墨西哥分会场。
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)投稿或寻求报道 | zhanghy@csdn.net对于不少忠实 Firefox 用户来说,他们选择这个浏览器是为了远离臃肿、复杂、隐私风险高的产品。但最近的一个新功能,却让 Firefox ...
熟悉苹果产品的朋友可能知道,在苹果今年早些时候的一篇论文里,就提到过桌面机器人这个构想,当时还放出了展示,内部人戏称为“皮克斯台灯”。
播放量250万,月活听众超王菲,一支你找不到真人的“AI乐队”正在颠覆音乐圈。Velvet ...
受大语言模型(LLMs)等技术发展的推动,AI 领域的论文发表量正经历指数级飙升,预计未来将增长数倍。这种爆炸性增长已引发严重问题:海量的投稿不仅淹没了同行评审系统,引发了对其公正性的担忧,也为学术不端行为提供了可乘之机。